[Data analysis] Data leakage
Data leakage
-
Problem 1
-
나이키는 신발 재료 비용을 줄이기 위해서 당신을 고용했다. 당신의 첫 번째 task는 각 생산직 직원이 필요한 신발끈의 개수를 예측하는 것이다.
-
사용 가능한 Feature는
-
이번 달이 몇 월인지
-
전월 광고비
-
현재 다양한 사회적 특징 (실업률 등)
-
이번 달 사용한 가죽의 양
-
예측 결과, 이번 달 사용한 가죽의 양이 절대적인 지표였다. 가죽의 양은 data leakage에 해당하는가?
-
-
Answer 1
-
나는 사용한 가죽의 양은 실제 신발이 몇개나 만들어졌는지를 대략적으로 나마 알 수 있다고 생각해서 데이터 유출이 맞다고 판단했다.
-
답은 월 초에, 필요한 가죽의 양을 모두 결정짓는다면 그건 데이터 유출이 아나지만, 실제 작업이 들어가고 나서 그 양을 판단 지표로 삼는 것은 데이터 유출이라고 하였다.
-
‘실제 사용된 가죽의 양’이 데이터 아니었나? 미리 예측하는건 사용 될 가죽의 양 아닌가..?
-
-
Problem 2
- 당신은 추가적으로 나이키가 주문할 가죽의 양 데이터를 사용할 수 있다. 이건 데이터 유출에 해당하는가?
-
Answer 2
-
답은 신발끈보다 가죽을 먼저 주문한다면 괜찮다 이다.
-
당연한 가정 아닌가 하고 생각했다.. 데이터가 있다는 가정 하 이니까.
-
-
Problem 3
-
당신의 친구는 내일의 암호화폐 가격을 에측하기 위해서
-
통화의 현재 가격
-
지난 24시간 동안 판매된 통화 금액
-
지난 24시간 동안의 통화 가격 변화
-
지난 1시간 동안의 환율 변동
-
지난 24시간 동안 해당 통화를 언급한 새 트윗 수
-
를 사용해서 기계학습 모델을 만들어서, 당신에게 투자를 권유합니다. 본 모델에 어떤 문제가 있습니까?
-
-
Answer 3
-
난 역시 이것도 데이터 유출에 해당하지는 않는다고 보았지만, 사용하는 지표가 너무 적고, 사용하는 기간 또한 너무 적다고 생각해서 문제가 있다고 판단했다.
-
답은 문제는 없지만, 이건 미래의 값을 예측할 뿐, 그 이후의 상승 혹은 하락을 알려주지는 않기 때문에 위험할 수 있다고 한다.
-
Problem 4
- 당신은 환자가 수술을 받았을 때, 해당 환자의 감염 여부를 확인하고 싶어한다. 예측 모델을 만들 때, 당신은 의사별로 감염률을 계산하고, 외과의가 누군지에 따라서 해당 외과의사의 감염률을 예측하려고 한다. 해당 방식은 데이터 유출에 해당하는가?
-
Answer 4
-
나는 예측하고자 하는 집단과, Training 하고자 하는 집단이 겹치지 않으면 데이터 유출은 없다고 보았다.
-
정답도 마찬가지였다.
-
-
Problem 5
-
당신은 주택 가격을 예측하는 모델을 구축합니다. 사용할 특징들은
-
집의 크기
-
같은 동네 주택의 평균 매매가
-
집의 위도 / 경도
-
집에 지하실이 있는지의 여부
-
이 중 데이터 유출의 가능성이 가장 큰 특징은 어떤 것 입니까?
-
-
Answer 5
-
나는 Target과 가장 유사한 특징이 있는 ‘같은 동네 주택의 평균 매매가’가 데이터 유출의 가능성이 크다고 보았다.
-
평균 매매가 안에 내가 예측하고자 하는 집이 포함될 수도 있잖아.
-
정답은 역시 ‘같은 동네 주택의 평균 매매가’였다.
-
극단적인 경우, 같은 동네에서 판매된 주택이 내가 예측할 주택 하나밖에 없을 수도 있고, 포함된 경우에 Sample이 적으면 적을 수록 데이터 유출이 더 커지는 것이기 때문에 문제가 있다고 하였다.
-
댓글남기기