[빅데이터] Over-Sampling/Under-Sampling(과대표집/과소표집)
1. 불균형 자료
Sampling에 대해 알기 위해선 먼저 불균형 자료에 대해 알아야한다.
불균형 자료는 목표변수의 빈도(분포)가 한쪽으로 치우친 자료를 의미한다.
쉬운 이해를 위해 예를 들어보면 제조 공정의 양품/불량 에서의 불량 데이터, 암 판정의 음성/양성 에서의 양성 데이터 등을 생각해볼 수 있다.
이런 불균형 데이터를 활용한 모델은 정확도는 높을 수 있지만 재현율이 낮아 모델의 성능이 저하될 수 있다.
2. 불균형 자료 처리
불균형 데이터 처리를 위해서는 Over-Sampling과 Under-Sampling이 있다.
1). Over-Sampling
다수의 자료는 모두 선택하고, 무작위 추출로 소수의 자료를 복제한다.
정보 손실은 방지할 수 있지만 복제된 특정 자료를 원래 데이터에 추가하면서 Over Fitting이 될 가능성이 있다.
따라서 원본 데이터의 값을 아주 조금만 변경하여 복제하는 것이 필요하다.
대표적인 방법으로 SMOTE(Synthetic Minority Over-sampling Technique)가 있다.
동일한 데이터를 단순히 증식시키지 않기 위해 개별 데이터들의 KNN을 활용하여 K개 이웃들의 차이를 일정 값으로 만들어 기존 데이터와 약간의 차이를 두는 방식이다.
2). Under-Sampling
무작위로 다수의 자료 중 일부를 선택하고, 소수의 자료 전체를 선택한다.
즉, 유의한 데이터만 남기고 나머지는 활용하지 않는 것을 의미한다.
데이터의 소실이 매우 커서 다수 자료의 중요한 정보가 손실될 우려가 있어 실제 분석에서 Over-Sampling을 더 많이 활용하고 있다.
3. 분석 시 활용방안
모델링을 진행하기 전 바로 실시하기 보다 기본적인 모델로 진행한 후 Recall(재현율) 값을 확인해보고 너무 낮을 때 적용하는 것이 좋을 것 같다.