[빅데이터] Over-Sampling/Under-Sampling(과대표집/과소표집)

정리 필요

statschan2 2023. 1. 14. 17:52

728x90

1. 불균형 자료

Sampling에 대해 알기 위해선 먼저 불균형 자료에 대해 알아야한다.

불균형 자료는 목표변수의 빈도(분포)가 한쪽으로 치우친 자료를 의미한다.

쉬운 이해를 위해 예를 들어보면 제조 공정의 양품/불량 에서의 불량 데이터, 암 판정의 음성/양성 에서의 양성 데이터 등을 생각해볼 수 있다.

이런 불균형 데이터를 활용한 모델은 정확도는 높을 수 있지만 재현율이 낮아 모델의 성능이 저하될 수 있다.

불균형 데이터 처리를 위해서는 Over-Sampling과 Under-Sampling이 있다.

다수의 자료는 모두 선택하고, 무작위 추출로 소수의 자료를 복제한다.

정보 손실은 방지할 수 있지만 복제된 특정 자료를 원래 데이터에 추가하면서 Over Fitting이 될 가능성이 있다.

따라서 원본 데이터의 값을 아주 조금만 변경하여 복제하는 것이 필요하다.

대표적인 방법으로 SMOTE(Synthetic Minority Over-sampling Technique)가 있다.

동일한 데이터를 단순히 증식시키지 않기 위해 개별 데이터들의 KNN을 활용하여 K개 이웃들의 차이를 일정 값으로 만들어 기존 데이터와 약간의 차이를 두는 방식이다.

무작위로 다수의 자료 중 일부를 선택하고, 소수의 자료 전체를 선택한다.

즉, 유의한 데이터만 남기고 나머지는 활용하지 않는 것을 의미한다.

데이터의 소실이 매우 커서 다수 자료의 중요한 정보가 손실될 우려가 있어 실제 분석에서 Over-Sampling을 더 많이 활용하고 있다.

모델링을 진행하기 전 바로 실시하기 보다 기본적인 모델로 진행한 후 Recall(재현율) 값을 확인해보고 너무 낮을 때 적용하는 것이 좋을 것 같다.