자격증/빅데이터분석기사

빅데이터분석기사 필기 - 불균형 데이터 처리 방법과 기출문제

j9m 2022. 10. 1. 06:44
728x90
반응형

불균형 데이터 처리

  • 데이터에서 각 클래스가 갖고 있는 데이터의 양이 차이가 큰 경우
  • 분류 데이터에서 분포가 더 높은 클래스를 더 예측하려고 하기 때문에 정확도는 높아질 수 있지만, 분포가 낮은 클래스의 재현율이 낮아지는 문제가 발생할 수 있음
  • 정확도(Accureacy): 전체예측에서 옳은 예측의 비율
  • 정밀도(Precision):예측 값이 True인 것에 대해 실제 값이 True인 지표
  • 재현율(Recall, Sensitivity): 실제값이 True인 것에 대해 예측값이 True인 지표
  • 불균형 상태 그대로 머신러닝 모델을 통해 예측하게 된다면 과대적합 문제가 발생할 수 있다.
  • 학습 데이터셋에서는 높은 성능으로 보이지만, 테스트 데이터에서는 예측 성능이 더 낮게 나올 가능성이 있음
  • 데이터 클래스 비율의 차이가 나면 단순히 데이터가 큰 클래스를 선택할 가능성이 높아져 정확도가 높아지므로 모형의 검증이 어려워 짐

 

과소표집(UnderSampling)

  • 다수 클래스에 해당하는 데이터를 샘플링 하여 사용함(적은 class의 수에 맞춤)
  • 많은 클래스의 데이터 일부만 선택하는 기법으로 정보가 유실되는 단점이 있다.
  • 기법 : 랜덤 과소 표집, ENN, 토멕링크 방법, CNN, OSS
  • Weight balacing: 학습데이터의 loss 계산 시 적은 클래스에 더 큰 loss값을 갖도록 하는 방법

 

과대표집(Oversampling)

  • 소수 클래스에 해당하는 데이터의 양을 늘려 클래스 간 비율을 적절한 수준으로 맞춤
  • 정보가 손실되지 않는다는 장점, 새로운 테스트 데이터가 추가되면 모델의 결과가 나빠짐
  • 복제된 관측치를 원래 데이터에 추가하면 과대 적합이 초래 될 수 있음
  • 랜덤 과대 표집, SMOTE, Borderline-SMOTE, ADASYN

 

임계값 이동

  • 임계값을 데이터가 많은 쪽으로 이동시키는 방법이다.
  • 학습 단계에서는 변화업싱 학습하고 테스트 단계에서 임곗값을 이동한다.

 

앙상블 기법(Ensemble Technique)

  • 같거나 서로 다른 여러가지 모형들의 결과를 종합하여 최종적인 의사결정에 활용하는 기법
  • 서로 다른 여러 가지 모형들의 예측 결과를 종합한다.

 

728x90
반응형