728x90
반응형
불균형 데이터 처리
- 데이터에서 각 클래스가 갖고 있는 데이터의 양이 차이가 큰 경우
- 분류 데이터에서 분포가 더 높은 클래스를 더 예측하려고 하기 때문에 정확도는 높아질 수 있지만, 분포가 낮은 클래스의 재현율이 낮아지는 문제가 발생할 수 있음
- 정확도(Accureacy): 전체예측에서 옳은 예측의 비율
- 정밀도(Precision):예측 값이 True인 것에 대해 실제 값이 True인 지표
- 재현율(Recall, Sensitivity): 실제값이 True인 것에 대해 예측값이 True인 지표
- 불균형 상태 그대로 머신러닝 모델을 통해 예측하게 된다면 과대적합 문제가 발생할 수 있다.
- 학습 데이터셋에서는 높은 성능으로 보이지만, 테스트 데이터에서는 예측 성능이 더 낮게 나올 가능성이 있음
- 데이터 클래스 비율의 차이가 나면 단순히 데이터가 큰 클래스를 선택할 가능성이 높아져 정확도가 높아지므로 모형의 검증이 어려워 짐
① 과소표집(UnderSampling)
- 다수 클래스에 해당하는 데이터를 샘플링 하여 사용함(적은 class의 수에 맞춤)
- 많은 클래스의 데이터 일부만 선택하는 기법으로 정보가 유실되는 단점이 있다.
- 기법 : 랜덤 과소 표집, ENN, 토멕링크 방법, CNN, OSS
- Weight balacing: 학습데이터의 loss 계산 시 적은 클래스에 더 큰 loss값을 갖도록 하는 방법
② 과대표집(Oversampling)
- 소수 클래스에 해당하는 데이터의 양을 늘려 클래스 간 비율을 적절한 수준으로 맞춤
- 정보가 손실되지 않는다는 장점, 새로운 테스트 데이터가 추가되면 모델의 결과가 나빠짐
- 복제된 관측치를 원래 데이터에 추가하면 과대 적합이 초래 될 수 있음
- 랜덤 과대 표집, SMOTE, Borderline-SMOTE, ADASYN
③ 임계값 이동
- 임계값을 데이터가 많은 쪽으로 이동시키는 방법이다.
- 학습 단계에서는 변화업싱 학습하고 테스트 단계에서 임곗값을 이동한다.
④ 앙상블 기법(Ensemble Technique)
- 같거나 서로 다른 여러가지 모형들의 결과를 종합하여 최종적인 의사결정에 활용하는 기법
- 서로 다른 여러 가지 모형들의 예측 결과를 종합한다.
728x90
반응형
'자격증 > 빅데이터분석기사' 카테고리의 다른 글
[빅데이터분석기사 필기] 2022년 제4회 기출문제 (13) | 2024.11.27 |
---|---|
빅데이터분석기사 필기 - 분류 모형의 평가지표(혼동 행렬, ROC 곡선, 이익 도표) 개념과 기출문제 (0) | 2022.10.01 |
[빅데이터분석기사 필기] 변수 변환 방법과 기출문제 (0) | 2022.10.01 |
[빅데이터분석기사 필기] 서포트 벡터 머신(SVM)의 개념과 기출문제 (0) | 2022.10.01 |
[빅데이터분석기사 필기] 2021년 2회차 기출문제 (2) | 2022.09.30 |