자격증/빅데이터분석기사

빅데이터분석기사 필기 - 불균형 데이터 처리 방법과 기출문제

j9m 2022. 10. 1. 06:44

728x90

불균형 데이터 처리

데이터에서 각 클래스가 갖고 있는 데이터의 양이 차이가 큰 경우
분류 데이터에서 분포가 더 높은 클래스를 더 예측하려고 하기 때문에 정확도는 높아질 수 있지만, 분포가 낮은 클래스의 재현율이 낮아지는 문제가 발생할 수 있음
정확도(Accureacy): 전체예측에서 옳은 예측의 비율
정밀도(Precision):예측 값이 True인 것에 대해 실제 값이 True인 지표
재현율(Recall, Sensitivity): 실제값이 True인 것에 대해 예측값이 True인 지표
불균형 상태 그대로 머신러닝 모델을 통해 예측하게 된다면 과대적합 문제가 발생할 수 있다.
학습 데이터셋에서는 높은 성능으로 보이지만, 테스트 데이터에서는 예측 성능이 더 낮게 나올 가능성이 있음
데이터 클래스 비율의 차이가 나면 단순히 데이터가 큰 클래스를 선택할 가능성이 높아져 정확도가 높아지므로 모형의 검증이 어려워 짐

① 과소표집(UnderSampling)

다수 클래스에 해당하는 데이터를 샘플링 하여 사용함(적은 class의 수에 맞춤)
많은 클래스의 데이터 일부만 선택하는 기법으로 정보가 유실되는 단점이 있다.
기법 : 랜덤 과소 표집, ENN, 토멕링크 방법, CNN, OSS
Weight balacing: 학습데이터의 loss 계산 시 적은 클래스에 더 큰 loss값을 갖도록 하는 방법

② 과대표집(Oversampling)

소수 클래스에 해당하는 데이터의 양을 늘려 클래스 간 비율을 적절한 수준으로 맞춤
정보가 손실되지 않는다는 장점, 새로운 테스트 데이터가 추가되면 모델의 결과가 나빠짐
복제된 관측치를 원래 데이터에 추가하면 과대 적합이 초래 될 수 있음
랜덤 과대 표집, SMOTE, Borderline-SMOTE, ADASYN

③ 임계값 이동

임계값을 데이터가 많은 쪽으로 이동시키는 방법이다.
학습 단계에서는 변화업싱 학습하고 테스트 단계에서 임곗값을 이동한다.

④ 앙상블 기법(Ensemble Technique)

같거나 서로 다른 여러가지 모형들의 결과를 종합하여 최종적인 의사결정에 활용하는 기법
서로 다른 여러 가지 모형들의 예측 결과를 종합한다.

728x90

'자격증 > 빅데이터분석기사' 카테고리의 다른 글

[빅데이터분석기사 필기] 2022년 제4회 기출문제 (13)	2024.11.27
빅데이터분석기사 필기 - 분류 모형의 평가지표(혼동 행렬, ROC 곡선, 이익 도표) 개념과 기출문제 (0)	2022.10.01
[빅데이터분석기사 필기] 변수 변환 방법과 기출문제 (0)	2022.10.01
[빅데이터분석기사 필기] 서포트 벡터 머신(SVM)의 개념과 기출문제 (0)	2022.10.01
[빅데이터분석기사 필기] 2021년 2회차 기출문제 (2)	2022.09.30

현재글빅데이터분석기사 필기 - 불균형 데이터 처리 방법과 기출문제

댓글

티스토리툴바