반응형

불균형데이터 2

빅데이터분석기사 필기 - 분류 모형의 평가지표(혼동 행렬, ROC 곡선, 이익 도표) 개념과 기출문제

빅데이터분석기사 필기 4과목에서 가장 많이 나오는 유형이므로 모든 내용을 이해 후 암기하셔야 합니다. 특히 혼동 행렬은 시험당 3~4문제가 출제됩니다. 평가지표와 공식은 모두 암기해주세요. 또한 ROC 곡선문제도 1~2문제 출제되며 F1 Score와 카파통계량 중 한문제가 출제됩니다. 분류 모형의 평가지표 분류 모형의 결과를 평가하기 위해서 혼동 행렬을 이용한 평가지표와 ROC곡선의 AUC를 많이 사용한다. 모형의 평가지표가 우연히 나온 결과가 아니라는 것을 카파통계량을 통하여 설명할 수 있다. ① 혼동 행렬 혼동 행렬은 분석 모델에서 구한 분류의 예측 범주와 데이터의 실제 분류 범주를 교차 표 형태로 정리한 행렬이다. 혼동 행렬을 작성함에 따라 모델의 성능을 평가할 수 있는 평가지표가 도출된다. 모델의..

빅데이터분석기사 필기 - 불균형 데이터 처리 방법과 기출문제

불균형 데이터 처리 데이터에서 각 클래스가 갖고 있는 데이터의 양이 차이가 큰 경우 분류 데이터에서 분포가 더 높은 클래스를 더 예측하려고 하기 때문에 정확도는 높아질 수 있지만, 분포가 낮은 클래스의 재현율이 낮아지는 문제가 발생할 수 있음 정확도(Accureacy): 전체예측에서 옳은 예측의 비율 정밀도(Precision):예측 값이 True인 것에 대해 실제 값이 True인 지표 재현율(Recall, Sensitivity): 실제값이 True인 것에 대해 예측값이 True인 지표 불균형 상태 그대로 머신러닝 모델을 통해 예측하게 된다면 과대적합 문제가 발생할 수 있다. 학습 데이터셋에서는 높은 성능으로 보이지만, 테스트 데이터에서는 예측 성능이 더 낮게 나올 가능성이 있음 데이터 클래스 비율의 차이..

반응형