자격증/빅데이터분석기사

빅데이터분석기사 필기 - 분류 모형의 평가지표(혼동 행렬, ROC 곡선, 이익 도표) 개념과 기출문제

j9m 2022. 10. 1. 15:14
반응형

빅데이터분석기사 필기 4과목에서 가장 많이 나오는 유형이므로 모든 내용을 이해 후 암기하셔야 합니다. 특히 혼동 행렬은 시험당 3~4문제가 출제됩니다. 평가지표와 공식은 모두 암기해주세요. 또한 ROC 곡선문제도 1~2문제 출제되며 F1 Score와 카파통계량 중 한문제가 출제됩니다.

분류 모형의 평가지표

  • 분류 모형의 결과를 평가하기 위해서 혼동 행렬을 이용한 평가지표와 ROC곡선의 AUC를 많이 사용한다.
  • 모형의 평가지표가 우연히 나온 결과가 아니라는 것을 카파통계량을 통하여 설명할 수 있다.

 

 혼동 행렬

  • 혼동 행렬은 분석 모델에서 구한 분류의 예측 범주와 데이터의 실제 분류 범주를 교차 표 형태로 정리한 행렬이다.
  • 혼동 행렬을 작성함에 따라 모델의 성능을 평가할 수 있는 평가지표가 도출된다.
  • 모델의 정확도를 예측값과 실제값의 일치 빈도를 통해 평가할 수 있다.
  • TP : 실제값이 Positive이고 예측값도 Positive인 경우
  • TN : 실제값이 Negative이고 예측값도 Negative인 경우
  • FP : 실제값이 Negative이었으나 예측값은 Positive인 경우
  • FN : 실제값이 Positive이었으나 예측값은 Negative인 경우

IT위키

 

 혼동 행렬을 통한 분류 모형의 평가지표

  • 정확도(Accuray) = 정분류율 : 실제 분류 범주를 정확하게 예측한 비율
  • 오차 비율(Error Rate) : 실제분류 범주를 잘못 분류한 비율
  • 참 긍정률(TP Rate) = 재현율(Recall) = 민감도(Sensitivity) : 실제로 '긍정'인 범주 중에서 '긍정'으로 올바르게 예측한 비율
  • 특이도(Specificity) : 실제로 '부정'인 범주 중에서 '부정'으로 올바르게 예측한 비율 
  • 거짓 긍정률(FP Rate) : 실제로 '부정'인 범주 중에서 '긍정'으로 잘못 예측한 비율
  • 정밀도(Precision) : 긍정으로 예측한 비율 중에서 실제로 '긍정'인 비율
  • F-Measure(F1-Score)
    • 정밀도(Precision)와 민감도(Sensitivity)를 하나로 합한 성능평가 지표
    • 0 ~ 1 사이의 범위를 가짐
    • 정밀도와 민감도 양쪽이 모두 끌 때 F-Measure도 큰 값을 가짐

  • 카파 통계량
    • 두 관찰자가 측정한 범주 값에 대한 일치도를 측정하는 방법
    • 0~1의 값을 가지며 1에 가까울수록 모델의 예측값과 실젯값이 정확히 일치하며, 0에 가까울수록 모델의 예측값과 실젯값이 불일치
    • 정확도 외에 카파 통계량을 통해 모형의 평가 결과가 우연히 나온 결과가 아니라는 것을 설명

 

 ROC 곡선

  • ROC곡선은 가로축을 혼동 행렬의 거짓 긍정률(FP Rate)로 두고 세로축을 참 긍정률(TP Rate)로 두어 시각화한 그래프이다.
  • ROC 곡선은 그래프가 왼쪽 꼭대기에 가깝게 그려질수록 분류 성능이 우수하다.
  • FP Rate와 TP Rate는 어느 정도 비례 관계에 있다.
  • AUC는 진단의 정확도를 측정할 때 사용하는 것으로 ROC 곡선 아래의 면적을 모형의 평가지표로 삼는다.
  • AUC의 값은 항상 0.5 ~ 1의 값을 가지며 1에 가까울수록 좋은 모형이다.
  • AUC(Area Under ROC) 0.5일 경우, 랜덤 선택에 가까운 성능을 보인다.

 

 이익도표

  • 분류 모형의 성능을 평가하기 위해서 사용되는 그래프 분석 방법이다.
  • 이익은 목표 범주에 속하는 개체들의 임의로 나눈 등급별로 얼마나 분포하고 있는지를 나타내는 값이다.
  • 이익 도표는 이익 곡선, 리프트 곡선이라고도 부른다.

https://www.quora.com/Whats-Lift-curve

분석 모형의 평가지표 기출문제

Q. 다음 중 분석 모형의 평가방법에 대한 설명으로 틀린 것은? [2회차]

① 종속변수의 유형에 따라 선택하는 평가방법이 다르다.

② 종속변수의 유형이 범주형일 때는 혼동 행렬을 사용할 수 있다.

 종속변수의 유형이 연속형일 때는 RMSE를 사용할 수 있다.

 종속변수가 범주형일 때 임곗값이 바뀌면 정분류율은 변하지 않는다.

더보기

④ 종속변수가 범주형일 때 임곗값이 바뀌면 정분류율은 변하지 않는다.

 

Q. 다음은 암 진단을 예측한 것과 실제 암 진단 결과를 혼동행렬로 나타낸 것이다. 아래 표를 보고 TPR, FPR의 확률을 구계산하시오. ( 단, 결과가 음성이라는 뜻인 0을 Positive로한다.)

① TPR : 9/10, FPR : 1/4

② TPR : 9/10, FPR : 1/48

 TPR : 3/4, FPR : 1/48

 TPR : 3/4, FPR : 1/4

더보기

 TPR : 3/4, FPR : 1/48

 

Q. 다음은 혼동 행렬(Confusion Matrix)에서 참이 0이고 거짓이 1일 때, Specificity와 Precision은 무엇인가? [2회차]

① Specificity : 5/8, Precision : 5/8

② Specificity : 5/8, Precision : 5/6

 Specificity : 5/6, Precision : 5/6

 Specificity : 5/6, Precision : 5/8

더보기

 Specificity : 5/6, Precision : 5/8

 

Q. 다음 중 혼동 행렬에 대한 설명으로 적절하지 않은 것은? [2회차]

① 카파 값(Kappa Value)은 0~1 사이의 값을 가지며, 1에 가까울수록 예측값과 실젯값이 일치함을 알 수 있다.

 부정인 범주 중 부정으로 올바르게 예측한 비율은 민감도(Sensitivity)지표를 사용한다.

 부정인 범주 중 긍정으로 잘못 예측(False Positive)한 비율을 정밀도 라고 하며 TP/(TP+FP)라고 표기한다.

 머신러닝 성능 평가지표 중 정확도를 표기하는 식은 (TP+TN)/(TP+FP+FN+TN)이다.

더보기

 부정인 범주 중 부정으로 올바르게 예측한 비율은 민감도(Sensitivity)지표를 사용한다.

 부정인 범주 중 긍정으로 잘못 예측(False Positive)한 비율을 정밀도 라고 하며 TP/(TP+FP)라고 표기한다.

오류문제 정답두개

 

Q. 다음 중 F1-Score에 들어가는 지표는? [2회차]

① TP Rate, FP Rate

 Accuracy, Sensitivity

 Specificity, Error Rate

 Precision, Recall

더보기

 Precision, Recall

 

Q. 다음 중 ROC 커브에 대한 설명으로 적합하지 않은 것은? [2회차]

① x축은 특이도를 의미한다.

 y축은 민감도를 의미한다.

 AUC(Area Under ROC) 1.0에 가까울수록 분석 모형성능이 우수하다.

 AUC(Area Under ROC) 0.5일 경우, 랜덤 선택에 가까운 성능을 보인다.

더보기

① x축은 특이도를 의미한다.

 

Q.  ROC 곡선에 대한 설명으로 적절하지 않은 것은? [4회차]

① 민감도가 1, 특이도가 0인 점을 지난다.

② 민감도가 0, 특이도가 1인점을 지난다.

③ 가장 이상적인 그래프는 민감도가 1, 특이도가 1인 점을 지난다.

④ 특이도가 증가하는 그래프이다.

더보기

④ 특이도가 증가하는 그래프이다.

 

Q. 혼돈행렬에서의 FN 해석에 대한 것으로 알맞은 것은? [4회차]

① 예측값 False 실제값 False

② 예측값 False 실제값 True

③ 예측값 True 실제값 False

④ 예측값 True 실제값 True

더보기

 예측값 False 실제값 True

 

Q. 데이터 불균형이 있을 경우 사용하는 평가지표로 옳지 않은 것은? [4회차]

① 민감도

② 정확도

③ 오분류율

④ ROC곡선

더보기

② 정확도

불균형 데이터인 경우에는 정확도를 사용하면 안된다. 만약 데이터의 균형이 9:1일 때, 머신러닝의 정확도는 90%가 되기 때문이다.

 

반응형