자격증/빅데이터분석기사

[빅데이터분석기사 필기] 회귀 모형의 평가지표 개념 및 기출문제

j9m 2022. 9. 29. 03:35
반응형

Tip

최신 기출문제를 보면 회귀모형 분류 공식이 자주 출제되므로 공식을 꼭 암기해야 합니다.

 

평가지표

  • 빅데이터 분석 모형은 분류 모형과 회귀 모형에 따라 다른 평가지표를 이용하여 평가한다.

 

⭐ 분석 모형 설정

  • 이상적인 모형에서는 낮은 편향과 낮은 분산으로 설정되어야 한다.
  • 편향 : 학습 알고리즘에서 잘못된 가정을 했을 때 발생하는 오차
  • 분산 : 훈련 데이터에 내재된 작은 변동으로 발생하는 오차

 

분석 모형 평가 기준

  • 구축한 빅데이터의 분석 모형의 유용성을 판단하고 서로 다른 모형들을 비교하여 평가하는 과정은 중요하다.
  • 구죽한 분석 모형이 실무에서 사용이 가능할 수 있을지를 판단하기 위해서는 객관적인 평가지표를 통한 평가가 필요하다.
  • 빅데이터 분석 모형은 만든 것으로 끝이 아니라 기존 운영 시스템과의 연계 및 통합을 통해서 지속적으로 빅데이터 분석 모형을 개선해 나가야 한다.
  • 분석 모형 평가는 구축된 모형이 임의의 모형보다 더 우수한 분류 성과를 보이는지, 고려된 모형들 중 어느 것이 가장 우수한지 등을 분석하는 과정이다.
  • 일반화의 가능성, 효율성, 예측과 분류의 정확성으로 구분한다.

 

⭐ 분석 모형 평가방법

  • 분석 모형 평가방법은 종속변수 유형에 따라 다르다.
  • 범주형 : 혼동 행렬
  • 연속형 : RMSE(평균 제곱근 오차)
  • 예측모형에서 회귀모형은 RMSE를 사용하고 분류모형은 혼동 행렬 평가지표를 사용한다.

 

회귀모형의 평가지표

① SSE

  • 오차 제곱합(Error Sum of Square)
  • 예측값과 실젯값의 차이(오차) 제곱의 합
  • 회귀 모형 평가에 많이 사용되는 지표

 

SST

  • 전체 제곱합(Total Sum of Square)
  • 예측값과 실젯값의 차이(오차) 제곱의 합
  • 회귀 모형 평가에 많이 사용되는 지표

 

SSR

  • 회귀 제곱합(Regression Sum of Squares)
  • 예측값과 평균갑스이 차이의 제곱 합

 

AE

  • 평균 오차(Average Error)
  • 예측한 결괏값의 오류 평균
  • 예측값들이 평균적으로 미달하는지 초과하는지 확인

 

MAE

  • 평균 절대 오차(Mean Absolute Error)
  • 평균 오차 절댓값의 평균

RMSE

  • 평균 제곱근 오차(Root Mean Square Error)
  • SSE 평균의 제곱근

MAPE

  • 평균 절대 백분율 오차
  • 예측이 실젯갑셍서 평균적으로 벗어나는 정도를 백분율로 표현
  • 절대 평균 오차(MAE)를 계산할 때 실젯값에 대한 상대적인 비율을 고려하여 계산된 값

 MPE

  • 평균백분율 오차(Mean Percentage Error)
  • 예측값들이 평균적으로 미달하는지 초과하는지에 대한 백분율


 결정계수 

  • 선형 회귀 분석의 성능 검증지표로 많이 이용
  • 회귀 모형이 실젯값을 얼마나 잘 나타내는지에 대한 비율
  • 결정계쑤가 1에 가까울수록 실젯값을 잘 설명한다.
  • 0 ~ 1의 값을 가진다.
  • 독립변수의 개수가 많은 모형의 평가에는 사용이 부적합

 

 수정된 결정계수

  • 모형에 유의하지 않은 변수의 개수가 증가하더라도 결정계수는 증가하는 단점을 보완
  • 적절하지 않은 독립변수를 추가하는 것에 페널티를 부과한 결정계수
  • 적절하지 않은 변수들을 추가할수록 수정된 결정계수의 값은 감소
  • 반대로 모형에 유용한 변수들을 추가할수록 수정된 결정값은 증가
  • 수정된 결정계수는 결정계수보다 항상 작음
  • 독립변수의 개수가 많은 모형을 평가할 때 사용 가능

 

Mallow's C

  • 수정된 결정계수와 마찬가지로 적절하지 않은 독립변수추가에 대한 페널티를 부과한 통계량
  • Mallow's C가 작을수록 실젯값을 잘 설명한다.

 

분석 모형의 평가지표 기출문제

Q. 다음 중 이상적인 분석 모형을 위해 Bias와 Variance는 어떻게 설정되어야 하는가? [2회차]

① 높은 Bias, 높은 Variance가 있을 때

② 낮은 Bias, 높은 Variance가 있을 때

③ 낮은 Bias, 낮은 Variance가 있을 때

④ 높은 Bias, 낮은 Variance가 있을 때

더보기

 낮은 Bias, 낮은 Variance가 있을 때

 

Q. 다음 중 분석 모형의 평가방법에 대한 설명으로 틀린 것은? [2회차]

① 종속변수의 유형에 따라 선택하는 평가방법이 다르다.

② 종속변수의 유형이 범주형일 때는 혼동 행렬을 사용할 수 있다.

 종속변수의 유형이 연속형일 때는 RMSE를 사용할 수 있다.

 종속변수가 범주형일 때 임곗값이 바뀌면 정분류율은 변하지 않는다.

더보기

④ 종속변수가 범주형일 때 임곗값이 바뀌면 정분류율은 변하지 않는다.

 

Q. 다음 중 분석 모형의 평가방법에 대한 설명으로 틀린 것은? [2회차]

① 종속변수의 유형에 따라 선택하는 평가방법이 다르다.

② 종속변수의 유형이 범주형일 때는 혼동 행렬을 사용할 수 있다.

 종속변수의 유형이 연속형일 때는 RMSE를 사용할 수 있다.

 종속변수가 범주형일 때 임곗값이 바뀌면 정분류율은 변하지 않는다.

더보기

④ 종속변수가 범주형일 때 임곗값이 바뀌면 정분류율은 변하지 않는다.

 

반응형