728x90
반응형
Tip
최신 기출문제를 보면 회귀모형 분류 공식이 자주 출제되므로 공식을 꼭 암기해야 합니다.
평가지표
- 빅데이터 분석 모형은 분류 모형과 회귀 모형에 따라 다른 평가지표를 이용하여 평가한다.
⭐ 분석 모형 설정
- 이상적인 모형에서는 낮은 편향과 낮은 분산으로 설정되어야 한다.
- 편향 : 학습 알고리즘에서 잘못된 가정을 했을 때 발생하는 오차
- 분산 : 훈련 데이터에 내재된 작은 변동으로 발생하는 오차
⭐ 분석 모형 평가 기준
- 구축한 빅데이터의 분석 모형의 유용성을 판단하고 서로 다른 모형들을 비교하여 평가하는 과정은 중요하다.
- 구죽한 분석 모형이 실무에서 사용이 가능할 수 있을지를 판단하기 위해서는 객관적인 평가지표를 통한 평가가 필요하다.
- 빅데이터 분석 모형은 만든 것으로 끝이 아니라 기존 운영 시스템과의 연계 및 통합을 통해서 지속적으로 빅데이터 분석 모형을 개선해 나가야 한다.
- 분석 모형 평가는 구축된 모형이 임의의 모형보다 더 우수한 분류 성과를 보이는지, 고려된 모형들 중 어느 것이 가장 우수한지 등을 분석하는 과정이다.
- 일반화의 가능성, 효율성, 예측과 분류의 정확성으로 구분한다.
⭐ 분석 모형 평가방법
- 분석 모형 평가방법은 종속변수 유형에 따라 다르다.
- 범주형 : 혼동 행렬
- 연속형 : RMSE(평균 제곱근 오차)
- 예측모형에서 회귀모형은 RMSE를 사용하고 분류모형은 혼동 행렬 평가지표를 사용한다.
회귀모형의 평가지표
① SSE
- 오차 제곱합(Error Sum of Square)
- 예측값과 실젯값의 차이(오차) 제곱의 합
- 회귀 모형 평가에 많이 사용되는 지표
② SST
- 전체 제곱합(Total Sum of Square)
- 예측값과 실젯값의 차이(오차) 제곱의 합
- 회귀 모형 평가에 많이 사용되는 지표
③ SSR
- 회귀 제곱합(Regression Sum of Squares)
- 예측값과 평균갑스이 차이의 제곱 합
④ AE
- 평균 오차(Average Error)
- 예측한 결괏값의 오류 평균
- 예측값들이 평균적으로 미달하는지 초과하는지 확인
⑤ MAE
- 평균 절대 오차(Mean Absolute Error)
- 평균 오차 절댓값의 평균
⑥ RMSE
- 평균 제곱근 오차(Root Mean Square Error)
- SSE 평균의 제곱근
⑦ MAPE
- 평균 절대 백분율 오차
- 예측이 실젯갑셍서 평균적으로 벗어나는 정도를 백분율로 표현
- 절대 평균 오차(MAE)를 계산할 때 실젯값에 대한 상대적인 비율을 고려하여 계산된 값
⑧ MPE
- 평균백분율 오차(Mean Percentage Error)
- 예측값들이 평균적으로 미달하는지 초과하는지에 대한 백분율
⑨ 결정계수
- 선형 회귀 분석의 성능 검증지표로 많이 이용
- 회귀 모형이 실젯값을 얼마나 잘 나타내는지에 대한 비율
- 결정계쑤가 1에 가까울수록 실젯값을 잘 설명한다.
- 0 ~ 1의 값을 가진다.
- 독립변수의 개수가 많은 모형의 평가에는 사용이 부적합
⑩ 수정된 결정계수
- 모형에 유의하지 않은 변수의 개수가 증가하더라도 결정계수는 증가하는 단점을 보완
- 적절하지 않은 독립변수를 추가하는 것에 페널티를 부과한 결정계수
- 적절하지 않은 변수들을 추가할수록 수정된 결정계수의 값은 감소
- 반대로 모형에 유용한 변수들을 추가할수록 수정된 결정값은 증가
- 수정된 결정계수는 결정계수보다 항상 작음
- 독립변수의 개수가 많은 모형을 평가할 때 사용 가능
⑪ Mallow's C
- 수정된 결정계수와 마찬가지로 적절하지 않은 독립변수추가에 대한 페널티를 부과한 통계량
- Mallow's C가 작을수록 실젯값을 잘 설명한다.
분석 모형의 평가지표 기출문제
Q. 다음 중 이상적인 분석 모형을 위해 Bias와 Variance는 어떻게 설정되어야 하는가? [2회차]
① 높은 Bias, 높은 Variance가 있을 때
② 낮은 Bias, 높은 Variance가 있을 때
③ 낮은 Bias, 낮은 Variance가 있을 때
④ 높은 Bias, 낮은 Variance가 있을 때
더보기
③ 낮은 Bias, 낮은 Variance가 있을 때
Q. 다음 중 분석 모형의 평가방법에 대한 설명으로 틀린 것은? [2회차]
① 종속변수의 유형에 따라 선택하는 평가방법이 다르다.
② 종속변수의 유형이 범주형일 때는 혼동 행렬을 사용할 수 있다.
③ 종속변수의 유형이 연속형일 때는 RMSE를 사용할 수 있다.
④ 종속변수가 범주형일 때 임곗값이 바뀌면 정분류율은 변하지 않는다.
더보기
④ 종속변수가 범주형일 때 임곗값이 바뀌면 정분류율은 변하지 않는다.
Q. 다음 중 분석 모형의 평가방법에 대한 설명으로 틀린 것은? [2회차]
① 종속변수의 유형에 따라 선택하는 평가방법이 다르다.
② 종속변수의 유형이 범주형일 때는 혼동 행렬을 사용할 수 있다.
③ 종속변수의 유형이 연속형일 때는 RMSE를 사용할 수 있다.
④ 종속변수가 범주형일 때 임곗값이 바뀌면 정분류율은 변하지 않는다.
더보기
④ 종속변수가 범주형일 때 임곗값이 바뀌면 정분류율은 변하지 않는다.
728x90
반응형
'자격증 > 빅데이터분석기사' 카테고리의 다른 글
[빅데이터분석기사 필기] 매개변수 최적화 개념 및 기출문제 (0) | 2022.09.29 |
---|---|
[빅데이터분석기사 필기] 과대 적합 개념 및 기출문제 (0) | 2022.09.29 |
[빅데이터분석기사 필기] 적합도 검정 개념 및 기출문제 (0) | 2022.09.29 |
[빅데이터분석기사 필기] 모수 유의성 검정 개념 및 기출문제 (1) | 2022.09.29 |
[빅데이터분석기사 필기] 교차검증 개념 및 기출문제 (1) | 2022.09.29 |