자격증/빅데이터분석기사

[빅데이터분석기사 필기] 적합도 검정 개념 및 기출문제

j9m 2022. 9. 29. 01:52
반응형

적합도 검정

  • 적합도 검정은 표본 집단의 분포가 주어딘 특정 이론을 따르고 있는지를 검정하는 기법이다.
  • 적합도 검정은 가정된 확률이 정해진 경우와 아닌 경우로 유형을 분리할 수 있다.
  • 적합도 검정 기법으로는 카이제곱 검정, 샤피로-윌크 검정, K-S 검정, Q-Q Plot이 있다.

 

적합도 검정 기법 유형

 가정된 확률 검정

  • 가정된 확률이 정해져 있을 경우에 사용하는 검정 방법이다.
  • 카이제곱 검정을 이용하여 검정을 수행한다.

 

⭐ Chi Square Test(카이제곱 검정)

  • R언어에서 chisp.test() 함수를 이용해서 나온 결과의 p-값이 0.05보다 클 경우 관측된 데이터가 가정된 확률을 따른다고 할 수 있다.

 

 정규성 검정

  • 일반적으로 데이터가 정규분포를 따른다는 가정 아래 검정 통계량과 p-값을 계산하므로 정규성 가정을 만족하지 못한다면 모형의 타당성이 떨어지고 모형의 신뢰성을 의심 받게 된다.
  • 따라서, 모형이 정규성 가정을 만족하는지 정규성 검정을 수행하여야 한다.
  • 정규성 검정에는 샤피로-윌크 검정과 콜모고로프-스미르노프 적합성 검정을 이용한다.
  • 시각화를 통한 정규성 검정은 히스토그램, Q-Q Plot이 주로 사용된다.

 

Shapiro-Wilk test(샤피로-윌크 검정)

  • 샤피로-윌크 검정은 데이터가 정규분포를 따르는지 확인하기 위한 검정 방법이다.
  • 샤피로-윌크 검정은 R에서 함수를 이용하여 검정하며 이때 귀무가설은 '표본은 정규분포를 따른다.'이다.
  • 일반적으로 표본의 수가 많을 경우에는 K-S검정을, 데이터가 적을 경우에는 샤피로-윌크 검정을 사용한다.

 

Kolmogorov–Smirnov test(콜모고로프-스미르노프 적합성 검정)

  • K-S 검정은 데이터가 어떤 특정한 분포를 따르는가를 비교하는 검정 기법이다.
  • 비교 기준이 되는 데이터를 정규분포를 가진 데이터로 두어서 정규성 검정을 실시할 수 있다.

 

Q-Q Plot

  • Q-Q Plot은 그래프를 이용하여 정규성 가정을 시각적으로 검정하는 방법이다.
  • Q-Q Plot에서 대각선 참조선을 따라서 값들이 분포하게 되면 정규성 가정을 만족한다고 할 수 있다.
  • 한쪽으로 치우치는 모습이라면 정규성 가정에 위배되었따고 볼 수 있다.
  • 한쪽으로 치우쳤다고 판단하는 기준이 모호하므로 결과 해석이 상당히 주관적일 수 있다.
  • 따라서 Q-Q Plot은 보조용으로 사용하는 것이 좋다.

https://en.wikipedia.org/wiki/Q%E2%80%93Q_plot

적합도 검정 기출문제

Q. 정규성 검정으로 옳지 않은 것은 무엇인가?

① Q-Q Plot

② Shapiro-Wilk test

③ Kolmogorov–Smirnov test

Chi Square Test

더보기

 Chi Square Test

 

다음글 보러가기

 

[빅데이터분석기사] 과대적합 개념 및 기출문제

이전글 보러가기 적합도 검정 개념 및 기출문제 [빅데이터분석기사] 적합도검정 개념 및 기출문제 이전글 보러가기 모수 유의성 검정 [빅데이터분석기사] 모수유의성검정 개념 및 기출문제 이

ohaengsa.tistory.com

 

반응형