자격증/빅데이터분석기사

[빅데이터분석기사 필기] 교차검증 개념 및 기출문제

j9m 2022. 9. 29. 00:40
728x90
반응형

교차 검증

  • 교차 검증은 모델의 일반화 오차에 대해 신뢰할 만한 추정치를 구하기 위해 훈련, 평가 데이터를 기반으로 하는 검증 기법이다.
  • 빅데이터 분석 모형을 검증하기 위한 교차 검증으로는 홀드 아웃 교차 검증, K-Fold Cross Validation, LOOCV, LpOCV 등이 있다.

 

 홀드 아웃 교차 검증

  • 전체 데이터를 비복원추출 방법을 이용하여 랜덤하게 훈련 데이터, 평가 데이터로 나눠 검증하는 기법이다.
  • 훈련 데이터로 분석 모형을 구축하고, 평가 데이터를 이용하여 분석 모형을 평가하는 기법이다.
  • 계산량이 많지 않아 모형을 쉽게 평가할 수 있으나 전체 데이터에서 평가 데이터만큼은 학습에 사용할 수 없으므로 데이터 손실이 발생한다.
  • 데이터를 어떻게 나누느냐에 따라 결과가 많이 달라질 수 있다.

 

홀드아웃 교차 검증의 데이터 구분

  • 훈련 데이터 : 분류기를 만들 때 사용하는 데이터
  • 검증 데이터 : 훈련 데이터로 만든 모델이 잘 예측하는지 성능을 평가하기 위한 데이터 세트
  • 평가 데이터 : 검증 데이터로 최종 모델을 선택하고 그 성능을 테스트하기 위해 사용되는 데이터 세트

 

 K-Fold Cross Validation

  • K-Fold Cross Validation은  데이터 집합을 무작위로 동일 크기를 갖는 K개의 부분 집합으로 나누고, 그중 1개의 집합을 평가 데이터로, 나머지 K-1개 집합을 훈련데이터로 선정하여 분석 모형을 평가하는 기법이다.
  • 모든 데이터를 훈련과 평가에 사용할 수 있으나, K값이 증가하면 수행 시간과 계산량도 많아진다.
  • K번 반복을 수행하며 결과를 K에 다수결 또는 평균으로 분석한다.

 

K-Fold Cross Validation절차

  • 동등 분할 ➡️ 훈련/평가 데이터 구성 ➡️ 분류기 학습 ➡️ 분류기 성능 확인
  • 동등 분할 : 전체 데이터를 K개의 같은 크기의 부분집합으로 랜덤하게 나눔
  • 훈련/평가 데이터 구성 : K-1개 부분 집합들은 훈련 데이터로, 나머지 1개 부분 지합은 평가 데이터로 하는 K개의 실험데이터를 구성
  • 분류기 학습 각 실허 ㅁ데이터마다 훈련 데이터로 분류기를 학습시키고, 평가 데이터로 분류기의 성능을 평가
  • 분류기 성능 확인 실험 결과K개를 종합하여 해당 분류기의 최종 성능을 구함

 

Leave-One-Out Cross Validation(LOOCV)

  • LOOCV는 전체 데이터 N개에서 1개의 샘플만을 평가 데이터에 사용하고 나머지 N-1개는 훈련데이터로 사용하는 과정을 N번 반복하는 교차 검증 기법이다.
  • K-Fold와 같은 방법을 사용하며, 이때 K는 전체데이터 N과 같다.
  • 가능한 한 많은 데이터를 훈련에 사용할 수 있지만, 수행 시간과 계산량이 많다.
  • 작은 크기의 데이터에 사용하기 좋다.

 

 LpOCV(Leave-p-Out Cross Validation)

  • LpOCV는 LOOCV에서 1개의 샘플이 아닌 p개의 샘플을 테스트에 사용하는 교차 검증 기법이다.
  • 계산시간에 대한 부담이 매우 크다.

 

부트스트랩(Bootstrap)

  • 부트스트랩은 주어진 자료에서 단순 랜덤 복원추출 방법을 활용하여 동일한 크기의 표본을 여러 개 생성하는 샘플링 방법이다.
  • 무작위 복원추출 방법으로 전체 데이터에서 중복을 허용하여 데이터 크기만큼 샘플을 추출하고 이를 훈련 데이터로 한다.
  • 전체 데이터 샘플이 N개이고 부트스트랩으로 N개의 샘플을추출하는 경우 특정 샘플이 훈련 데이터에 포함될 확률은 약 63.2%이다.
  • 부트스트랩을 통해 1000개의 샘플을 추출하더라도 샘플에 한 번도 선택되지 않는 원 데이터가 발생할 수 있는데 전체 샘플의 약 36.8%가 이에 해당한다.
  • 한번도 포함되지 않은 OOB데이터는 검증에 사용한다.

 

교차 검증 기출문제

Q.  K-Fold에 대한 설명으로 옳지 않은 것은? [2회차]

① 데이터를 K개로 나눈다.

② 1개는 훈련 데이터, (K-1)개는 검증 데이터로 사용한다.

③ K번 반복 수행한다.

결과를 K에 다수결 또는 평균으로 분석한다.

더보기

② 1개는 훈련 데이터, (K-1)개는 검증 데이터로 사용한다.

 

Q.  다음 중 분석 모형 검증에 대한 설명으로 옳지 않은 것은? [2회차]

① 데이터 수가 적으면 교차 검증하는 것이 좋다.

② 교차 검증을 통해 분석 모형의 일반화 성능을 확인할 수 있다.

③ K-Fold 교차 검증은 (K-1)개 부분 집합들은 훈련 데이터로, 나머지 1개 부분 집합은 평가 데이터로 하는 K개의 실험 데이터를 구성하여 진행한다.

 데이터 수가 많으면 검증 데이터로 충분하므로, 평가 데이터는 불필요하다.

더보기

 데이터 수가 많으면 검증 데이터로 충분하므로, 평가 데이터는 불필요하다.

 

Q.  전체 데이터 집합을 동일 크기를 갖는 K개의 부분 집합으로 나누고, 훈련 데이터와 평가 데이터로 나누는 기법은 무엇인가? [2회차]

① K-Fold

② 홀드아웃(Holdout)

③ Dropout

Cross Validation

더보기

① K-Fold

 

Q. 아래에서 설명하는 검증방법으로 적절한 것은? 

7:3 또는 8:2의 비율로 학습데이터와 테스트데이터로 분할한다.
일반적으로 랜덤추출 방법을 활용하여 데이터가 편향되지 않도록 한다.

① 홀드아웃(Holdout)

② K-Fold 교차검증

③ 부트스트랩

Dropout

더보기

 홀드아웃(Holdout)

 

Q. 데이터를 학습 데이터, 검증 데이터, 평가 데이터 세 가지로 분할하는 방법은 무엇인가? [3회차]

K-Fold 

② Hold-out

③ Dropout

Cross Validation

더보기

 Hold-out

 

Q.  홀드아웃 관련 데이터가 아닌 것은? [4회차]

① 검증데이터  

② 학습데이터

③ 평가데이터

 증강데이터

더보기

 증강데이터

 

Q. K-fold CV에 대한 설명 중 옳지 않은 것은? [4회차]

① 검증, 훈련, 테스트 데이터로 이루어져 있다.

② k=3 이상만 가능

③ k개의 균일한 서브셋

④ k-1개의 부분집합을 학습데이터로 사용

더보기

② k=3 이상만 가능

 

다음글 보러가기

  • 모수 유의성 검정 개념 및 기출문제
 

[빅데이터분석기사] 모수유의성검정 개념 및 기출문제

이전글 보러가기 교차 검증 개념 및 기출문제 [빅데이터분석기사] 교차검증 개념 및 기출문제 교차 검증이란? 교차 검증은 모델의 일반화 오차에 대해 신뢰할 만한 추정치를 구하기 위해 훈련,

ohaengsa.tistory.com

 

728x90
반응형