교차 검증
- 교차 검증은 모델의 일반화 오차에 대해 신뢰할 만한 추정치를 구하기 위해 훈련, 평가 데이터를 기반으로 하는 검증 기법이다.
- 빅데이터 분석 모형을 검증하기 위한 교차 검증으로는 홀드 아웃 교차 검증, K-Fold Cross Validation, LOOCV, LpOCV 등이 있다.
① 홀드 아웃 교차 검증
- 전체 데이터를 비복원추출 방법을 이용하여 랜덤하게 훈련 데이터, 평가 데이터로 나눠 검증하는 기법이다.
- 훈련 데이터로 분석 모형을 구축하고, 평가 데이터를 이용하여 분석 모형을 평가하는 기법이다.
- 계산량이 많지 않아 모형을 쉽게 평가할 수 있으나 전체 데이터에서 평가 데이터만큼은 학습에 사용할 수 없으므로 데이터 손실이 발생한다.
- 데이터를 어떻게 나누느냐에 따라 결과가 많이 달라질 수 있다.
⭐ 홀드아웃 교차 검증의 데이터 구분
- 훈련 데이터 : 분류기를 만들 때 사용하는 데이터
- 검증 데이터 : 훈련 데이터로 만든 모델이 잘 예측하는지 성능을 평가하기 위한 데이터 세트
- 평가 데이터 : 검증 데이터로 최종 모델을 선택하고 그 성능을 테스트하기 위해 사용되는 데이터 세트
② K-Fold Cross Validation
- K-Fold Cross Validation은 데이터 집합을 무작위로 동일 크기를 갖는 K개의 부분 집합으로 나누고, 그중 1개의 집합을 평가 데이터로, 나머지 K-1개 집합을 훈련데이터로 선정하여 분석 모형을 평가하는 기법이다.
- 모든 데이터를 훈련과 평가에 사용할 수 있으나, K값이 증가하면 수행 시간과 계산량도 많아진다.
- K번 반복을 수행하며 결과를 K에 다수결 또는 평균으로 분석한다.
⭐ K-Fold Cross Validation절차
- 동등 분할 ➡️ 훈련/평가 데이터 구성 ➡️ 분류기 학습 ➡️ 분류기 성능 확인
- 동등 분할 : 전체 데이터를 K개의 같은 크기의 부분집합으로 랜덤하게 나눔
- 훈련/평가 데이터 구성 : K-1개 부분 집합들은 훈련 데이터로, 나머지 1개 부분 지합은 평가 데이터로 하는 K개의 실험데이터를 구성
- 분류기 학습 각 실허 ㅁ데이터마다 훈련 데이터로 분류기를 학습시키고, 평가 데이터로 분류기의 성능을 평가
- 분류기 성능 확인 실험 결과K개를 종합하여 해당 분류기의 최종 성능을 구함
③ Leave-One-Out Cross Validation(LOOCV)
- LOOCV는 전체 데이터 N개에서 1개의 샘플만을 평가 데이터에 사용하고 나머지 N-1개는 훈련데이터로 사용하는 과정을 N번 반복하는 교차 검증 기법이다.
- K-Fold와 같은 방법을 사용하며, 이때 K는 전체데이터 N과 같다.
- 가능한 한 많은 데이터를 훈련에 사용할 수 있지만, 수행 시간과 계산량이 많다.
- 작은 크기의 데이터에 사용하기 좋다.
④ LpOCV(Leave-p-Out Cross Validation)
- LpOCV는 LOOCV에서 1개의 샘플이 아닌 p개의 샘플을 테스트에 사용하는 교차 검증 기법이다.
- 계산시간에 대한 부담이 매우 크다.
⑤ 부트스트랩(Bootstrap)
- 부트스트랩은 주어진 자료에서 단순 랜덤 복원추출 방법을 활용하여 동일한 크기의 표본을 여러 개 생성하는 샘플링 방법이다.
- 무작위 복원추출 방법으로 전체 데이터에서 중복을 허용하여 데이터 크기만큼 샘플을 추출하고 이를 훈련 데이터로 한다.
- 전체 데이터 샘플이 N개이고 부트스트랩으로 N개의 샘플을추출하는 경우 특정 샘플이 훈련 데이터에 포함될 확률은 약 63.2%이다.
- 부트스트랩을 통해 1000개의 샘플을 추출하더라도 샘플에 한 번도 선택되지 않는 원 데이터가 발생할 수 있는데 전체 샘플의 약 36.8%가 이에 해당한다.
- 한번도 포함되지 않은 OOB데이터는 검증에 사용한다.
교차 검증 기출문제
Q. K-Fold에 대한 설명으로 옳지 않은 것은? [2회차]
① 데이터를 K개로 나눈다.
② 1개는 훈련 데이터, (K-1)개는 검증 데이터로 사용한다.
③ K번 반복 수행한다.
④ 결과를 K에 다수결 또는 평균으로 분석한다.
② 1개는 훈련 데이터, (K-1)개는 검증 데이터로 사용한다.
Q. 다음 중 분석 모형 검증에 대한 설명으로 옳지 않은 것은? [2회차]
① 데이터 수가 적으면 교차 검증하는 것이 좋다.
② 교차 검증을 통해 분석 모형의 일반화 성능을 확인할 수 있다.
③ K-Fold 교차 검증은 (K-1)개 부분 집합들은 훈련 데이터로, 나머지 1개 부분 집합은 평가 데이터로 하는 K개의 실험 데이터를 구성하여 진행한다.
④ 데이터 수가 많으면 검증 데이터로 충분하므로, 평가 데이터는 불필요하다.
④ 데이터 수가 많으면 검증 데이터로 충분하므로, 평가 데이터는 불필요하다.
Q. 전체 데이터 집합을 동일 크기를 갖는 K개의 부분 집합으로 나누고, 훈련 데이터와 평가 데이터로 나누는 기법은 무엇인가? [2회차]
① K-Fold
② 홀드아웃(Holdout)
③ Dropout
④ Cross Validation
① K-Fold
Q. 아래에서 설명하는 검증방법으로 적절한 것은?
7:3 또는 8:2의 비율로 학습데이터와 테스트데이터로 분할한다.
일반적으로 랜덤추출 방법을 활용하여 데이터가 편향되지 않도록 한다.
① 홀드아웃(Holdout)
② K-Fold 교차검증
③ 부트스트랩
④ Dropout
① 홀드아웃(Holdout)
Q. 데이터를 학습 데이터, 검증 데이터, 평가 데이터 세 가지로 분할하는 방법은 무엇인가? [3회차]
① K-Fold
② Hold-out
③ Dropout
④ Cross Validation
② Hold-out
Q. 홀드아웃 관련 데이터가 아닌 것은? [4회차]
① 검증데이터
② 학습데이터
③ 평가데이터
④ 증강데이터
④ 증강데이터
Q. K-fold CV에 대한 설명 중 옳지 않은 것은? [4회차]
① 검증, 훈련, 테스트 데이터로 이루어져 있다.
② k=3 이상만 가능
③ k개의 균일한 서브셋
④ k-1개의 부분집합을 학습데이터로 사용
② k=3 이상만 가능
다음글 보러가기
- 모수 유의성 검정 개념 및 기출문제
'자격증 > 빅데이터분석기사' 카테고리의 다른 글
[빅데이터분석기사 필기] 적합도 검정 개념 및 기출문제 (0) | 2022.09.29 |
---|---|
[빅데이터분석기사 필기] 모수 유의성 검정 개념 및 기출문제 (1) | 2022.09.29 |
[빅데이터분석기사 필기] 딥러닝 분석 개념 및 기출문제 (0) | 2022.09.28 |
[빅데이터분석기사 필기] 비모수 통계 개념 및 기출문제 (2) | 2022.09.28 |
[빅데이터분석기사 필기] 앙상블 분석 개념 및 기출문제 (2) | 2022.09.28 |