자격증/빅데이터분석기사

[빅데이터분석기사 필기] 과대 적합 개념 및 기출문제

j9m 2022. 9. 29. 05:23
728x90
반응형

과대 적합

  • 과대 적합은 제합된 훈련 데이터 세트가 지나치게 특화되어 새로운 데이터에 대한 오차가 매우 커지는 현상이다.
  • 모델의 개개변수 수가 많거나 훈련 데이터 세트의 양이 부족한 경우에 발생한다.
  • 훈련 데이터는 실제 데이터의 부분 집합이라서 실제 데이터의 모든 특성을 가지고 있지 않을 수 있다.
  • 과대 적합의 발생 원인은 실제 데이터에서 편향된 부분만을 가지고 있거나 오류가 포함된 값을 가지고 있을 경우 발생할 수 있다.

 

과대 적합 방지하기

  • 과대 적합을 방지하기 위해 데이터 세트 증강, 모델 복잡도 감소, 가중치 규제, 드롭아웃 방법을 적용한다.

 

데이터 증강

  • 모델은 훈련데이터 세트의 양이 적을 경우, 해당 데이터의 특정 패턴이나 노이즈까지 분석되어 과대 적합 현상이 발생할 확률이 높으므로 충분한 데이터 세트를 확보해야 한다.
  • 데이터의 양이 적을 경우, 데이터를 변형해서 늘릴 수 있다.

 

모델의 복잡도 감소

  • 인공신경망의 복잡도는 은닉층의 수나 모델의 수용력 등으로 결정된다.
  • 과대 적합 현상이 발생할 때 인공신경망의 은닉층의 수를 감소하거나 모델의 수용력을 낮추어 복잡도를 줄일 수 있다.

 

가중치 규제 적용

  • 가중치 규제는 개별 가중치 값을 제한하여 복잡한 모델을 좀 더 간단하게 하는 방법이다.
  • 복잡한 모델은 많은 수의 매개변수를 가진 모델로 과대 적합될 가능성이 크다.

 

⭐ Lasso(라쏘)

  • L1 노름 규제라고도 한다.
  • 기존 비용 함수에 모든 가중치 w들의 절댓값 합계를 추가하여 값이 최소가 되도록함

Ridge(릿지)

  • L2 노름 규제라고도 한다.
  • 기존 비용 함수에 모든 가중치 w들의 제곱합을 추가함
  • 가중치 감소라고도 하며 가중치가 가장 큰 것은 페널티를 부과하여 과적합 위험을 줄임

 

 엘라스틱넷(Elastic Net)

  • 기존 비용 함수에 L1노름 규제,  L2노름 규제를 추가함
  • 알파와 베타의 조합에 따라 노름을 조절하여 정규화를 할 수 있음

 

드롭아웃(Dropout)

  • 드롭아웃은 학습 과정에서 신경망 일부를 사용하지 않는 방법이다.
  • 드롭아웃은 신경망 학습 시에만 사용하고, 예측 시에는 사용하지 않는다.
  • 학습 시에 인공신경망이 특정 뉴런 또는 특정 조합에 너무 의존적으로 되는 것을 방지해 준다.
  • 서로 다른 신경망들을 앙상블하여 사용하는 것 같은 효과를 내어 과대 적합을 방지한다.

과대적합 기출문제

Q. 다음 분석 변수 선택 방법이 설명하는 기법은? [2회차]

① 릿지(Lidge)

② 라쏘(Rasso)

③ 엘라스틱 넷(Elastic Net)

RFE(Recursive Feature Elimination)

더보기

② 릿지

해설

제곱이 되어있으므로 릿지가 정답이다.

라쏘는 절대값이다.

 

Q. 아래의 수식이 나타내는 회귀는? [4회차]

① 라쏘

② 릿지

③ 엘라스틱넷 회귀

 단순 회귀

더보기

② 릿지

 

Q. 과대적합일 때 대응방법이 아닌 것은?

① Regularization

② Batch Nomalization

③ Drop-out

④ Max Pooling

더보기

④ Max Pooling

 

Q. 인공지능 학습시 과대적합을 방지하기위한 학습과정에서 신경망 일부를 사용하지 않는 학습 기법은?

① Dropout

② 매개 변수 최적화

③ SGD

④ 가중치 규제

더보기

① Dropout

 

다음글 보러가기

 

[빅데이터분석기사] 매개변수 최적화 개념 및 기출문제

매개변수 최적화 매개변수는 주어진 데이터로부터 학습을 통해 모델 내부에서 결정되는 변수이다. 학습 모델과 실제 레이블 차이는 손실 함수로 표현되며, 학습의 목적은 오차, 손실 함수의 값

ohaengsa.tistory.com

 

728x90
반응형