자격증/빅데이터분석기사

[빅데이터분석기사 필기] 주성분분석(PCA) 개념 및 기출문제

j9m 2022. 9. 27. 21:21
반응형

주성분 분석(PCA)

  • 상관관계가 있는 고차원 자료를 자료의 변동을 최대한 보존하는 저차원 자료로 변환하는 차원축소 방법이다.
  • 주성분 분석은 서로 상관성이 높은 변수들의 선형 결합으로 만들어 기존의 상관성이 높은 변수들을 요약 축소하는 기법이다.
  • 분석을 통해 나타나는 주성분으로 변수들 사이의 구조를 쉽게 이해하기는 어렵다.
  • 차원축소는 고윳값이 높은 순으로 정렬해서 높은 고윳값을 가진 고유벡터만으로 데이터를 복원한다.
차원축소 : 많은 변수로 구성된 고차원 자료를 축소하여 새로운 차원의 자료를 생성하는 기법이다.
고윳값 : 고유벡터의 변환되는 스케일 정도를 나타내는 상숫값이다.
고유벡터 : 행렬 변환 결과가 자기 자신의 상수 배가 되는 0이 아닌 벡터이다.

https://programmathically.com/principal-components-analysis-explained-for-dummies/

 

주성분 분석의 특징

  • 누적 기여율이 85% 이상이면 주성분의 수로 결정할 수 있다.
  • 차원 감소폭의 결정은 스크리 산점도, 전체 변이의 공헌도, 평균 고윳값 등을 활용하는 방법이 있다.
  • 주성분 분석은 차원의 저주에 대한 접근 방법 중 하나이다.
  • 변수들의 공분산 행렬이나 상관행렬을 이용한다.
  • 행의 수와 열의 수가 같은 정방행렬에서만 사용할 수 있다.
누적 기여율 : 제1 주성분에서 제 k 주성분까지의 주성분을 이용하여 설명할 수 있는 데이터의 전체 정보량의 비율이다.

 

주성분 분석의 목적

  • 차원축소 해결 : 여러 변수 간에 내재하는 상관관계, 연관성을 이요해 소수의 주성분 또는 요인으로 차원을 축소함으로써 데이터 이해가 용이해진다.
  • 다중공산성 해결 : 비 상관도가 높은 변수들을 하나의 주성분 혹은 요인으로 축소하여 모형개발에 활용한다.
다중공산성 : 다중 회귀 분석에서 설명변수들 사이에 선형관계가 존재하면 회귀계수의 정확한 추정이 난해해지는 문제 

 

주성분 분석 절차

  • PCA는 먼저 가장 큰 데이터 변동성을 기반으로 첫 번째 벡터 축을 생성한다.
  • 두 번째 축은 이 벡터 축에 직각이 되는 직교 벡터를 축으로 한다.
  • 세번째 축은 다시 두 번쨰 축과 직각이 되는 벡터를 설정하는 방식으로 축을 생성한다.
  • 생성된 벡터 축에 원본 데이터를 투영하면 벡터 축의 개수만큼 차원으로 원본 데이터가 차원축소된다.

 

주성분 개수 선택 방법

  • 주성분 개수를 선택하는 방법으로는 주성분의 누적 기여율과 스크리 산점도를 주로 사용한다.
  • 누적 기여율
    • 표준편차를 제곱하면 해당 주성분의 분산 값을 구할 수 있음
    • 분산 기여율이 1에 가까울수록 원래 데이터에 대한 설명력이 큼
    • 누적 기여율은 제1주성분부터 해당 주성분까지 기여율의 합
    • 누적 기여율이 85% 이상인 지점까지를 주성분의 수로 결정함
  • 스크리 산점도 
    • x축에 주성분, y축에 각 주성분의 분산을 표현한 그래프
    • 스크리 산점도의 기울기가 완만해지기 직전까지 주성분 수의 수로 결정할 수 있다.

https://en.wikipedia.org/wiki/Scree_plot

주성분 분석 기출문제

Q. 다음 중 주성분분석에 대한 설명으로 가장 적절하지 않은 것은? [2회차 기출]

① 여러 변수 간에 내재하는 상관관계, 연관성을 이용해 소수의 주성분으로 차원을 축소한다.

② 주성분 분석에서 누적 기여율이 85% 이상인 지점까지 주성분의 수로 결정한다.

③ 데이터 간 높은 상관관계가 존재하는 상황에서 상관관계를 제거할 경우 분석이 어려워진다.

④ 스크리 산점도의 기울기가 완만해지기 직전까지 주성분의 수로 결정할 수 있다.

더보기

③ 데이터 간 높은 상관관계가 존재하는 상황에서 상관관계를 제거할 경우 분석이 어려워진다.

해설

높은 상관관계가 존재하면 다중공산성 문제가 나타나므로 제거를 하여야 분석이 용이해진다.

 

Q. 다음 중 주성분분석에 대한 설명으로 가장 적절하지 않은 것은? [3회차 기출]

① 주성분 분석은 분포된 데이터들의 특성을 설명할 수 있는 하나 또는 복수 개의 특징을 찾는 것을 의미한다.

② 변수들의 공분산 행렬이나 상관행렬을 이용한다.

③ 음수를 포함하지 않은 두 행렬의 곱으로 분해하는 알고리즘을 적용한다.

④ 행의 수와 열의 수가 같은 정방행렬에서만 사용할 수 있다.

더보기

③ 음수를 포함하지 않은 두 행렬의 곱으로 분해하는 알고리즘을 적용한다.

 

Q. 다음 중 주성분분석에 대한 설명으로 틀린 것은? [4회차 기출]

① 선형 결합하여 새로운 변수를 만든다.

② 분산이 커지도록 한다.

③ 데이터가 이산적인 경우에 사용한다.

④ 직관적으로 이해할 수 있다.

더보기

④ 직관적으로 이해할 수 있다.

 

다음글 보러가기

  • 시계열 분석 개념 및 기출문제
 

[빅데이터분석기사] 시계열분석 개념 및 기출문제

이전글 보러가기 주성분 분석(PCA)의 개념 및 기출문제 [빅데이터분석기사] 주성분 분석(PCA)의 개념과 기출문제 주성분 분석이란? 상관관계가 있는 고차원 자료를 자료의 변동을 최대한 보존하는

ohaengsa.tistory.com

 

반응형