자격증/빅데이터분석기사

[빅데이터분석기사 필기] 변수 변환 방법과 기출문제

j9m 2022. 10. 1. 06:35
반응형

변수 변환

  • 변수 변환이란 분석을 위해 불필요한 변수를 제거하고, 변수를 반환하며, 새로운 변수를 생성시키는 작업이다.
  • 변수들이 선형관계가 아닌 로그, 제곱, 지수 등의 모습을 보일 때 변수 변환을 통해 선형관계로 만들면 분석하기 쉽다.

 

변수 변환 방법

① 스케일링

  • Min-Max Normalization : 데이터를 특정 구간으로 바꾸는 방법
  • Z-Score Standardization : 데이터 평균 0 표준편차 1의 표준정규분포로 변경하는 방법
  • z = (x – μ) / σ (μ=평균, σ=표준편차) 
  • Robust Scaler: 중앙값과 IQR 사용, 이상값 영향 최소화
  • Max Absolute Scaler: 최대 절대값이 1,0은 0이 되도록 스케일링

 

단순 함수 변환

  • 한쪽으로 치우쳐진 분포를 분석 모형에 적합하게 변형하는 방법(비선형 -> 선형)
  • 오른쪽 꼬리가 길 때 : 로그, 제곱근, 역수
  • 왼쪽 꼬리가 길 때: 제곱, 지수 변환 등
  • 비닝(Binning) : 연속형, 이산형 데이터를 범주형으로 변환
  • 인코딩(Encoding) : 범주형 데이터를 연속형, 이상형 데이터로 변환

 

③ Box Cox 변환

  • 데이터가 가진 스케일이 심하게 차이가 나는 경우 그 차이를 그대로 반영하기 보다는 상대적 특성이 반영된 데이터로 변환하는 과정이다.
  • 정규성을 만족하지 않는 데이터에 대해, 데이터를 정규분포에 가깝게 만들거나 데이터의 분산을 안정화 하는것
  • 변수들의 분포가 오른쪽으로 기울어진 것을 감소시키기 위해 로그 변환을 수행하기도 한다.
  • 변수에 제곱근을 취하면 오히려 선형적인 특징을 가지게 되어 의미를 해석하기 쉬워진다.

 

④ Binning

  • 연속형, 이산형 데이터를 범주형으로 변환
  • 데이터 값을 몇 개의 bin으로 분할하여 계산하는 방법
  • categorization 기술의 결정은 비즈니스 도메인 지식 필요
  • 두 개 이상의 변수의 값에 따라 공변량 비닝 수행
  • 데이터 평활하에서도 사용되는 기술이며, 기존 데이터를 범주화하기 위해서도 사용한다.

 

Encoding

  • 범주형 데이터를 연속형, 이상형 데이터로 변환

 

반응형