자격증/빅데이터분석기사
[빅데이터분석기사 필기] 변수 변환 방법과 기출문제
j9m
2022. 10. 1. 06:35
728x90
반응형
변수 변환
- 변수 변환이란 분석을 위해 불필요한 변수를 제거하고, 변수를 반환하며, 새로운 변수를 생성시키는 작업이다.
- 변수들이 선형관계가 아닌 로그, 제곱, 지수 등의 모습을 보일 때 변수 변환을 통해 선형관계로 만들면 분석하기 쉽다.
변수 변환 방법
① 스케일링
- Min-Max Normalization : 데이터를 특정 구간으로 바꾸는 방법
- Z-Score Standardization : 데이터 평균 0 표준편차 1의 표준정규분포로 변경하는 방법
- z = (x – μ) / σ (μ=평균, σ=표준편차)
- Robust Scaler: 중앙값과 IQR 사용, 이상값 영향 최소화
- Max Absolute Scaler: 최대 절대값이 1,0은 0이 되도록 스케일링
② 단순 함수 변환
- 한쪽으로 치우쳐진 분포를 분석 모형에 적합하게 변형하는 방법(비선형 -> 선형)
- 오른쪽 꼬리가 길 때 : 로그, 제곱근, 역수
- 왼쪽 꼬리가 길 때: 제곱, 지수 변환 등
- 비닝(Binning) : 연속형, 이산형 데이터를 범주형으로 변환
- 인코딩(Encoding) : 범주형 데이터를 연속형, 이상형 데이터로 변환
③ Box Cox 변환
- 데이터가 가진 스케일이 심하게 차이가 나는 경우 그 차이를 그대로 반영하기 보다는 상대적 특성이 반영된 데이터로 변환하는 과정이다.
- 정규성을 만족하지 않는 데이터에 대해, 데이터를 정규분포에 가깝게 만들거나 데이터의 분산을 안정화 하는것
- 변수들의 분포가 오른쪽으로 기울어진 것을 감소시키기 위해 로그 변환을 수행하기도 한다.
- 변수에 제곱근을 취하면 오히려 선형적인 특징을 가지게 되어 의미를 해석하기 쉬워진다.
④ Binning
- 연속형, 이산형 데이터를 범주형으로 변환
- 데이터 값을 몇 개의 bin으로 분할하여 계산하는 방법
- categorization 기술의 결정은 비즈니스 도메인 지식 필요
- 두 개 이상의 변수의 값에 따라 공변량 비닝 수행
- 데이터 평활하에서도 사용되는 기술이며, 기존 데이터를 범주화하기 위해서도 사용한다.
⑤ Encoding
- 범주형 데이터를 연속형, 이상형 데이터로 변환
728x90
반응형