728x90
반응형
변수 변환
- 변수 변환이란 분석을 위해 불필요한 변수를 제거하고, 변수를 반환하며, 새로운 변수를 생성시키는 작업이다.
- 변수들이 선형관계가 아닌 로그, 제곱, 지수 등의 모습을 보일 때 변수 변환을 통해 선형관계로 만들면 분석하기 쉽다.
변수 변환 방법
① 스케일링
- Min-Max Normalization : 데이터를 특정 구간으로 바꾸는 방법
- Z-Score Standardization : 데이터 평균 0 표준편차 1의 표준정규분포로 변경하는 방법
- z = (x – μ) / σ (μ=평균, σ=표준편차)
- Robust Scaler: 중앙값과 IQR 사용, 이상값 영향 최소화
- Max Absolute Scaler: 최대 절대값이 1,0은 0이 되도록 스케일링
② 단순 함수 변환
- 한쪽으로 치우쳐진 분포를 분석 모형에 적합하게 변형하는 방법(비선형 -> 선형)
- 오른쪽 꼬리가 길 때 : 로그, 제곱근, 역수
- 왼쪽 꼬리가 길 때: 제곱, 지수 변환 등
- 비닝(Binning) : 연속형, 이산형 데이터를 범주형으로 변환
- 인코딩(Encoding) : 범주형 데이터를 연속형, 이상형 데이터로 변환
③ Box Cox 변환
- 데이터가 가진 스케일이 심하게 차이가 나는 경우 그 차이를 그대로 반영하기 보다는 상대적 특성이 반영된 데이터로 변환하는 과정이다.
- 정규성을 만족하지 않는 데이터에 대해, 데이터를 정규분포에 가깝게 만들거나 데이터의 분산을 안정화 하는것
- 변수들의 분포가 오른쪽으로 기울어진 것을 감소시키기 위해 로그 변환을 수행하기도 한다.
- 변수에 제곱근을 취하면 오히려 선형적인 특징을 가지게 되어 의미를 해석하기 쉬워진다.
④ Binning
- 연속형, 이산형 데이터를 범주형으로 변환
- 데이터 값을 몇 개의 bin으로 분할하여 계산하는 방법
- categorization 기술의 결정은 비즈니스 도메인 지식 필요
- 두 개 이상의 변수의 값에 따라 공변량 비닝 수행
- 데이터 평활하에서도 사용되는 기술이며, 기존 데이터를 범주화하기 위해서도 사용한다.
⑤ Encoding
- 범주형 데이터를 연속형, 이상형 데이터로 변환
728x90
반응형
'자격증 > 빅데이터분석기사' 카테고리의 다른 글
빅데이터분석기사 필기 - 분류 모형의 평가지표(혼동 행렬, ROC 곡선, 이익 도표) 개념과 기출문제 (0) | 2022.10.01 |
---|---|
빅데이터분석기사 필기 - 불균형 데이터 처리 방법과 기출문제 (0) | 2022.10.01 |
[빅데이터분석기사 필기] 서포트 벡터 머신(SVM)의 개념과 기출문제 (0) | 2022.10.01 |
[빅데이터분석기사 필기] 2021년 2회차 기출문제 (2) | 2022.09.30 |
[빅데이터분석기사 필기] 하둡 에코시스템의 다양한 기술과 기출문제 (1) | 2022.09.30 |