이전 글 보러가기
⭐: 키워드 ⭐⭐:기출문제 유형 ⭐⭐⭐:출제 多
① 데이터전처리
⭐ 데이터 전처리
- 데이터 분석을 위한 필수 과정, 분석 결과의 오류를 방지하고 신뢰도를 높일 수 있음
- 실제 분석 과정의 70~80%를 수집 및 데이터 전처리 과정에 사용
- 데이터 정제 ➡️ 결측값 처리 ➡️ 이상값 처리 ➡️ 분석변수처리
⭐⭐ 데이터 정제
- 결측값을 채우거나 이상값을 제거하는 과정을 통해 데이터의 신뢰도를 높이는 작업
- 오류 원인 분석 ➡️ 정제 대상 선정 ➡️ 정제 방법 결정
- 데이터 오류 원인 : 결측값, 노이즈, 이상값
- 데이터 정제는 데이터 분석 과정에서 반드시 수행해야함
- 모든 데이터를 대상으로 정제 활동을 하는 것이 필요함
- 방법 : 삭제, 대체, 예측값 삽입
⭐ 데이터 세분화
- 데이터 세분화는 데이터를 기준에 따라 나누고 선택한 매개변수를 기반으로 유사한 데이터를 그룹화하여 효율적으로 사용할 수 있는 프로세스
- 군집화 방법 : 계층적(응집분석법, 분할분석법), 비계층적(인공신경망 모델, K-평균 군집)
⭐ 결측값(Missing Value)
- 데이터가 입력되지 않고 누락된 값
- NA, N/A, NULL, 공백, NaN, 999999 등
- 분석에 영향을 미치기 때문에 반드시 처리해야함
- 완전 무작위 결측, 무작위 결측, 비 무작위 결측
- 처리절차 : 식별 ➡️ 부호화 ➡️ 대체
⭐ 결측값 처리 방법 - 단순대치법
- 결측값을 그럴듯한 값으로 대체하는 통계적 기법
- 완전 분석법 : 불완전 자료 모두 무시
- 평균 대치법 : 데이터의 평균, 중앙값, 최빈값 등으로 결측값 대치
- Hot Deck: 현재 진행 중인 연구에서 비슷한 성향을 가진 응답자의 자료로 대체
- Cold-Deck: 외부 출처 또는 이전의 비슷한 연구에서 대체할 자료를 가져오는 방법
⭐ 결측값 처리 방법 - 다중 대치법
- 단순 대치법을 한 번이 아닌 m번을 수행하여 m개의 가상적 완전 자료를 만듬
- 대치 ➡️ 분석 ➡️ 결합
- 추정량 표준오차의 과소추청 및 계산의 난해성 문제를 가지고 있음
⭐⭐⭐ 이상값 [기출]
- 일반적인 다른 값과 멀리 떨어져 있는 값(거리, 밀도)
- 분포를 왜곡할 수 있으나 실제 오류인지 통계적으로 검증할 수 없으므로 제거여부는 해당분야의 전문가와 상의하여 판별하여야함
- 반드시 제거해야 하는 것은 아니며, 분석의 목적이나 종류에 따라 적절한 판단이 필요함
- 발생 원인 : 측정오류, 처리오류, 표본오류, 고의적인 이상값, 실험오류, 자연오류, 입력오류
- 이상값 영향 많이 받음 : 평균, 분산, 표준편차, Range, 앙상블, k-Means
- 이상값 영향 적게 받음: 중앙값, kNN, DBSCAN
- 부정사용방지 시스템, 의료, 사기탐지, 침입탐지에 활용
- 처리방법 : 삭제, 대체, 변환
⭐⭐ 이상값 검출방법 [기출]
- ESD : μ - 3σ < 정상데이터 < μ + 3σ (μ : 평균, σ : 표준편차)
- 사분위수 이용 : Q1 - 1.5 * IQR < 정상데이터 < Q3 + 1.5 * IQR (IQR = Q3 - Q1)
- 기하평균 : 기하평균 - 2.5 * σ < data < 기하평균 + 2.5 * σ
- Z-Score, 딕슨의 Q검정, 그럽스 T-검정, 카이제곱 검정
- 데이터 시각화(히스토그램, 밀도차트, 상자그림, 산포도, 잔차도)
- 박스플롯과 스캐터 플롯 등에서 멀리 떨어진 값
- 도메인 지식에서 이론적이나 물리적으로 맞지 않는 값
- 분석 기법 활용(비지도학습의 군집 기법, 마할라노비스 거리. LOF, iForest:의사결정나무를 이용)
⭐⭐⭐ Boxplot [기출]
- 데이터의 분포를 파악하는 시각적 도구
- Q1, Median, Q3, IQR, 이상값, 정상 범위의 Min, Max를 알 수 있음
- 3Q보다작은건 중앙값
- 박스플롯에서 멀리 떨어진 값은 이상값이다.
- 평균은 알 수 없다.
- 사분위간 범위 : 데이터의 중간 50%를 나타냄
- 수염 : 데이터값의 하위 25%와 상위 25%의 범위
⭐ 변수
- RDMBS에서 속성, 열이라고 부르는 것을 머신 러닝에서는 통계학의 영향으로 변수 사용
- 입력변수 : 독립변수, 통제변수, 속성, 예측변수, 설명변수차원, 관측치
- 출력변수 : 종속변수, 라벨, 클래스, 목푯값, 결과변수, 반응변수
⭐ 변수선택
- 모델을 단순화하여 데이터 분석 결과를 해석하기 쉽게함
- 훈련 시간 축소, 과대적합을 줄이는데 도움이 됨
- 모델의 정확도 및 성능 향상기여
- 변수 선택 기법에는 필터기법, 래퍼기법, 임베디드 기법이있다.
⭐ 변수선택 - 래퍼기법
- 데이터의 통계적 측정 방법을 사용하여 변수들의 상관관계를 알아내는 기법
- 전진선택법: 영향력이 가장 큰 변수를 하나씩 추가하는 변수 선택 기법
- 후진제거법: 모든 독립변수를 포함한 모형에서 출발해 제곱합의 기준으로 가장 적은 영향을 주는 변수로부터 하나씩 제거하면서 더이상 유의하지 않은 변수가 없을 때까지 독립변수를 제거하고, 이때 모형을 선택
- 단계별 선택법: 모든 독립변수가 포함된 모델에서 출발해 기준 통계치에 가장 도움이 되지 않는 변수를 삭제하거나, 모델에서 빠져 있는 변수 중에서 기준 통계치를 가장 개선 시키는 변수를 추가하며 모형 선택
- RFE, SFS, 유전알고리즘, 단변량 선택, mRMR
⭐ 변수선택 - 필터기법
- 데이터의 통계적 측정 방법을 사용하여 변수들의 상관관계를 알아내는 기법
- 종류 : 정보소득, 카이제곱 검정, 피셔 스코어, 상관계수
- 주로 래퍼기법 사용 전처리에 사용됨
⭐ 임베디드 기법
- 모델 자체에 변수 선택이 포함된 기법
- 모델의 학습, 생성과정에서 최적의 변수 선택
- Ridge, Lasso, Elasticnet 의사결정나무 등이 속함
⭐ 차원축소
- 분석 대상이 되는 여러 변수의 정보를 최대한 유지하면서 데이터 세트 변수의 개수를 줄이는 탐색적 분석기법
- 차원 = 변수의수, 차원이 증가할 수록 모델의 정확도가 떨어질 수 있음
- 독립변수간 강한 상관관계가 있는 경우 모델의 정확도와 신뢰성이 떨어짐
- 변수의 정보를 최대한 유지하면서 변수의 개수를 줄이는 통계 기법
- 목적- 데이터 분석의 효율성 측면에서 복잡도를 축소하고, 과적합을 방지하며, 해석력을 확보하는 것
- 작은 차원만으로 로버스트한 결과를 도출할 수 있다면 많은 차원을 다루는 것보다 효율적
⭐⭐ 차원의 저주
- 데이터 용량이 커지면서 불필요한 샘플 표본이 많아지는것
- 데이터의 차원이 증가할수록 데이터를 표현할 수 있는 공간은 기하급수적으로 증가하는 것에 반해 데이터의 수는 변하지 않기 때문에 발생
- 차원이 증가하면서 개별차원내의 학습 데이터 수가 차원의 수보다 적어지면서 성능이 저하되는 현상
- 모델링 과정에서 저장공간과 처리시간이 불필요하게 증가되어 성능이 저하됨
⭐ 다중공선성
- 모형의 일부 설명변수가 다른 설명변수와 높은 상관관계가 있을 때 발생
- 중대한 다중공선성은 회귀계수의 분산을 증가시켜 모델을 불안정하고 해석하기 어렵게 만듬
- VIF를 측정하여 10이 넘으면 다중공선성이 존재한다고 봄
- 높은 상관관계가 있는 설명변수를 모형에서 제거하는 것으로해결
- 다양한 변수 선택, 차원 축소 방법을 사용할 수있음
- 설명변수를 제거하면 대부분 결정계수가 감소함
⭐⭐⭐차원축소기법 - 주성분 분석
- 여러 변수 간에 내재하는 상관관계, 연관성을 이용해 소수의 주성분으로 차원을 축소한다.
- 누적 기여율이 85% 이상인 지점까지 주성분의 수로 결정한다.
- 데이터 간 높은 상관관계가 존재하는 상황에서 상관관계를 제거할 경우 분석이 쉬워진다.
- 스크리 산점도의 기울기가 완만해지기 직전까지 주성분의 수로 결정할 수 있다.
- 여러차원변수의 분산이 가장 높은 축을 첫 번째 주성분으로 도출(데이터가 가장 많이 흩뿌려져 있는)
- 주성분 분석은 거리를 사용하므로 척도의 영향을 받음(정규화 전후의 주성분 분석 결과는 다름)
- 선형 결합하여 새로운 변수를 만든다.
- 분산이 커지도록 한다.
- 데이터가 이산적인 경우에 사용한다.
- 직관적으로 이해하기 힘듬
- 변수들의 공분산 행렬이나 상관행렬을 이용
- 공분산 행렬: 측정단위를 그대로 반영한것, 변수들의 측정 단위에 민감, 변수 단위가 같은 수준일 때 사용, 양수와 음수가 있음
- 상관 행렬: 모든 변수의 측정단위를 표준화 한 것으로 변수 단위가 서로 많이 다른 경우 사용, 양수와 음수 있음, -1~1의값(-1, 1에 가까울 수록 더 큰 관계가 있다.)
⭐ 차원축소기법 - 요인분석
- 변수는 다른 변수와 공유하고 있는 공통요인과 그 변수만이 가지고 있는 고유요인으로 구성
- 데이터 내부에 관찰할 수 없는 잠재적인 변수(요인)를 가정
- 모형을 세운 뒤 관찰 가능한 데이터를 이용하여 해당 잠재 요인을 도출하고 데이터 안의 구조를 해석하는 기법
- 독립 변수와 종속 변수 구분이 없고, 주로 기술 통계에 의한 방법을 이용
- 유사한 변수끼리 묶어주는 방법, 변수 축소, 변수특성 파악, 파생변수 생성에 활용 가능
⭐ 차원축소기법 - 독립성분분석
- 다변량의 신호를 통계적으로 독립적인 하부성분으로 분리하여 차원을 축소하는기법
- 독립 성분의 분포는 비정규분포를 따르게 되는 차원축소기법
⭐⭐ 차원축소기법 - 다차원 척도법 [기출]
- 객체 간 근접성을 시각화 하는 기법
- 개체들 사이의 유사성, 비유사성을 2차원 혹은 3차원 공간상에 점으로 표현하여 개체 사이의 군집을 시각적으로 표현하는 분석방법
- 개체들의 거리는 유클리드 거리와 유사도를 이용하여 구함
- 스트레스 값은 0에 가까울수록 적합도 수진이 좋고 1에 가까울수록 나쁘다.
⭐⭐ 파생 변수
- 기존 변수를 조합하거나, 특정 조건 혹은 함수 등을 적용하여 새롭게 만든 변수
- 상관관계가 있는 변수들끼리 결합하여 분산을 극대화하는 변수로 만들어 변수를 축약하여 희생되는 정보를 최소화 함
- 데이터에 포함된 나이 연속형 변수를 이요해 연령대 범주형 변수 생성(단위 변환)
- 요약 통계량을 이용한 변수 생성(요약 통계량)
- 파생 변수는 매우 주관적일 수 있으므로 논리적 타당성을 갖추어 개발해야함
- 단위변환, 표현형식 변환, 요약통계량 변환, 정보추출, 변수 결합, 조건문이용:
⭐ 변수변환
- 분석 목적에 맞게 데이터를 변환하는 과정, 최적화 모델 작업이 용이해짐
⭐⭐ 변수변환 - 스케일링 [기출]
- Min-Max Normalization, 데이터를 특정 구간으로 바꾸는 방법
- y= (x-min)/(max-min)
- Z-Score Standardization, 데이터 평균 0 표준편차 1의 표준정규분포로 변경하는 방법
- z = (x – μ) / σ (μ=평균, σ=표준편차)
- Robust Scaler: 중앙값과 IQR 사용, 이상값 영향 최소화
- Max Absolute Scaler: 최대 절대값이 1,0은 0이 되도록 스케일링
- 단순 함수 변환
- 한쪽으로 치우쳐진 분포를 분석 모형에 적합하게 변형하는 방법(비선형 -> 선형)
- 오른쪽 꼬리가 길 때: 로그, 제곱근, 역수 왼쪽 꼬리가 길 때: 제곱, 지수 변환 등
- 비닝(Binning) : 연속형, 이산형 데이터를 범주형으로 변환
- 인코딩(Encoding) : 범주형 데이터를 연속형, 이상형 데이터로 변환
⭐⭐ 변수변환 - Box Cox 변환
- 데이터가 가진 스케일이 심하게 차이가 나는 경우 그 차이를 그대로 반영하기 보다는 상대적 특성이 반영된 데이터로 변환하는 과정
- 정규성을 만족하지 않는 데이터에 대해, 데이터를 정규분포에 가깝게 만들거나 데이터의 분산을 안정화 하는것
- 변수들의 분포가 오른쪽으로 기울어진 것을 감소시키기 위해 로그 변환을 수행하기도 한다.
- 변수에 제곱근을 취하면 오히려 선형적인 특징을 가지게 되어 의미를 해석하기 쉬워진다.
- 정규성이 향상된다.
⭐ ⭐ 불균형데이터
- 데이터에서 각 클래스가 갖고 있는 데이터의 양이 차이가 큰 경우
- 분류 데이터에서 분포가 더 높은 클래스를 더 예측하려고 하기 때문에 정확도는 높아질 수 있지만, 분포가 낮은 클래스의 재현율이 낮아지는 문제가 발생할 수 있음
- 정확도(Accureacy): 전체예측에서 옳은 예측의 비율
- 정밀도(Precision):예측 값이 True인 것에 대해 실제 값이 True인 지표
- 재현율(Recall, Sensitivity): 실제값이 True인 것에 대해 예측값이 True인 지표
- 불균형 상태 그대로 머신러닝 모델을 통해 예측하게 된다면 과대적합 문제가 발생할 수 있다.
- 학습 데이터셋에서는 높은 성능으로 보이지만, 테스트 데이터에서는 예측 성능이 더 낮게 나올 가능성이 있음
- 데이터 클래스 비율의 차이가 나면 단순히 데이터가 큰 클래스를 선택할 가능성이 높아져 정확도가 높아지므로 모형의 검증이 어려워 짐
⭐ 과대적합
- 너무 복잡하게 생각해서 오히려 악효과가 나는 것
- 주어진 샘플들의 설명변수와 종속변수의 관계를 필요이상 너무 자세하고 복잡하게 분석
- 샘플에 심취한 모델로 새로운 데이터가 주어졌을 때 제대로 예측해내기 어려울 수 있음
- 해결방법으로 Feature의 개수를 줄이거나, Regularization, Dropout을 수행하는 방법이 있음
⭐⭐ 불균형 데이터 처리 방법 - 과소표집(UnderSampling)
- 다수 클래스에 해당하는 데이터를 샘플링 하여 사용함(적은 class의 수에 맞춤)
- 많은 클래스의 데이터 일부만 선택하는 기법으로 정보가 유실되는 단점이 있다.
- 기법 : 랜덤 과소 표집, ENN, 토멕링크 방법, CNN, OSS
- Weight balacing: 학습데이터의 loss 계산 시 적은 클래스에 더 큰 loss값을 갖도록 하는 방법
⭐ 불균형 데이터 처리 방법 - 과대표집(Oversampling)
- 소수 클래스에 해당하는 데이터의 양을 늘려 클래스 간 비율을 적절한 수준으로 맞춤
- 정보가 손실되지 않는다는 장점, 새로운 테스트 데이터가 추가되면 모델의 결과가 나빠짐
- 복제된 관측치를 원래 데이터에 추가하면 과대 적합이 초래 될 수 있음
- 랜덤 과대 표집, SMOTE, Borderline-SMOTE, ADASYN
⭐⭐ 불균형 데이터 처리방법 - 임계값 이동
- 임계값을 데이터가 많은 쪽으로 이동시키는 방법이다.
- 학습 단계에서는 변화업싱 학습하고 테스트 단계에서 임곗값을 이동한다.
⭐⭐ 불균형 데이터 처리 방법 - 앙상블
- 같거나 서로 다른 여러가지 모형들의 결과를 종합하여 최종적인 의사결정에 활용하는 기법
- 서로 다른 여러 가지 모형들의 예측 결과를 종합한다.
② 데이터 탐색
⭐ 빅데이터 탐색
- 데이터 탐색은 수집한 데이터를 분석하기 전 그래프나 통계적인 방법을 이용하여 다양한 각도에서 데이터의 특징을 파악하고 자료를 직관적으로 바라보는 분석 방법
- 빅데이터의 전체 분포를 검토하는 과정이다.
- 데이터 탐색 시 잠재적 문제를 발견하는 과정이다.
- 데이터 탐색 시 패턴을 찾는 과정이다.
⭐ 탐색적 데이터 분석(EDA)
- 데이터의 통계량과 분포 등을 통해 데이터의 형태를 확인하고, 데이터를 이해하며 의미 있는 관계를 찾아내는 과정
- 분석에 앞서 그래프나 통계적인 방법으로 자료를 직관적으로 바라보는 과정
- 수집한 데이터를 다양한 관점에서 관찰하고 이해하는 과정
- 저항성 : 수집된 자료에 결측값, 이상값이 있을 때도 영향을 적게 받는 성질(평균보다 중앙값 선호)
- 잔차 해석 : 잔차를 구하여 데이터의 보통과 다른 특징 탐생, 주경향에서 벗어난 값이 왜 존재하는가?
- 자료 재표현 : 데이터분석, 해석을 단순화 할 수 있도록 원래 변수를 변환하는 것(로그, 제곱근, 역수 등)
- 현시성: 데이터 분석 결과를 쉽게 이해할 수 있도록 시각적으로 표현하고 전달하는 과정
⭐ 개별 변수 탐색
- 범주형 (명목, 순위 척도 데이터)
- 통계값: 빈도수, 최빈값, 비율, 백분율 등
- 시각화: Bar plot(막대 그래프)
- 수치형 (등간, 비율 척도 데이터)
- 통계값: 평균, 분산, 표준편차, 첨도, 왜도 등
- 시각화: Histogram, Boxplot
⭐ 다차원 데이터 탐색
- 범주형 - 범주형
- 빈도수와 비율 활용
- 교차빈도, 비율, 백분율 분석
- Bar plot (막대 그래프)
- 범주형 - 수치형
- 범주를 그룹으로 사용
- 그룹에 따른 수치형 변수의 통계량 차이 비교
- Boxplot
- 수치형 - 수치형
- 변수간의 상관성 분석
- 공분산으로 방향 파악
- 상관계수로 방향, 강도 파악
- Scatter plot, Scatter matrix plot
⭐⭐ 상관관계 분석
- 두 개 이상의 변수 사이에 존재하는 상호 연관성 여부 및 강도를 측정
- 일반적으로 선형적으로 관련된 정도를 나타냄 ( 상관계수가 0이라는것: 선형적 관계가 없음)
- 상관관계가 있다고 인과관계가 있는 것은 아님(인과관계는 선후 관계가 명확함)
- 양의 상관관계: 한 변수의 값이 증가 할때 다른 변수의 값도 증가하는 경향을 보이는 상관 관계
- 음의 상관관계: 한 병수의 값이 증가할 때 다른 변수의 값은 감소하는 경향을 보이는 상관 관계
- 상관계수는 결정계수의 제곱이다.
- 범위는 -1에서 1사이이다.
- 0에 가까우면 상관성이 낮다.
- 관계를 산점도로 알 수 있다.
⭐⭐산점도
- 관계 시각화의 유형이다.
- 직교 좌표계를 이용하여 좌표상의 점들을 표현하는 시각화 기법이다.
- 두 변수 사이의 상관관계를 알 수 있다.
⭐상관계수
- 두 변수 사이의 연관성을 수치상으로 객관화하여 두변수사이의 방향성과 강도를 표현하는 방법
- 상관계수는 -1 이상 ,1 이하의 값을 가진다.
- 두 변수 간에 직선관계가 있는지를 나타낼 때 가장 적절한 통계량
⭐ 피어슨 상관계수
- 수치적 데이터의상관성 분석 방법에 사용
- 대상자료는 등간 척도, 비율 척도 사용, 두 변수 간의 선형적인 크기만 측정 가능
- 피어슨 상관계수: x,y의 공분산을 x,y의 표준편차의 곱으로 나눈값
- ex) 응답자1의 표준편차 2, 응답자2의 표준편차 2, 두 응답자의 공분산 값이 4면 피어슨상관계수 = 1
⭐ 스피어만 상관계수
- 순서적 데이터의 상관성 분석에 사용
- 대상자료는 서열척도 사용, 두 변수 간의 비선형적인 관계를 나타낼 수 있음
- 스피어만 상관 계수는 두 데이터의 실제 값 대신 두 값의 순위를 기반으로 함
- 두변수 안의 순위가 완전 일치하면 1, 완전 반대이면 -1
- ex) 수학 잘하는 학생이 영어도 잘하는 것과 상관있는지 알아보는데 사용될 수 있음
위 그래프처럼 두 변수 X와 Y가 선형 관계가 아니더라도 스피어만 상관 계수는 1이 될 수 있다. 하지만 +1의 피어슨 상관 계수를 보장하지는 않는다. | 위 그래프처럼 데이터가 뚜렷한 경향성을 보이지 않을 경우에 스피어만 상관 계수와 피어슨 상관 계수는 비슷한 값을 가진다. |
스피어만 상관 계수는 피어슨 상관 계수에 비해 이상치에 덜 민감하다. 이는 스피어만 상관 계수의 ρ가 이상치를 그 값이 아닌 순위로써만 고려하기 때문이다.
|
⭐ 상관관계 분석의 종류
- 변수 개수에 따른 분류
- 단순 상관 분석: 두개 변수 사이의 상관 분석
- 다중/다변량 상관 분석: 세개 이상의 변수 사이의 상관 분석(모집단 3개 이상 사용하는 분석방법)
- 변수 속성에 따른 분류
- 범주형 - 명목 데이터: 데이터의 순서에 의미 없음, 변수 연산 불가능, 카이제곱검정(교차 분석)
- 범주형 - 순서 데이터: 데이터의 순서에 의미 있음, 변수 연산 불가능, 스피어만 순위 상관계수
- 수치데이터 : 변수 연산 가능, 피어슨 상관계수
⭐기초통계량
- 중심경향성 : 평균값, 중위수, 최빈수, 사분위수
- 산포도 통계량 : 분산, 표준편차, 범위, IQR, 사분편차, 변동계수
- 분포 통계량 : 첨도, 왜도
⭐ 히스토그램
- 도수 분포표의 각 계급을 가로축에 나타내고, 해당 계급에 속하는 측정값의 도수를 세로축에 표시하여 직사각형 모양으로 그림
- 막대 높이는 빈도를 나타내며, 폭의 의미가 없음
- 왼쪽으로 치우친 모양이라면 데이터가 전체 범위에서 수치가 낮은 쪽에 몰려 있음을 의미, 오른쪽에 치우쳐 있다면 높은 쪽에 몰려 있음을 의미
- 한쪽으로 치우치는 것 없이 비슷한 높이로 그려진다면 균일한 분포
- 가로, 세로축 모두 연속적임, 범주형에는 막대그래프를 사용함
- 많은 데이터를 가지고 있는 경우 보다 정확한 관계 파악을 할 수 있음
⭐⭐ 시각화
- 많은 양의 데이터를 분석하여 표, 그래프, 이미지 등의 형태로 정리하는 것
- 적절한 시각화 방법을 통해 데이터를 효과적으로 탐색/분석하거나 분석 결과를 전달할 수 있음
- 시각화 목적: 데이터분석(데이터 속성 파악), 의사소통의 수단(데이터가 갖는 의미와 인사이트 공유)
- 정보구조화: 유사데이터를 묶거나 재배열, 정리 및 변화을 통해 데이터의 패턴을 찾아내거나 추출하는 단계
- 정보시각표현
- 시각화 완성 단계로, 그래픽 요소를 활용해 완성함
- 인포그래픽
- 인포그래픽(Infographics, information + Graphics)
- 정보를 빠르고 분명하게 표현하기 위해 정보를 시각적으로 표현한 것
- 스토리를 통해 정보를 전달하려는 경향이 강하며, 일반인을 대상으로 특정 정보나 메시지를 전달하기 적합함
- 기억에 잘 남고, 주장을 전달하는 용도로 사용할 수도 있음
- 복잡한 대규모 빅데이터 분석결과를 명료하고 이해하기 쉽게 표현함
- 인포메이션(Information)과 시각적 그래프의 합성어이다.
- 쉽게 이해할 수 있도록 그래픽과 텍스트를 조합해 사용한다.
- 누적영역차트
- 시간 시각화
- 시간 흐름에 따른 변화를 표현함, 주로x축-시간, y축-값으로 표현함
- 막대그래프 , 산점도, 선 그래프, 계단 그래프, 영역 차트
- 관계 시각화
- 다변량 데이터에 대하여 변수 간의 연관성 및 패턴을 색상, 농도, 등을 사용하여 표현, 분석함
- 산점도, 산점도 행렬, 버블차트, 히트맵(Heatmap)
- 비교 시각화
- 다변량 데이터에 대하여 유사 또는 차이에 대해 점, 선, 막대, 색상 등을 사용하여 표현함
- 평행차트, 히트맵, 스타차트, 플로팅 바 차트, 체르노프 페이스, 다차원 척도법(MDS)
- 공간 시각화
- 지도를 활용하여 데이터를 표현함
- 코로플레스, 카토그램, 버블 플롯맵
- 구성 시각화
- 범주형 데이터의 구성을 크기로 표현함
- 파이차트, 도넛차트, 트리 맵 차트
- 분포시각화
- 연속형 데이터의 분포를 시각적으로 표현함
- 1개 변수: Histogram, Boxplot, 2개 변수: Scatter plot
⭐ 영역차트, 누적 영역차트(시계열성)
선 차트 Line plot | 영역 차트 | 누적 영역차트 |
시간에 따라 지속적으로 변화하는 것을 기록할 때 유용 조사하지 않은 값도 대략 예측할 수 있다는 장점이 있다. |
시간 경과에 따른 데이터 추세를 찾을 수 있습니다. | 누적 영역 차트는 여러 그룹에 대한 숫자 변수의 변화를 표시한다. |
⭐ 막대 그래프(범주형, 시계열)
막대 그래프 Bar Chart |
누적 막대 그래프 | 그룹 막대 그래프 |
시간에 따른 값의 변화를 보거나, 범주형 변수의 탐색에 주로 사용된다. | 누적된 형태로 각 범주 별 데이터를 표시함 |
막대 그래프에서 X축에 두 범주에 대해 표시 |
⭐ 산점도, 산점도 행렬, 버블 차트(X, Y축 변수의 관계 시각화)
산점도 | 산점도 행렬 | 버블 차트 Bubble Chart |
|
두 개 수치형 변수의 상관 관계 알아보기 | 범주별로 색상, 모양 크기 등을 변경해 사용할 수 있음 | 여러 수치형 변수의 상관관계 알아보기 | |
두 개의 수치형 변수 + 한 개 범주형 변수: 산점도 사용하며, 색상, 모양등 으로 범주를 표시 |
⭐ 평행 차트, 스타 차트, 히트맵(비교 시각화)
평행차트 Parallel Chart |
스타, 레이다, 거미줄 차트 Star, Spider, Rader Chart |
히트 맵 Heatmap |
여러 축을 평행으로 배치하는 기술 수직선엔 변수를 배치한다. 측정 대상은 변숫값에 따라 위아래로 이어지는 연결선으로 표현한다. |
측정 목표에 대한 평가항목이 다수 일 때 사용 변수의 수만큼 축을 그리고 각 축에 측정값 표시 항목간 비율 및 균형, 경향을 알 수 있음 |
두 개 범주형 변수의 관계/비교 시각화에 사용함, 색 및 농도를 사용하여 값의 크기 표시 |
⭐ 체르노프 페이스, 플로팅 바(비교 시각화)
체르노프 페이스 Chernoff Face | 플로팅 바 Floating Bar |
다차원 통계 데이터를 사람의 얼굴 이미지를 이용하여 표현하는 방법, 얼굴의 각 요소가 변수 표현에 사용됨 | 축에 연결되지 않고 최소/최대 값 사이에 하나 또는 여러 막대가 떠 있는 차트로 온도, 주가, 혈압 등의 범위 표시에 유용 |
⭐ 파이 차트, 도넛 차트, 트리맵 차트(범주형, 구성)
파이차트 Pie Chart | 도넛 차트 Donut Chart | 트리맵 차트 Tree Map Chart |
원의 조각을 사용해 범주형 데이터의 범주별 기여도를 표시하는데 사용함 | 파이차트의 중앙에 구멍을 넣어 표현한 차트, 표현 내용은 파이 차트와 동일, 여러 범주 데이터에 대해서는 선버스트 차트 사용 | 계층 구조를 나타내며, 사각형의 크기 또는 면적을 사용해 구성을 나타냄 |
⭐ 시공간데이터
- 공간적 개체에 시간 개념이 추가되어 시간에 따라 위치나 형상이 변하는 데이터
- 카토그램: 데이터 값의 변화에 따라 지도의 면적이 왜곡되는 지도, 데이터 값이 큰 지역의 면적이 더크게 표시됨
- 코로플레스 지도: 데이터 값의 크기에 따라 한 색상의 명도를 몇 단계로 나누어 지역 별 데이터 표시
- 버플 플롯 맵: 버플차트에 위도, 경도 정보를 적용, 지도+버블(크기,색상적용)
- 지도 데이터, 패널 데이터, 격자데이터가 시공간 데이터에 속한다.
- 패널데이터: 여러 개체들을 복수의 시간에 걸쳐서 추적하여 얻는 데이터를 말한다.
⭐ 변량 데이터
- 변수와 같은 의미, 확률 통계학에서 조사 대상의 특징, 성질을 숫자 또는 문자로 나타낸 값
- 변량데이터유형: 일변량 데이터, 이변량데이터, 다변량 데이터
- 일변량 데이터: 한개 변수의 특성 파악
- 한 개 변수의 특성 파악
- 기술 통계량(평균, 분산, 표준편차)
- 수치형: Histogram, Boxplot
- 범주형: Bar Chart, Pie Chart
- 이변량 데이터: 두 개의 변수의 특성 파악
- 두 변수사이의 관계파악
- 상관분석(상관계수, 공분산)
- 교차표/분할표(두개 범주)
- 두개수치:Scatter
- 한개수치: Boxplotplot, Scatter matrix plot
- 두개범주: Heatmap, Bar Chart
- 다변량 데이터: 두 개 변수 이상에 대한 자료
- 여러 변수 사이의 관계 파악
- 이변량 데이터 탐색을 포함
- 상관분석, 다차원 척도법, 주성분 분석, 선형판별분석
- 3개 이상의 다변량 데이터 그래프: 산점도 행렬, 스타(레이더)차트
⭐ 비정형 데이터 탐색
- 일정한 규격이나 형태를 지닌 숫자 데이터와 달리 이미지나 영상, 텍스트 처럼 형태와 구조가 다른 구조화 되지 않은 데이터
- 텍스트: 의미있는 단어, 성분을 추출하고, 빈도를 표현하는 방법으로 데이터를 변환후 분석
- 이미지: 픽셀마다 수치로 변환하여 이미지 분석(분석기법은 딥러닝의 CNN활용 분석이 대표적)
- XML, JSON, HTML: 각 형식에 맞는 Parser를 사용해 문장을 분해하고, 위계 관계를 분석 한 뒤에 탐색 진행
③ 통계기법 이해
⭐ 대푯값 [기출]
- 주어진 자료 전체에서 중심 위치를 나타내는 값
- 평균, 중앙값, 최빈값, 백분위수, 사분위수, 절사평균 등이 있다.
- 평균은 중앙값보다 이상값의 영향을 많이 받는다.
- Q3-Q1같은 사분위수 범위를 의미한다.
- 변동률은 기하평균으로 구한다.
- 변동계수는 분산과 관련이 있다.
⭐ 산포도 통계량
- 주어진 자료가 흩어진 정도를 나타내는 값
- 분산, 모분산, 표본분산, 표준편차, 범위, IQR, 사분편차, 변동계수
⭐⭐분포 통계량
- 데이터 분포의 형태와 대칭성을 설명
- 첨도 : 데이터의 뾰족한정도
- 왜도 : 데이터 분포의 기울어진 정도를 설명하는 통계량
- 왜도 = 0, 최빈수 = 중위수 = 평균
- 왜도 > 0, 최빈수 < 중위수 < 평균
- 왜도 < 0 , 평균 < 중위수 < 최빈수
⭐⭐ 공분산
- 2개의 변수 사이의 관련성을 나타내는 통계량
- 상관관계의 상승 혹은 하강하는 경향을 이해할 수 있다.
- 공분산 값의 크기는 측정단위에 따라 달라지므로 선형관계의 강도를 나타내지는 못한다.
⭐ 표본추출
- 표본추출은 모집단 일부를 일정한 방법에 따라 표본으로 선택하는 과정
- 기법 : 단순 무작위 추출, 계통 추출, 층화 추출, 군집 추출
⭐ 표본추출 - 단순 무작위 추출
- 모집단에서 정해진 규칙 없이 표본을 추출하는 방식
- 표본의 크기가 커질수록 정확도가 높아지며 추정값이 모수에 근접하므로 추정값의 분산이 줄어든다.
⭐ 표본추출 - 계통 추출
- 모집단을 일정한 간격으로 추출하는 방식
- 100명의 사람에게 번호표를 나눠주고 끝자리가 7로 끝나는 사람 선정
⭐⭐ 표본추출 - 층화 추출
- 층화 추출은 모집단을 여러 계층으로 나누고 계층별로 무작위추출을 수행하는 방식
- 다수의 이질적인 원소들로 구성된 모집단에서 각 계층을 고루 대표할 수 있또록 표본을 추출하는 방법이다.
- 이질적인 모집단의 원소들로 서로 유사한 것끼리 몇 개의 층을 나눈 후, 각 계층에서 표본을 랜덤하게 추출한다.
⭐⭐ 표본추출 - 군집 추출
- 모집단을 여러 군집으로 나누고 일부 군집의 전체를 추출하는 방식
- 군집 추출의 경우 집단 내부는 이질적이고 집단 외부는 동질적이다.
⭐⭐ 베이즈 정리
- 어떤사건에 대해 관측전 원인에 대한 가능성과 관측 후의 원인 가능성 사이의 관계를 설명하는 확률이론
⭐ 이산확률분포
- 이산확률변수 X가 가지는 확률분포
- 포아송, 베르누이, 이항분포
⭐⭐ 이산확률분포 - 포아송 분포
- 주어진 시간 또는 영역에서 어떤 사건의 발생 횟수를 나타내는 확률분포
⭐⭐ 이산확률분포 - 베르누이 분포
- 특정 실험의 결과가 성공 또는 실패로 두 가지의 결과 중 하나를 얻는 확률분포
⭐ 이산확률분포 - 이항 분포
- n번 시행 중에 각 시행의 확률이 p일 때, k번 성공할 확률분포
⭐ 연속확률분포
- 확률변수 X가 실수와 같이 연속적인 값을 취할 때
- 종류 : 정규분포, 표준정규분포(Z-분포), T-분포, 지수분포, 카이제곱분포, F-분포
⭐ 정규분포
- 정규분포는 평균과 표준편차에 대한 모양이 결정됨
- u는 분포의 중심이고 u를 중심으로 대칭이고 u에서 가장 큰 값이 되는 하나의 봉우리만 가진다.이 크면 분포의 산포가 커지고 작으면 분포의 산포가 작아진다.
⭐⭐ 연속확률분포 - Z분포
- 표준 통계량이 표본평균일 때, 이를 정규화시키 표본분표
- X ~ N(μ,σ²) 일 때, 평균0, 표준편차/분산 1인 정규 분포 N(0,1)를 표준 정규 분포 z분포라고 함
⭐⭐ 연속확률분포 - T분포
- 모집단이 정규분포라는 정도만 알고 모표준편차는 모를 때 모집단의 평균을 추정하기 위해 사용
- 표본의 크기가 작은 소표본의 경우 사용함
- 표본의 크기인 n의 크기가 클 경우에 중심 극한 정리에 의하여 T-분포는 정규분포를 따름
⭐⭐ 연속확률분포 - 카이제곱 분포
- 서로 독립적인 표준 정규 확률 변수를 각각 제곱한 다음 합해서 얻어지는 분포
- 표본 통계량이 표본분산일 떄의 표본분포
- n개의 서로 독립적인 표준 정규 확률변수를 각각 제곱한 다음 합해서 얻어지는 분포
⭐⭐연속확률분포 - F분포
- 독립적인 두 카이제곱 분포가 있을 때, 두 확률 변수의 비
⭐⭐ 최대우도법
- 어떤 확률변수에서 표집한 값들을 토대로 그 확률변수의 모수를 구하는 방법
⭐⭐ 추론통계
- 모집단의 표본을 가지고 모집단의 특성을 추론하고 그 결과의 신뢰성을 검정하는 통계적 방법
- 표본의 개수가 많을수록 표본오차는 감소
- 점추정과 구간추정으로 구분
⭐ 점추정
- 표본의 정보로부터 모집단의 모수를 하나의 값으로 추정하는 기법
- 신뢰도를 나타낼 수 없는 단점이 있어 구강 추정을 사용
- 표본평균, 표본분산, 중위수, 최빈수
⭐⭐ 구간추정
- 추정값에 대한 신뢰도를 제시하면서 범위로 모수를 추정하는 기법
- 항상 추정량의 분포에 대한 전제가 주어져야 하고 구해진 구간안에 모수가 있을 가능성의 크기가 주어져야한다.
- 신뢰수준 : 추정값이 존재하는 구간에 모수가 포함될 확률 (1 - α), α : 유의수준
- 신뢰구간 : 신뢰수준을 기준으로 추정된 통계적으로 유의미한 모수의 범위
⭐ 단일 모평균 추정
- 단일모평균의 추정은 모분산이 알려져 있는 경우와 알려져있지 않은 경우로 나누어 계산한다.
- 모분산이 알려져 있지 않은 경우는 대표본과 소표본일 경우로 나누어 계산한다.
- 모집단이 정규분포를 따르고 모분산이 알려져 있는 경우 Z-분포를 이용
- 모분산이 알려져 있지 않고 표본의 크기가 30 이상인 대표본의 경우 Z-분포를 이용
- 모분산이 알려져 있지 않고 표본의 크기가 30 미만인 소포뵨의 경우 T-분포를 이용
⭐ 가설검정
- 모집단에 대해 가설 설정 후, 표본 관찰을 통해 그가설의 채택 여부를 결정하는 통계적 추론 방법
- 가설설정 ➡️ 유의수준 설정 ➡️검정통계량 산출(p-value구함) ➡️ 기각/채택 판단
- 귀무가설: 가설검정의 대상이 되는 가설, 연구자가 부정하고자 하는 가설, 알고 있는 것과 같음, 변화 없음, 영향력 없음, 연관성 없음, 효과 없음에 대한 가설
- 대립가설: 연구자가 연구를 통해 입증/증명되기를 기대하는 예상이나 주장 귀무 가설이 기각되면 채택되는 가설알고 있는 것과 다름, 변화있음, 영향력 있음, 연관성 있음, 효과 있음에 대한가설
⭐ 가설검정의 종류
- 양측 검정: 귀무가설을 기각하는 영역이 양쪽에 있는 검정
- 단측 검정
- 좌측 검정: 귀무가설을 기각하는 영역이 왼쪽에 있는 검정
- 우측 검정: 귀무가설을 기각하는 영역이 오른쪽에 있는 검정
⭐⭐가설검정의 오류
- 제1종오류 귀무가설이 참인데 기각되는 오류, α=P(제 1종 과오를 범함)=P(H₀ 기각| H₀ 참) α
- 생산자 입장에서 정상 제품을 불량품으로 판정하는 생산자 위험오류
- 제 2종 오류 귀무가설이 거짓인데 채택하는 오류, B=P(제2종 과오를 범함)=P(H₀ 채택| H₀ 거짓)
- 소비자 입장에서 불량품을 정상품으로 판정하는 소비자 위험 오류
⭐p-값
귀무가설이 참이라는 전제하에 실제 표본에서 구한 표본 통계량의 값보다 더 극단적인 값이 나올 확률
귀무가설 채택 : p-값 < 유의수준 α
귀무가설 채택 : p-값 > 유의수준 α
⭐임곗값(임계치)
- 귀무가설 채택 : 임곗값 > 검정통계량
- 귀무가설 기각 : 임곗값 < 검정통계량
이것저것 다 정리하다보니까 글이 많이 길어졌네요 ㅎ..ㅎ
다들 시험잘보세요
참고자료
https://r-graph-gallery.com/
https://www.grapecity.com/
https://www.youtube.com/c/EduAtoZPython
'자격증 > 빅데이터분석기사' 카테고리의 다른 글
[빅데이터분석기사 필기] 주성분분석(PCA) 개념 및 기출문제 (1) | 2022.09.27 |
---|---|
[빅데이터 분석기사 필기] 3과목 빅데이터모델링 요점정리 ② (1) | 2022.09.27 |
[빅데이터 분석기사 필기] 3과목 빅데이터모델링 요점정리 ① (0) | 2022.09.23 |
[빅데이터분석기사 필기] 한번에 합격하는 공부법 (0) | 2022.09.17 |
[빅데이터분석기사 필기] 1과목 빅데이터분석기획 요약정리 (1) | 2022.09.14 |