자격증/빅데이터분석기사

[빅데이터분석기사 필기] 2과목 빅데이터탐색 요약정리

j9m 2022. 9. 14. 20:02
반응형

이전 글 보러가기

 

[빅데이터분석기사 필기] 1과목 빅데이터분석기획 요약정리

⭐: 키워드 ⭐⭐:기출문제 유형 ⭐⭐⭐:출제 多 ① 빅데이터의 이해 ⭐ DIKW피라미드 Data ➡️ Information ➡️ Knowledge ➡️ Wisdom ⭐⭐ 데이터 바이트크기 [기출] KB(10³Bytes)➡️MB(10⁶) ➡️ GB(1..

ohaengsa.tistory.com

⭐: 키워드 ⭐:기출문제 유형 ⭐:출제 多

 

 데이터전처리

데이터 전처리

  • 데이터 분석을 위한 필수 과정, 분석 결과의 오류를 방지하고 신뢰도를 높일 수 있음
  • 실제 분석 과정의 70~80%를 수집 및 데이터 전처리 과정에 사용
  • 데이터 정제 ➡️ 결측값 처리 ➡️ 이상값 처리 ➡️ 분석변수처리

 

 데이터 정제

  • 결측값을 채우거나 이상값을 제거하는 과정을 통해 데이터의 신뢰도를 높이는 작업
  • 오류 원인 분석 ➡️ 정제 대상 선정 ➡️ 정제 방법 결정
  • 데이터 오류 원인 : 결측값, 노이즈, 이상값
  • 데이터 정제는 데이터 분석 과정에서 반드시 수행해야함
  • 모든 데이터를 대상으로 정제 활동을 하는 것이 필요함
  • 방법 : 삭제, 대체, 예측값 삽입

 

 데이터 세분화

  • 데이터 세분화는 데이터를 기준에 따라 나누고 선택한 매개변수를 기반으로 유사한 데이터를 그룹화하여 효율적으로 사용할 수 있는 프로세스
  • 군집화 방법 : 계층적(응집분석법, 분할분석법), 비계층적(인공신경망 모델, K-평균 군집)

 

 결측값(Missing Value)

  • 데이터가 입력되지 않고 누락된 값
  • NA, N/A, NULL, 공백, NaN, 999999 등
  • 분석에 영향을 미치기 때문에 반드시 처리해야함
  • 완전 무작위 결측, 무작위 결측, 비 무작위 결측
  • 처리절차 : 식별 ➡️ 부호화 ➡️ 대체

 

결측값 처리 방법 - 단순대치법

  • 결측값을 그럴듯한 값으로 대체하는 통계적 기법
  • 완전 분석법 : 불완전 자료 모두 무시
  • 평균 대치법 : 데이터의 평균, 중앙값, 최빈값 등으로 결측값 대치
  • Hot Deck: 현재 진행 중인 연구에서 비슷한 성향을 가진 응답자의 자료로 대체
  • Cold-Deck: 외부 출처 또는 이전의 비슷한 연구에서 대체할 자료를 가져오는 방법

 

결측값 처리 방법 - 다중 대치법

  • 단순 대치법을 한 번이 아닌 m번을 수행하여 m개의 가상적 완전 자료를 만듬
  • 대치 ➡️ 분석 ➡️ 결합
  • 추정량 표준오차의 과소추청 및 계산의 난해성 문제를 가지고 있음

 

이상값 [기출]

  • 일반적인 다른 값과 멀리 떨어져 있는 값(거리, 밀도)
  • 분포를 왜곡할 수 있으나 실제 오류인지 통계적으로 검증할 수 없으므로 제거여부는 해당분야의 전문가와 상의하여 판별하여야함
  • 반드시 제거해야 하는 것은 아니며, 분석의 목적이나 종류에 따라 적절한 판단이 필요함
  • 발생 원인 : 측정오류, 처리오류, 표본오류, 고의적인 이상값, 실험오류, 자연오류, 입력오류
  • 이상값 영향 많이 받음 : 평균, 분산, 표준편차, Range, 앙상블, k-Means
  • 이상값 영향 적게 받음: 중앙값, kNN, DBSCAN
  • 부정사용방지 시스템, 의료, 사기탐지, 침입탐지에 활용
  • 처리방법 : 삭제, 대체, 변환

 

  이상값 검출방법 [기출]

  • ESD : μ  - 3σ < 정상데이터 < μ  + 3σ (μ : 평균, σ : 표준편차) 
  • 사분위수 이용 : Q1 - 1.5 * IQR < 정상데이터 < Q3 + 1.5 * IQR (IQR = Q3 - Q1)
  • 기하평균 : 기하평균 - 2.5 * σ < data < 기하평균 + 2.5 * σ
  • Z-Score, 딕슨의 Q검정, 그럽스 T-검정, 카이제곱 검정
  • 데이터 시각화(히스토그램, 밀도차트, 상자그림, 산포도, 잔차도)
  • 박스플롯과 스캐터 플롯 등에서 멀리 떨어진 값
  • 도메인 지식에서 이론적이나 물리적으로 맞지 않는 값
  • 분석 기법 활용(비지도학습의 군집 기법, 마할라노비스 거리. LOF, iForest:의사결정나무를 이용)

 

 Boxplot [기출]

  • 데이터의 분포를 파악하는 시각적 도구
  • Q1, Median, Q3, IQR, 이상값, 정상 범위의 Min, Max를 알 수 있음
  • 3Q보다작은건 중앙값
  • 박스플롯에서 멀리 떨어진 값은 이상값이다.
  • 평균은 알 수 없다.
  • 사분위간 범위 : 데이터의 중간 50%를 나타냄
  • 수염 : 데이터값의 하위 25%와 상위 25%의 범위

 

 변수

  • RDMBS에서 속성, 열이라고 부르는 것을 머신 러닝에서는 통계학의 영향으로 변수 사용
  • 입력변수 : 독립변수, 통제변수, 속성, 예측변수, 설명변수차원, 관측치
  • 출력변수 : 종속변수, 라벨, 클래스, 목푯값, 결과변수, 반응변수

 

 변수선택

  • 모델을 단순화하여 데이터 분석 결과를 해석하기 쉽게함
  • 훈련 시간 축소, 과대적합을 줄이는데 도움이 됨
  • 모델의 정확도 및 성능 향상기여
  • 변수 선택 기법에는 필터기법, 래퍼기법, 임베디드 기법이있다.

 

변수선택 - 래퍼기법

  • 데이터의 통계적 측정 방법을 사용하여 변수들의 상관관계를 알아내는 기법
  • 전진선택법: 영향력이 가장 큰 변수를 하나씩 추가하는 변수 선택 기법
  • 후진제거법: 모든 독립변수를 포함한 모형에서 출발해 제곱합의 기준으로 가장 적은 영향을 주는 변수로부터 하나씩 제거하면서 더이상 유의하지 않은 변수가 없을 때까지 독립변수를 제거하고, 이때 모형을 선택
  • 단계별 선택법: 모든 독립변수가 포함된 모델에서 출발해 기준 통계치에 가장 도움이 되지 않는 변수를 삭제하거나, 모델에서 빠져 있는 변수 중에서 기준 통계치를 가장 개선 시키는 변수를 추가하며 모형 선택
  • RFE, SFS, 유전알고리즘, 단변량 선택, mRMR

 

변수선택 - 필터기법

  • 데이터의 통계적 측정 방법을 사용하여 변수들의 상관관계를 알아내는 기법
  • 종류 : 정보소득, 카이제곱 검정, 피셔 스코어, 상관계수
  • 주로 래퍼기법 사용 전처리에 사용됨

 

 임베디드 기법

  • 모델 자체에 변수 선택이 포함된 기법
  • 모델의 학습, 생성과정에서 최적의 변수 선택
  • Ridge, Lasso, Elasticnet 의사결정나무 등이 속함

 

 차원축소

  • 분석 대상이 되는 여러 변수의 정보를 최대한 유지하면서 데이터 세트 변수의 개수를 줄이는 탐색적 분석기법
  • 차원 = 변수의수, 차원이 증가할 수록 모델의 정확도가 떨어질 수 있음
  • 독립변수간 강한 상관관계가 있는 경우 모델의 정확도와 신뢰성이 떨어짐
  • 변수의 정보를 최대한 유지하면서 변수의 개수를 줄이는 통계 기법
  • 목적- 데이터 분석의 효율성 측면에서 복잡도를 축소하고, 과적합을 방지하며, 해석력을 확보하는 것
  • 작은 차원만으로 로버스트한 결과를 도출할 수 있다면 많은 차원을 다루는 것보다 효율적

 

차원의 저주 

  • 데이터 용량이 커지면서 불필요한 샘플 표본이 많아지는것
  • 데이터의 차원이 증가할수록 데이터를 표현할 수 있는 공간은 기하급수적으로 증가하는 것에 반해 데이터의 수는 변하지 않기 때문에 발생
  • 차원이 증가하면서 개별차원내의 학습 데이터 수가 차원의 수보다 적어지면서 성능이 저하되는 현상
  • 모델링 과정에서 저장공간과 처리시간이 불필요하게 증가되어 성능이 저하됨

 

 다중공선성

  • 모형의 일부 설명변수가 다른 설명변수와 높은 상관관계가 있을 때 발생
  • 중대한 다중공선성은 회귀계수의 분산을 증가시켜 모델을 불안정하고 해석하기 어렵게 만듬
  • VIF를 측정하여 10이 넘으면 다중공선성이 존재한다고 봄
  • 높은 상관관계가 있는 설명변수를 모형에서 제거하는 것으로해결
  • 다양한 변수 선택, 차원 축소 방법을 사용할 수있음
  • 설명변수를 제거하면 대부분 결정계수가 감소함

 

차원축소기법 - 주성분 분석

  • 여러 변수 간에 내재하는 상관관계, 연관성을 이용해 소수의 주성분으로 차원을 축소한다.
  • 누적 기여율이 85% 이상인 지점까지 주성분의 수로 결정한다.
  • 데이터 간 높은 상관관계가 존재하는 상황에서 상관관계를 제거할 경우 분석이 쉬워진다.
  • 스크리 산점도의 기울기가 완만해지기 직전까지 주성분의 수로 결정할 수 있다.
  • 여러차원변수의 분산이 가장 높은 축을 첫 번째 주성분으로 도출(데이터가 가장 많이 흩뿌려져 있는)
  • 주성분 분석은 거리를 사용하므로 척도의 영향을 받음(정규화 전후의 주성분 분석 결과는 다름)
  • 선형 결합하여 새로운 변수를 만든다.
  • 분산이 커지도록 한다.
  • 데이터가 이산적인 경우에 사용한다.
  • 직관적으로 이해하기 힘듬
  • 변수들의 공분산 행렬이나 상관행렬을 이용
  • 공분산 행렬: 측정단위를 그대로 반영한것, 변수들의 측정 단위에 민감, 변수 단위가 같은 수준일 때 사용, 양수와 음수가 있음
  • 상관 행렬: 모든 변수의 측정단위를 표준화 한 것으로 변수 단위가 서로 많이 다른 경우 사용, 양수와 음수 있음, -1~1의값(-1, 1에 가까울 수록 더 큰 관계가 있다.)

 

 차원축소기법 - 요인분석

  • 변수는 다른 변수와 공유하고 있는 공통요인과 그 변수만이 가지고 있는 고유요인으로 구성
  • 데이터  내부에 관찰할 수 없는 잠재적인 변수(요인)를 가정
  • 모형을 세운 뒤 관찰 가능한 데이터를 이용하여 해당 잠재 요인을 도출하고 데이터 안의 구조를 해석하는 기법
  • 독립 변수와 종속 변수 구분이 없고, 주로 기술 통계에 의한 방법을 이용
  • 유사한 변수끼리 묶어주는 방법, 변수 축소, 변수특성 파악, 파생변수 생성에 활용 가능

 

 차원축소기법 - 독립성분분석

  • 다변량의 신호를 통계적으로 독립적인 하부성분으로 분리하여 차원을 축소하는기법
  • 독립 성분의 분포는 비정규분포를 따르게 되는 차원축소기법

 

 차원축소기법 - 다차원 척도법 [기출]

  • 객체 간 근접성을 시각화 하는 기법
  • 개체들 사이의 유사성, 비유사성을 2차원 혹은 3차원 공간상에 점으로 표현하여 개체 사이의 군집을 시각적으로 표현하는 분석방법
  • 개체들의 거리는 유클리드 거리와 유사도를 이용하여 구함
  • 스트레스 값은 0에 가까울수록 적합도 수진이 좋고 1에 가까울수록 나쁘다.

 

 파생 변수

  • 기존 변수를 조합하거나, 특정 조건 혹은 함수 등을 적용하여 새롭게 만든 변수
  • 상관관계가 있는 변수들끼리 결합하여 분산을 극대화하는 변수로 만들어 변수를 축약하여 희생되는 정보를 최소화 함
  • 데이터에 포함된 나이 연속형 변수를 이요해 연령대 범주형 변수 생성(단위 변환)
  • 요약 통계량을 이용한 변수 생성(요약 통계량)
  • 파생 변수는 매우 주관적일 수 있으므로 논리적 타당성을 갖추어 개발해야함
  • 단위변환, 표현형식 변환, 요약통계량 변환, 정보추출, 변수 결합, 조건문이용:

 

 변수변환

  • 분석 목적에 맞게 데이터를 변환하는 과정, 최적화 모델 작업이 용이해짐

 

변수변환 - 스케일링 [기출]

  • Min-Max Normalization, 데이터를 특정 구간으로 바꾸는 방법
  • y= (x-min)/(max-min)
  • Z-Score Standardization, 데이터 평균 0 표준편차 1의 표준정규분포로 변경하는 방법
  • z = (x – μ) / σ (μ=평균, σ=표준편차) 
  • Robust Scaler: 중앙값과 IQR 사용, 이상값 영향 최소화
  •  Max Absolute Scaler: 최대 절대값이 1,0은 0이 되도록 스케일링
  • 단순 함수 변환
    • 한쪽으로 치우쳐진 분포를 분석 모형에 적합하게 변형하는 방법(비선형 -> 선형)
    • 오른쪽 꼬리가 길 때: 로그, 제곱근, 역수 왼쪽 꼬리가 길 때: 제곱, 지수 변환 등
  • 비닝(Binning) : 연속형, 이산형 데이터를 범주형으로 변환
  • 인코딩(Encoding) : 범주형 데이터를 연속형, 이상형 데이터로 변환

 

⭐ 변수변환 - Box Cox 변환

  • 데이터가 가진 스케일이 심하게 차이가 나는 경우 그 차이를 그대로 반영하기 보다는 상대적 특성이 반영된 데이터로 변환하는 과정
  • 정규성을 만족하지 않는 데이터에 대해, 데이터를 정규분포에 가깝게 만들거나 데이터의 분산을 안정화 하는것
  •  
  • 변수들의 분포가 오른쪽으로 기울어진 것을 감소시키기 위해 로그 변환을 수행하기도 한다.
  • 변수에 제곱근을 취하면 오히려 선형적인 특징을 가지게 되어 의미를 해석하기 쉬워진다.
  • 정규성이 향상된다.

Min-Max Nomalization formulaZ-ScoreBox Cox formula

 

 불균형데이터

  • 데이터에서 각 클래스가 갖고 있는 데이터의 양이 차이가 큰 경우
  • 분류 데이터에서 분포가 더 높은 클래스를 더 예측하려고 하기 때문에 정확도는 높아질 수 있지만, 분포가 낮은 클래스의 재현율이 낮아지는 문제가 발생할 수 있음
  • 정확도(Accureacy): 전체예측에서 옳은 예측의 비율
  • 정밀도(Precision):예측 값이 True인 것에 대해 실제 값이 True인 지표
  • 재현율(Recall, Sensitivity): 실제값이 True인 것에 대해 예측값이 True인 지표
  • 불균형 상태 그대로 머신러닝 모델을 통해 예측하게 된다면 과대적합 문제가 발생할 수 있다.
  • 학습 데이터셋에서는 높은 성능으로 보이지만, 테스트 데이터에서는 예측 성능이 더 낮게 나올 가능성이 있음
  • 데이터 클래스 비율의 차이가 나면 단순히 데이터가 큰 클래스를 선택할 가능성이 높아져 정확도가 높아지므로 모형의 검증이 어려워 짐

 

 과대적합

  • 너무 복잡하게 생각해서 오히려 악효과가 나는 것
  • 주어진 샘플들의 설명변수와 종속변수의 관계를 필요이상 너무 자세하고 복잡하게 분석
  • 샘플에 심취한 모델로 새로운 데이터가 주어졌을 때 제대로 예측해내기 어려울 수 있음
  • 해결방법으로 Feature의 개수를 줄이거나, Regularization, Dropout을 수행하는 방법이 있음

 

불균형 데이터 처리 방법 - 과소표집(UnderSampling)

  • 다수 클래스에 해당하는 데이터를 샘플링 하여 사용함(적은 class의 수에 맞춤)
  • 많은 클래스의 데이터 일부만 선택하는 기법으로 정보가 유실되는 단점이 있다.
  • 기법 : 랜덤 과소 표집, ENN, 토멕링크 방법, CNN, OSS
  • Weight balacing: 학습데이터의 loss 계산 시 적은 클래스에 더 큰 loss값을 갖도록 하는 방법

 

 불균형 데이터 처리 방법 - 과대표집(Oversampling)

  • 소수 클래스에 해당하는 데이터의 양을 늘려 클래스 간 비율을 적절한 수준으로 맞춤
  • 정보가 손실되지 않는다는 장점, 새로운 테스트 데이터가 추가되면 모델의 결과가 나빠짐
  • 복제된 관측치를 원래 데이터에 추가하면 과대 적합이 초래 될 수 있음
  • 랜덤 과대 표집, SMOTE, Borderline-SMOTE, ADASYN

 

불균형 데이터 처리방법 - 임계값 이동

  • 임계값을 데이터가 많은 쪽으로 이동시키는 방법이다.
  • 학습 단계에서는 변화업싱 학습하고 테스트 단계에서 임곗값을 이동한다.

 

불균형 데이터 처리 방법 - 앙상블

  • 같거나 서로 다른 여러가지 모형들의 결과를 종합하여 최종적인 의사결정에 활용하는 기법
  • 서로 다른 여러 가지 모형들의 예측 결과를 종합한다.

데이터 탐색

 

 빅데이터 탐색

  • 데이터 탐색은 수집한 데이터를 분석하기 전 그래프나 통계적인 방법을 이용하여 다양한 각도에서 데이터의 특징을 파악하고 자료를 직관적으로 바라보는 분석 방법
  • 빅데이터의 전체 분포를 검토하는 과정이다.
  • 데이터 탐색 시 잠재적 문제를 발견하는 과정이다.
  • 데이터 탐색 시 패턴을 찾는 과정이다.

 

 탐색적 데이터 분석(EDA)

  • 데이터의 통계량과 분포 등을 통해 데이터의 형태를 확인하고, 데이터를 이해하며 의미 있는 관계를 찾아내는 과정
  • 분석에 앞서 그래프나 통계적인 방법으로 자료를 직관적으로 바라보는 과정
  • 수집한 데이터를 다양한 관점에서 관찰하고 이해하는 과정
  • 저항성 : 수집된 자료에 결측값, 이상값이 있을 때도 영향을 적게 받는 성질(평균보다 중앙값 선호)
  • 잔차 해석 : 잔차를 구하여 데이터의 보통과 다른 특징 탐생, 주경향에서 벗어난 값이 왜 존재하는가?
  • 자료 재표현 :  데이터분석, 해석을 단순화 할 수 있도록 원래 변수를 변환하는 것(로그, 제곱근, 역수 등)
  • 현시성: 데이터 분석 결과를 쉽게 이해할 수 있도록 시각적으로 표현하고 전달하는 과정

 

 개별 변수 탐색

  • 범주형 (명목, 순위 척도 데이터)
    • 통계값: 빈도수, 최빈값, 비율, 백분율 등
    • 시각화: Bar plot(막대 그래프)
  • 수치형 (등간, 비율 척도 데이터)
    • 통계값: 평균, 분산, 표준편차, 첨도, 왜도 등
    • 시각화: Histogram, Boxplot

 

 다차원 데이터 탐색

  • 범주형 - 범주형
    • 빈도수와 비율 활용
    • 교차빈도, 비율, 백분율 분석
    • Bar plot (막대 그래프)
  • 범주형 - 수치형
    • 범주를 그룹으로 사용
    • 그룹에 따른 수치형 변수의 통계량 차이 비교
    • Boxplot
  • 수치형 - 수치형 
    • 변수간의 상관성 분석
    • 공분산으로 방향 파악
    • 상관계수로 방향, 강도 파악
    • Scatter plot, Scatter matrix plot

 

상관관계 분석

  • 두 개 이상의 변수 사이에 존재하는 상호 연관성 여부 및 강도를 측정
  • 일반적으로 선형적으로 관련된 정도를 나타냄 ( 상관계수가 0이라는것: 선형적 관계가 없음)
  • 상관관계가 있다고 인과관계가 있는 것은 아님(인과관계는 선후 관계가 명확함)
  • 양의 상관관계: 한 변수의 값이 증가 할때 다른 변수의 값도 증가하는 경향을 보이는 상관 관계
  • 음의 상관관계: 한 병수의 값이 증가할 때 다른 변수의 값은 감소하는 경향을 보이는 상관 관계
  • 상관계수는 결정계수의 제곱이다.
  • 범위는 -1에서 1사이이다.
  • 0에 가까우면 상관성이 낮다.
  • 관계를 산점도로 알 수 있다.

 

산점도

  • 관계 시각화의 유형이다.
  • 직교 좌표계를 이용하여 좌표상의 점들을 표현하는 시각화 기법이다.
  • 두 변수 사이의 상관관계를 알 수 있다.

 

⭐상관계수

  • 두 변수 사이의 연관성을 수치상으로 객관화하여 두변수사이의 방향성과 강도를 표현하는 방법
  • 상관계수는 -1 이상 ,1 이하의 값을 가진다.
  • 두 변수 간에 직선관계가 있는지를 나타낼 때 가장 적절한 통계량

 

 피어슨 상관계수

  • 수치적 데이터의상관성 분석 방법에 사용
  • 대상자료는 등간 척도, 비율 척도 사용, 두 변수 간의 선형적인 크기만 측정 가능
  • 피어슨 상관계수: x,y의 공분산을 x,y의 표준편차의 곱으로 나눈값
  • ex) 응답자1의 표준편차 2, 응답자2의 표준편차 2, 두 응답자의 공분산 값이 4면 피어슨상관계수 = 1

 

 스피어만 상관계수

  • 순서적 데이터의 상관성 분석에 사용
  • 대상자료는 서열척도 사용, 두 변수 간의 비선형적인 관계를 나타낼 수 있음
  • 스피어만 상관 계수는 두 데이터의 실제 값 대신 두 값의 순위를 기반으로 함
  • 두변수 안의 순위가 완전 일치하면 1, 완전 반대이면 -1
  • ex) 수학 잘하는 학생이 영어도 잘하는 것과 상관있는지 알아보는데 사용될 수 있음
위 그래프처럼 두 변수 X와 Y가 선형 관계가 아니더라도 스피어만 상관 계수는 1이 될 수 있다. 하지만 +1의 피어슨 상관 계수를 보장하지는 않는다. 위 그래프처럼 데이터가 뚜렷한 경향성을 보이지 않을 경우에 스피어만 상관 계수와 피어슨 상관 계수는 비슷한 값을 가진다.
스피어만 상관 계수는 피어슨 상관 계수에 비해 이상치에 덜 민감하다. 이는 스피어만 상관 계수의 ρ가 이상치를 그 값이 아닌 순위로써만 고려하기 때문이다.

 

 상관관계 분석의 종류

  • 변수 개수에 따른 분류
    • 단순 상관 분석: 두개 변수 사이의 상관 분석
    • 다중/다변량 상관 분석: 세개 이상의 변수 사이의 상관 분석(모집단 3개 이상 사용하는 분석방법)
  • 변수 속성에 따른 분류
    • 범주형 - 명목 데이터: 데이터의 순서에 의미 없음, 변수 연산 불가능, 카이제곱검정(교차 분석)
    • 범주형 - 순서 데이터: 데이터의 순서에 의미 있음, 변수 연산 불가능, 스피어만 순위 상관계수
    • 수치데이터 : 변수 연산 가능, 피어슨 상관계수

 

기초통계량

  • 중심경향성 : 평균값, 중위수, 최빈수, 사분위수
  • 산포도 통계량 : 분산, 표준편차, 범위, IQR, 사분편차, 변동계수
  • 분포 통계량 : 첨도, 왜도

 

 히스토그램

  • 도수 분포표의 각 계급을 가로축에 나타내고, 해당 계급에 속하는 측정값의 도수를 세로축에 표시하여 직사각형 모양으로 그림
  • 막대 높이는 빈도를 나타내며, 폭의 의미가 없음
  • 왼쪽으로 치우친 모양이라면 데이터가 전체 범위에서 수치가 낮은 쪽에 몰려 있음을 의미, 오른쪽에 치우쳐 있다면 높은 쪽에 몰려 있음을 의미
  • 한쪽으로 치우치는 것 없이 비슷한 높이로 그려진다면 균일한 분포
  • 가로, 세로축 모두 연속적임, 범주형에는 막대그래프를 사용함
  • 많은 데이터를 가지고 있는 경우 보다 정확한 관계 파악을 할 수 있음

 

시각화 

  • 많은 양의 데이터를 분석하여 표, 그래프, 이미지 등의 형태로 정리하는 것
  • 적절한 시각화 방법을 통해 데이터를 효과적으로 탐색/분석하거나 분석 결과를 전달할 수 있음
  • 시각화 목적: 데이터분석(데이터 속성 파악), 의사소통의 수단(데이터가 갖는 의미와 인사이트 공유)
  • 정보구조화: 유사데이터를 묶거나 재배열, 정리 및 변화을 통해 데이터의 패턴을 찾아내거나 추출하는 단계
  • 정보시각표현 
    • 시각화 완성 단계로, 그래픽 요소를 활용해 완성함
    • 인포그래픽
  • 인포그래픽(Infographics, information + Graphics) 
    • 정보를 빠르고 분명하게 표현하기 위해 정보를 시각적으로 표현한 것
    • 스토리를 통해 정보를 전달하려는 경향이 강하며, 일반인을 대상으로 특정 정보나 메시지를 전달하기 적합함
    • 기억에 잘 남고, 주장을 전달하는 용도로 사용할 수도 있음
    • 복잡한 대규모  빅데이터 분석결과를 명료하고 이해하기 쉽게 표현함
    • 인포메이션(Information)과 시각적 그래프의 합성어이다.
    • 쉽게 이해할 수 있도록 그래픽과 텍스트를 조합해 사용한다.
    • 누적영역차트
  • 시간 시각화 
    • 시간 흐름에 따른 변화를 표현함, 주로x축-시간, y축-값으로 표현함
    • 막대그래프 , 산점도, 선 그래프, 계단 그래프, 영역 차트
  • 관계 시각화 
    • 다변량 데이터에 대하여 변수 간의 연관성 및 패턴을 색상, 농도, 등을 사용하여 표현, 분석함
    • 산점도, 산점도 행렬, 버블차트, 히트맵(Heatmap)
  • 비교 시각화 
    • 다변량 데이터에 대하여 유사 또는 차이에 대해 점, 선, 막대, 색상 등을 사용하여 표현함
    • 평행차트, 히트맵, 스타차트, 플로팅 바 차트, 체르노프 페이스, 다차원 척도법(MDS)
  • 공간 시각화  
    • 지도를 활용하여 데이터를 표현함
    • 코로플레스, 카토그램, 버블 플롯맵
  • 구성 시각화 
    • 범주형 데이터의 구성을 크기로 표현함
    • 파이차트, 도넛차트, 트리 맵 차트
  • 분포시각화 
    • 연속형 데이터의 분포를 시각적으로 표현함
    • 1개 변수: Histogram, Boxplot, 2개 변수: Scatter plot

 

 영역차트, 누적 영역차트(시계열성)

선 차트 Line plot 영역 차트 누적 영역차트
시간에 따라 지속적으로
변화하는 것을 기록할 때 유용
조사하지 않은 값도 대략 예측할 수 있다는 장점이 있다.
 시간 경과에 따른 데이터 추세를 찾을 수 있습니다. 누적 영역 차트는 여러 그룹에 대한 숫자 변수의 변화를 표시한다. 

 

 막대 그래프(범주형, 시계열)

막대 그래프
Bar Chart
누적 막대 그래프 그룹 막대 그래프
시간에 따른 값의 변화를 보거나, 범주형 변수의 탐색에 주로 사용된다. 누적된 형태로
각 범주 별 데이터를 표시함
막대 그래프에서 X축에 두 범주에 대해 표시

 

 산점도, 산점도 행렬, 버블 차트(X, Y축 변수의 관계 시각화)

산점도 산점도 행렬 버블 차트
Bubble Chart
두 개 수치형 변수의 상관 관계 알아보기 범주별로 색상, 모양 크기 등을 변경해 사용할 수 있음 여러 수치형 변수의 상관관계 알아보기

두 개의 수치형 변수 + 한 개 범주형 변수: 산점도 사용하며, 색상, 모양등 으로 범주를 표시

 

 평행 차트, 스타 차트, 히트맵(비교 시각화)

평행차트
Parallel Chart
스타, 레이다, 거미줄 차트
Star, Spider, Rader Chart
히트 맵
Heatmap
여러 축을 평행으로 배치하는 기술
수직선엔 변수를 배치한다.
측정 대상은 변숫값에 따라 위아래로 이어지는 연결선으로 표현한다.
측정 목표에 대한 평가항목이 다수 일 때 사용 변수의 수만큼 축을 그리고 각 축에 측정값 표시
항목간 비율 및 균형, 경향을 알 수 있음
두 개 범주형 변수의 관계/비교 시각화에 사용함, 색 및 농도를 사용하여 값의 크기 표시

 

 체르노프 페이스, 플로팅 바(비교 시각화)

체르노프 페이스 Chernoff Face 플로팅 바 Floating Bar
다차원 통계 데이터를 사람의 얼굴 이미지를 이용하여 표현하는 방법, 얼굴의 각 요소가 변수 표현에 사용됨 축에 연결되지 않고 최소/최대 값 사이에 하나 또는 여러 막대가  떠 있는 차트로 온도, 주가, 혈압 등의 범위 표시에 유용

 

 파이 차트, 도넛 차트, 트리맵 차트(범주형, 구성)

파이차트 Pie Chart 도넛 차트 Donut Chart 트리맵 차트 Tree Map Chart
원의 조각을 사용해 범주형 데이터의 범주별 기여도를 표시하는데 사용함 파이차트의 중앙에 구멍을 넣어 표현한 차트, 표현 내용은 파이 차트와 동일, 여러 범주 데이터에 대해서는 선버스트 차트 사용 계층 구조를 나타내며, 사각형의 크기 또는 면적을 사용해 구성을 나타냄

 

 시공간데이터

  • 공간적 개체에 시간 개념이 추가되어 시간에 따라 위치나 형상이 변하는 데이터
  • 카토그램: 데이터 값의 변화에 따라 지도의 면적이 왜곡되는 지도, 데이터 값이 큰 지역의 면적이 더크게 표시됨
  • 코로플레스 지도: 데이터 값의 크기에 따라 한 색상의 명도를 몇 단계로 나누어 지역 별 데이터 표시
  • 버플 플롯 맵: 버플차트에 위도, 경도 정보를 적용, 지도+버블(크기,색상적용)
  • 지도 데이터, 패널 데이터, 격자데이터가 시공간 데이터에 속한다.
  • 패널데이터: 여러 개체들을 복수의 시간에 걸쳐서 추적하여 얻는 데이터를 말한다.

 

 변량 데이터

  • 변수와 같은 의미, 확률 통계학에서 조사 대상의 특징, 성질을 숫자 또는 문자로 나타낸 값
  • 변량데이터유형: 일변량 데이터, 이변량데이터, 다변량 데이터
  • 일변량 데이터: 한개 변수의 특성 파악
    • 한 개 변수의 특성 파악
    • 기술 통계량(평균, 분산, 표준편차)
    • 수치형: Histogram, Boxplot
    • 범주형: Bar Chart, Pie Chart
  • 이변량 데이터: 두 개의 변수의 특성 파악
    • 두 변수사이의 관계파악
    • 상관분석(상관계수, 공분산)
    • 교차표/분할표(두개 범주)
    • 두개수치:Scatter
    • 한개수치: Boxplotplot, Scatter matrix plot
    • 두개범주: Heatmap, Bar Chart
  • 다변량 데이터: 두 개  변수 이상에 대한 자료
    • 여러 변수 사이의 관계 파악
    • 이변량 데이터 탐색을 포함
    • 상관분석, 다차원 척도법, 주성분 분석, 선형판별분석
    • 3개 이상의 다변량 데이터 그래프: 산점도 행렬, 스타(레이더)차트

 

 비정형 데이터 탐색

  • 일정한 규격이나 형태를 지닌 숫자 데이터와 달리 이미지나 영상, 텍스트 처럼 형태와 구조가 다른 구조화 되지 않은 데이터
  • 텍스트: 의미있는 단어, 성분을 추출하고, 빈도를 표현하는 방법으로 데이터를 변환후 분석
  • 이미지: 픽셀마다 수치로 변환하여 이미지 분석(분석기법은 딥러닝의 CNN활용 분석이 대표적)
  • XML, JSON, HTML: 각 형식에 맞는 Parser를 사용해 문장을 분해하고, 위계 관계를 분석 한 뒤에 탐색 진행

 

통계기법 이해

 대푯값 [기출]

  • 주어진 자료 전체에서 중심 위치를 나타내는 값
  • 평균, 중앙값, 최빈값, 백분위수, 사분위수, 절사평균 등이 있다.
  • 평균은 중앙값보다 이상값의 영향을 많이 받는다.
  • Q3-Q1같은 사분위수 범위를 의미한다.
  • 변동률은 기하평균으로 구한다.
  • 변동계수는 분산과 관련이 있다.

 

산포도 통계량

  • 주어진 자료가 흩어진 정도를 나타내는 값
  • 분산, 모분산, 표본분산, 표준편차, 범위, IQR, 사분편차, 변동계수

 

분포 통계량

  • 데이터 분포의 형태와 대칭성을 설명
  • 첨도 : 데이터의 뾰족한정도
  • 왜도 : 데이터 분포의 기울어진 정도를 설명하는 통계량
  • 왜도 = 0, 최빈수 = 중위수 = 평균
  • 왜도 > 0, 최빈수 < 중위수 < 평균
  • 왜도 < 0 , 평균 < 중위수 < 최빈수

 

공분산

  • 2개의 변수 사이의 관련성을 나타내는 통계량
  • 상관관계의 상승 혹은 하강하는 경향을 이해할 수 있다.
  • 공분산 값의 크기는 측정단위에 따라 달라지므로 선형관계의 강도를 나타내지는 못한다.

 

⭐ 표본추출

  • 표본추출은 모집단 일부를 일정한 방법에 따라 표본으로 선택하는 과정
  • 기법 : 단순 무작위 추출, 계통 추출, 층화 추출, 군집 추출

 

⭐ 표본추출 - 단순 무작위 추출

  • 모집단에서 정해진 규칙 없이 표본을 추출하는 방식
  • 표본의 크기가 커질수록 정확도가 높아지며 추정값이 모수에 근접하므로 추정값의 분산이 줄어든다.

 

⭐ 표본추출 - 계통 추출

  • 모집단을 일정한 간격으로 추출하는 방식
  • 100명의 사람에게 번호표를 나눠주고 끝자리가 7로 끝나는 사람 선정

 

표본추출 - 층화 추출

  • 층화 추출은 모집단을 여러 계층으로 나누고 계층별로 무작위추출을 수행하는 방식
  • 다수의 이질적인 원소들로 구성된 모집단에서 각 계층을 고루 대표할 수 있또록 표본을 추출하는 방법이다.
  • 이질적인 모집단의 원소들로 서로 유사한 것끼리 몇 개의 층을 나눈 후, 각 계층에서 표본을 랜덤하게 추출한다.

 

 

표본추출 - 군집 추출

  • 모집단을 여러  군집으로 나누고 일부 군집의 전체를 추출하는 방식
  • 군집 추출의 경우 집단 내부는 이질적이고 집단 외부는 동질적이다.

 

베이즈 정리

  • 어떤사건에 대해 관측전 원인에 대한 가능성과 관측 후의 원인 가능성 사이의 관계를 설명하는 확률이론

 

이산확률분포

  • 이산확률변수 X가 가지는 확률분포
  • 포아송, 베르누이, 이항분포

 

이산확률분포 - 포아송 분포

  • 주어진 시간 또는 영역에서 어떤 사건의 발생 횟수를 나타내는 확률분포

 

이산확률분포 - 베르누이 분포 

  • 특정 실험의 결과가 성공 또는 실패로 두 가지의 결과 중 하나를 얻는 확률분포

 

이산확률분포 - 이항 분포 

  • n번 시행 중에 각 시행의 확률이 p일 때, k번 성공할 확률분포

 

연속확률분포

  • 확률변수 X가 실수와 같이 연속적인 값을 취할 때
  • 종류 : 정규분포, 표준정규분포(Z-분포), T-분포, 지수분포, 카이제곱분포, F-분포

 

 정규분포

  • 정규분포는 평균과 표준편차에 대한 모양이 결정됨
  • u는 분포의 중심이고 u를 중심으로 대칭이고 u에서 가장 큰 값이 되는 하나의 봉우리만 가진다.이 크면 분포의 산포가 커지고 작으면 분포의 산포가 작아진다.

 

 연속확률분포 - Z분포

  • 표준 통계량이 표본평균일 때, 이를 정규화시키 표본분표
  • X ~ N(μ,σ²) 일 때, 평균0, 표준편차/분산 1인 정규 분포 N(0,1)를 표준 정규 분포 z분포라고 함

 

연속확률분포 - T분포

  • 모집단이 정규분포라는 정도만 알고 모표준편차는 모를 때 모집단의 평균을 추정하기 위해 사용
  • 표본의 크기가 작은 소표본의 경우 사용함
  • 표본의 크기인 n의 크기가 클 경우에 중심 극한 정리에 의하여 T-분포는 정규분포를 따름

 

 연속확률분포 - 카이제곱 분포

  • 서로 독립적인 표준 정규 확률 변수를 각각 제곱한 다음 합해서 얻어지는 분포
  • 표본 통계량이 표본분산일 떄의 표본분포
  • n개의 서로 독립적인 표준 정규 확률변수를 각각 제곱한 다음 합해서 얻어지는 분포

 

연속확률분포 - F분포

  • 독립적인 두 카이제곱 분포가 있을 때, 두 확률 변수의 비

 

최대우도법

  • 어떤 확률변수에서 표집한 값들을 토대로 그 확률변수의 모수를 구하는 방법

 

추론통계 

  • 모집단의 표본을 가지고 모집단의 특성을 추론하고 그 결과의 신뢰성을 검정하는 통계적 방법
  • 표본의 개수가 많을수록 표본오차는 감소
  • 점추정과 구간추정으로 구분

 

⭐ 점추정 

  • 표본의 정보로부터 모집단의 모수를 하나의 값으로 추정하는 기법
  • 신뢰도를 나타낼 수 없는 단점이 있어 구강 추정을 사용
  • 표본평균, 표본분산, 중위수, 최빈수

 

구간추정

  • 추정값에 대한 신뢰도를 제시하면서 범위로 모수를 추정하는 기법
  • 항상 추정량의 분포에 대한 전제가 주어져야 하고 구해진 구간안에 모수가 있을 가능성의 크기가 주어져야한다. 
  • 신뢰수준 : 추정값이 존재하는 구간에 모수가 포함될 확률 (1 - α), α : 유의수준
  • 신뢰구간 : 신뢰수준을 기준으로 추정된 통계적으로 유의미한 모수의 범위

신뢰구간 공식
신뢰구간

 

 단일 모평균 추정

  • 단일모평균의 추정은 모분산이 알려져 있는 경우와 알려져있지 않은 경우로 나누어 계산한다.
  • 모분산이 알려져 있지 않은 경우는 대표본과 소표본일 경우로 나누어 계산한다.
  • 모집단이 정규분포를 따르고 모분산이 알려져 있는 경우 Z-분포를 이용
  • 모분산이 알려져 있지 않고 표본의 크기가 30 이상인 대표본의 경우 Z-분포를 이용
  • 모분산이 알려져 있지 않고 표본의 크기가 30 미만인 소포뵨의 경우 T-분포를 이용

 

가설검정

  • 모집단에 대해 가설 설정 후, 표본 관찰을 통해 그가설의 채택 여부를 결정하는 통계적 추론 방법
  • 가설설정 ➡️ 유의수준 설정 ➡️검정통계량 산출(p-value구함) ➡️ 기각/채택 판단
  • 귀무가설: 가설검정의 대상이 되는 가설, 연구자가 부정하고자 하는 가설, 알고 있는 것과 같음, 변화 없음, 영향력 없음, 연관성 없음, 효과 없음에 대한 가설
  • 대립가설: 연구자가 연구를 통해 입증/증명되기를 기대하는 예상이나 주장 귀무 가설이 기각되면 채택되는 가설알고 있는 것과 다름, 변화있음, 영향력 있음, 연관성 있음, 효과 있음에 대한가설

 

가설검정의 종류

  • 양측 검정: 귀무가설을 기각하는 영역이 양쪽에 있는 검정
  • 단측 검정
  • 좌측 검정: 귀무가설을 기각하는 영역이 왼쪽에 있는 검정
  • 우측 검정: 귀무가설을 기각하는 영역이 오른쪽에 있는 검정

 

가설검정의 오류

  • 제1종오류 귀무가설이 참인데 기각되는 오류, α=P(제 1종 과오를 범함)=P(H₀ 기각| H₀ 참) α
  • 생산자 입장에서 정상 제품을 불량품으로 판정하는 생산자 위험오류
  • 제 2종 오류 귀무가설이  거짓인데 채택하는 오류, B=P(제2종 과오를 범함)=P(H₀ 채택| H₀ 거짓)
  • 소비자 입장에서 불량품을 정상품으로 판정하는 소비자 위험 오류

 

p-값

귀무가설이 참이라는 전제하에 실제 표본에서 구한 표본 통계량의 값보다 더 극단적인 값이 나올 확률

귀무가설 채택 : p-값 < 유의수준 α 

귀무가설 채택 : p-값 > 유의수준 α 

 

임곗값(임계치)

  • 귀무가설 채택 : 임곗값 > 검정통계량
  • 귀무가설 기각 : 임곗값 < 검정통계량

 

이것저것 다 정리하다보니까 글이 많이 길어졌네요 ㅎ..ㅎ

다들 시험잘보세요 

 

참고자료
https://r-graph-gallery.com/
 https://www.grapecity.com/

https://www.youtube.com/c/EduAtoZPython

 

반응형