반응형

자격증 66

[빅데이터분석기사 필기] 매개변수 최적화 개념 및 기출문제

매개변수 매개변수는 주어진 데이터로부터 학습을 통해 모델 내부에서 결정되는 변수이다. 매개변수 최적화 학습 모델과 실제 레이블 차이는 손실 함수로 표현되며, 학습의 목적은 오차, 손실 함수의 값을 최대한 작게 하도록 하는 매개변수(가중치, 편향)를 찾는 것이다. 매개변수의 최적값을 찾는 문제이며, 이러한 문제를 푸는 것을 최적화라 한다. 가중치 : 각 입력값에 각기 다르게 곱해지는 수치 편향 : 하나의 뉴런에 입력된 모든 값을 다 더한 값에 더해주는 상수 매개변수 종류 가중치 : 각 입력값에 각기 다르게 곱해지는 수치 편향 : 하나의 뉴런에 입력된 모든 값을 다 더한 값에 더해주는 상수 매개변수 최적화 기법 ① 확률적 경사 하강법(SGD) 확률적 경사 하강법이란 손실 함수의 기울기를 구하여, 그 기울기를..

[빅데이터분석기사 필기] 과대 적합 개념 및 기출문제

과대 적합 과대 적합은 제합된 훈련 데이터 세트가 지나치게 특화되어 새로운 데이터에 대한 오차가 매우 커지는 현상이다. 모델의 개개변수 수가 많거나 훈련 데이터 세트의 양이 부족한 경우에 발생한다. 훈련 데이터는 실제 데이터의 부분 집합이라서 실제 데이터의 모든 특성을 가지고 있지 않을 수 있다. 과대 적합의 발생 원인은 실제 데이터에서 편향된 부분만을 가지고 있거나 오류가 포함된 값을 가지고 있을 경우 발생할 수 있다. 과대 적합 방지하기 과대 적합을 방지하기 위해 데이터 세트 증강, 모델 복잡도 감소, 가중치 규제, 드롭아웃 방법을 적용한다. ① 데이터 증강 모델은 훈련데이터 세트의 양이 적을 경우, 해당 데이터의 특정 패턴이나 노이즈까지 분석되어 과대 적합 현상이 발생할 확률이 높으므로 충분한 데이..

[빅데이터분석기사 필기] 회귀 모형의 평가지표 개념 및 기출문제

Tip 최신 기출문제를 보면 회귀모형 분류 공식이 자주 출제되므로 공식을 꼭 암기해야 합니다. 평가지표 빅데이터 분석 모형은 분류 모형과 회귀 모형에 따라 다른 평가지표를 이용하여 평가한다. ⭐ 분석 모형 설정 이상적인 모형에서는 낮은 편향과 낮은 분산으로 설정되어야 한다. 편향 : 학습 알고리즘에서 잘못된 가정을 했을 때 발생하는 오차 분산 : 훈련 데이터에 내재된 작은 변동으로 발생하는 오차 ⭐ 분석 모형 평가 기준 구축한 빅데이터의 분석 모형의 유용성을 판단하고 서로 다른 모형들을 비교하여 평가하는 과정은 중요하다. 구죽한 분석 모형이 실무에서 사용이 가능할 수 있을지를 판단하기 위해서는 객관적인 평가지표를 통한 평가가 필요하다. 빅데이터 분석 모형은 만든 것으로 끝이 아니라 기존 운영 시스템과의 ..

[빅데이터분석기사 필기] 적합도 검정 개념 및 기출문제

적합도 검정 적합도 검정은 표본 집단의 분포가 주어딘 특정 이론을 따르고 있는지를 검정하는 기법이다. 적합도 검정은 가정된 확률이 정해진 경우와 아닌 경우로 유형을 분리할 수 있다. 적합도 검정 기법으로는 카이제곱 검정, 샤피로-윌크 검정, K-S 검정, Q-Q Plot이 있다. 적합도 검정 기법 유형 ① 가정된 확률 검정 가정된 확률이 정해져 있을 경우에 사용하는 검정 방법이다. 카이제곱 검정을 이용하여 검정을 수행한다. ⭐ Chi Square Test(카이제곱 검정) R언어에서 chisp.test() 함수를 이용해서 나온 결과의 p-값이 0.05보다 클 경우 관측된 데이터가 가정된 확률을 따른다고 할 수 있다. ② 정규성 검정 일반적으로 데이터가 정규분포를 따른다는 가정 아래 검정 통계량과 p-값을 ..

[빅데이터분석기사 필기] 모수 유의성 검정 개념 및 기출문제

모수 유의성 검정 검정 대상인 모집단의 평균 및 분산에 따라 가설의 유의성을 검정한다. 모집단은 분석의 대상, 즉 관심의 대상이 되는 전체 그룹이며, 모수는 모집단을 설명하는 어떤 값이다. 표본은 모집단 분석을 위해 추출한 한 집단의 관측치이며, 통계량은 모집단을 설명하는 어떤 값을 표본으로부터 구한 값이다. 모집단의 평균에 대한 유의성 검정 모집단의 평균을 알고 있을 때 Z-검정, T-검정을 사용하여 유의성을 검정한다. ① Z-검정 Z-검정은 귀무가설에서 검정 통계량의 분포를 정규분포로 근사할 수 있는 통계 검정이다. 정규분포를 가정하며, 추출된 표본이 동일 모집단에 속하는지 가설을 검정하기 위해 사용한다. 모집단 분산 σ²을 이미 알고 있을 때 분포의 평균을 테스트한다. Z-검정 통계량 값이 임계치보..

[빅데이터분석기사 필기] 교차검증 개념 및 기출문제

교차 검증 교차 검증은 모델의 일반화 오차에 대해 신뢰할 만한 추정치를 구하기 위해 훈련, 평가 데이터를 기반으로 하는 검증 기법이다. 빅데이터 분석 모형을 검증하기 위한 교차 검증으로는 홀드 아웃 교차 검증, K-Fold Cross Validation, LOOCV, LpOCV 등이 있다. ① 홀드 아웃 교차 검증 전체 데이터를 비복원추출 방법을 이용하여 랜덤하게 훈련 데이터, 평가 데이터로 나눠 검증하는 기법이다. 훈련 데이터로 분석 모형을 구축하고, 평가 데이터를 이용하여 분석 모형을 평가하는 기법이다. 계산량이 많지 않아 모형을 쉽게 평가할 수 있으나 전체 데이터에서 평가 데이터만큼은 학습에 사용할 수 없으므로 데이터 손실이 발생한다. 데이터를 어떻게 나누느냐에 따라 결과가 많이 달라질 수 있다. ..

[빅데이터분석기사 필기] 딥러닝 분석 개념 및 기출문제

딥러닝(Deep Learning) 여러 비선형 변환 기법의 조합을 통해 높은 수중의 추상화를 시도하는 기계 학습 알고리즘의 집합이다. 기존 인공신경망 모델의 문제점인 기울기 소실이 해결되었고 강력한 GPU를 연산에 활용하여 하드웨어 연산속도를 높여 분석시간을 단축하면서 딥러닝이 부각되었다. ⭐ 딥러닝 특징 오차역전파를 사용한다. Sigmoid는 기울기 소실 문제로 인해 ReLU와 같은 활성화 함수를 많이 사용한다. 딥러닝은 은닉층을 사용하여 결과에 대한 해석이 어렵다. Dropout은 무작위로 신경망을 제거한다. 딥러닝 알고리즘 딥러닝 알고리즘에는 DNN, CNN, RNN, GAN 등 다양한 알고리즘이 존재한다. ① DNN 알고리즘 은닉층을 심층 구성한 신경망으로 학습하는 알고리즘이다. DNN알고리즘은 ..

[빅데이터분석기사 필기] 비모수 통계 개념 및 기출문제

비모수 통계란? 비모수 통계는 평균이나 분산 같은 모집단의 분포에 대한 모수성을 가정하지 않고 분석하는 통계적 방법이다. 데이터가 모수적 분석 방법이 가정한 특성을 만족하지 못할 때는 비모수 통계분석 방법을 사용하여야 한다. ⭐비모수 통계 특징 비모수 통계분석에서는 빈도, 부호, 순위 등의 통계량을 사용한다. 순위와 부호에 기초한 방법 위주로 이상값으로 인한 영향이 적다. 데이터가 모수적 분석 방법이 가정한 특성을 만족하지 못할 때는 비모수 통계분석 방법을 사용하여야 한다. ⭐비모수 통계 장단점 장점 모집단의 분포에 대한 가정의 불만족으로 인한 오류의 가능성이 작다. 모수적 방법에 비해 통계량의 계산이 간편하고 직관적으로 이해하기 쉽다. 모집단의 분포에 무관하게 사용할 수 있다. 추출된 샘플의개수가 10..

[빅데이터분석기사 필기] 앙상블 분석 개념 및 기출문제

앙상블 분석 앙상블은 학습 알고리즘들을 따로 쓰는 경우에 비해 더 좋은 예측 성능을 얻기 위해 다수의 학습 알고리즘을 사용하는 기법이다. 앙상블 기법은 다양한 모형의 예측 결과를 결합함으로써 단일 모형으로 분석했을 때보다 높은 신뢰성을 가집니다. 이상값에 대한 대응력이 높아지고, 전체 분산을 감소시켜 정확도를 상승시킨다. 모형의 투명성이 떨어지게 되어 정확한 현상의 원인 분석에는 부적합하다. 주어진 자료로부터 여러 개의 예측 모형을 만든 후 예측 모형들을 조합하여 하나의 최종 예측 모형을 만드는 방법으로 다중 모델 조합, 분류기 조합이 있다. 앙상블 알고리즘은 여러개의 학습 모델을 훈련하고 투표를 통해 최적화된 예측을 수행하고 결정한다. 앙상블 학습절차 앙상블 학습절차는 도출 및 생성, 집합별 모델 학습..

[빅데이터분석기사 필기] 비정형 데이터 분석 개념 및 기출문제

비정형 데이터 비정형 데이터는 스키만 구조 형태를 가지지 않고 고정된 필드에 저장되지 않는 데이터이며 텍스트, 이미지, 오디오, 비디오 등이 있다. 텍스트 : 문자/문자열 형태로 저장 이미지 : RGB 방식으로 저장 오디오 : 시간에 따른 진폭 형태로 저장 비디오 : 이미지 스트리밍으로 저장 비정형 데이터 분석 비정형 데이터 안에서 체계적인 통계적 규칙이나 패턴을 탐색하고 이를 의미 있는 정보로 변환함으로써 기업의 의사결정에 적용하는 분석 기법이다. 대표적인 비정형 데이터 분석 기법으로 텍스트 마이닝, 오피니언 마이닝, 웹 마이닝, 사회 연결망 분석이 있다. ① 텍스트 마이닝 텍스트 마이닝은 텍스트 형태로 이루어진 비정형 데이터들을 자연어 처리 방식을 이용해 정보를 추출하는 기법이다. 텍스트 마이닝의 기..

반응형