반응형

빅데이터분석기사 21

빅데이터분석기사 필기 - 분류 모형의 평가지표(혼동 행렬, ROC 곡선, 이익 도표) 개념과 기출문제

빅데이터분석기사 필기 4과목에서 가장 많이 나오는 유형이므로 모든 내용을 이해 후 암기하셔야 합니다. 특히 혼동 행렬은 시험당 3~4문제가 출제됩니다. 평가지표와 공식은 모두 암기해주세요. 또한 ROC 곡선문제도 1~2문제 출제되며 F1 Score와 카파통계량 중 한문제가 출제됩니다. 분류 모형의 평가지표 분류 모형의 결과를 평가하기 위해서 혼동 행렬을 이용한 평가지표와 ROC곡선의 AUC를 많이 사용한다. 모형의 평가지표가 우연히 나온 결과가 아니라는 것을 카파통계량을 통하여 설명할 수 있다. ① 혼동 행렬 혼동 행렬은 분석 모델에서 구한 분류의 예측 범주와 데이터의 실제 분류 범주를 교차 표 형태로 정리한 행렬이다. 혼동 행렬을 작성함에 따라 모델의 성능을 평가할 수 있는 평가지표가 도출된다. 모델의..

빅데이터분석기사 필기 - 불균형 데이터 처리 방법과 기출문제

불균형 데이터 처리 데이터에서 각 클래스가 갖고 있는 데이터의 양이 차이가 큰 경우 분류 데이터에서 분포가 더 높은 클래스를 더 예측하려고 하기 때문에 정확도는 높아질 수 있지만, 분포가 낮은 클래스의 재현율이 낮아지는 문제가 발생할 수 있음 정확도(Accureacy): 전체예측에서 옳은 예측의 비율 정밀도(Precision):예측 값이 True인 것에 대해 실제 값이 True인 지표 재현율(Recall, Sensitivity): 실제값이 True인 것에 대해 예측값이 True인 지표 불균형 상태 그대로 머신러닝 모델을 통해 예측하게 된다면 과대적합 문제가 발생할 수 있다. 학습 데이터셋에서는 높은 성능으로 보이지만, 테스트 데이터에서는 예측 성능이 더 낮게 나올 가능성이 있음 데이터 클래스 비율의 차이..

[빅데이터분석기사 필기] 2021년 2회차 기출문제

2021년 제2회 기출문제 2021년 4월 17일에 시행된 빅데이터 분석기사 필기 4회 기출문제입니다. 총 80문항이며 100점을 만점으로 하여 과목당 40점 이상, 전 과목 평균 60점 이상이면 합격입니다. 실제 시험과 100% 일치하지는 않습니다. 정답 버튼을 클릭하시면 정답을 보실 수 있고 에러 사항이 있으면 댓글을 달아 주시면 바로 수정하겠습니다. [1과목 빅데이터 분석 기획] 1. 다음 중 수집 대상 데이터를 추출, 가공하여 데이터 웨어하우스 및 데이터 마트에 저장하는 기술은 무엇인가? ① ETL ② CEP ③ EAI ④ ODS 더보기 ① ETL 2. 딥러닝에 대한 설명으로 옳은 것은? ① 오차 역전파를 사용한다. ② ReLU보다 Sigmoid를 사용한다.. ③ 딥러닝은 각 은닉층의 가중치를 통..

[빅데이터분석기사 필기] 데이터 수집 개념 및 기출문제

데이터 수집 수집 데이터 대상은 데이터의 위치에 따라 내부 데이터와 외부 데이터로 구분한다. 데이터 수집 방식 및 기술 수집 대상 데이터는 데이터의 구조적 관점에 따라 정형 데이터, 비정형 데이터, 반정형 데이터로 나눌 수 있다. 구조적 관점에 따라 분류된 데이터 유형에 따라 각각 데이터 수집 방식과 기술을 최적화하여 적용해야한다. ① ETL ETL은 데이터 분석을 위한 데이터를 데이터 저장소인 DW 및 DM으로 이동시키기 위해 다양한 소스 시스템으로부터 필요한 원본 데이터를 추출하고 변환하여 적재하는 작업 및 기술이다. 추출 ➡️ 변환 ➡️ 적재 ② FTP FTP는 TCM/IP 프로토콜을 기반으로 서버, 클라이언트 사이에서 파일 송수신을 하기 위한 프로토콜이다, Atctive FTP : 클라이언트가 데..

빅데이터분석기사 필기 - 데이터 시각화 종류와 기출문제

데이터 시각화 데이터에 대한 이해를 돕기 위해 그림, 도형 등 그래픽 요소들을 이용해 데이터를 묘사하고 표현하는 과정이다. 선, 막대, 원 등의 기하나 도형과 같은 양식을 이용해 데이터의 특징을 설명할 수 있는 모양으로 만들어 내거나, 색상, 레이블 등 특성을 활용하여 데이터를 표현한다. 정보 전달, 설득의 목적으로 사용한다. 데이터 시각화 유형 ① 시간 시각화 시간 시각화는 시간에 따른 데이터의 변화를 표현한 시각화 방법이다. 시계열 데이터에서 주요 관심 요소는 경향성으로 추세선과 산점도의 경우 시간의 흐름에 따른 추세를 알아볼 수 있다. 시간 시각화는 시간의 흐름에 따라 변하는 데이터를 표현하기 때문에 개별적인 데이터를 보기보다는 전체적인 흐름을 파악해야 한다. 시간 시각화의 유형으로 막대그래프, 누..

[빅데이터분석기사 필기] 매개변수 최적화 개념 및 기출문제

매개변수 매개변수는 주어진 데이터로부터 학습을 통해 모델 내부에서 결정되는 변수이다. 매개변수 최적화 학습 모델과 실제 레이블 차이는 손실 함수로 표현되며, 학습의 목적은 오차, 손실 함수의 값을 최대한 작게 하도록 하는 매개변수(가중치, 편향)를 찾는 것이다. 매개변수의 최적값을 찾는 문제이며, 이러한 문제를 푸는 것을 최적화라 한다. 가중치 : 각 입력값에 각기 다르게 곱해지는 수치 편향 : 하나의 뉴런에 입력된 모든 값을 다 더한 값에 더해주는 상수 매개변수 종류 가중치 : 각 입력값에 각기 다르게 곱해지는 수치 편향 : 하나의 뉴런에 입력된 모든 값을 다 더한 값에 더해주는 상수 매개변수 최적화 기법 ① 확률적 경사 하강법(SGD) 확률적 경사 하강법이란 손실 함수의 기울기를 구하여, 그 기울기를..

[빅데이터분석기사 필기] 회귀 모형의 평가지표 개념 및 기출문제

Tip 최신 기출문제를 보면 회귀모형 분류 공식이 자주 출제되므로 공식을 꼭 암기해야 합니다. 평가지표 빅데이터 분석 모형은 분류 모형과 회귀 모형에 따라 다른 평가지표를 이용하여 평가한다. ⭐ 분석 모형 설정 이상적인 모형에서는 낮은 편향과 낮은 분산으로 설정되어야 한다. 편향 : 학습 알고리즘에서 잘못된 가정을 했을 때 발생하는 오차 분산 : 훈련 데이터에 내재된 작은 변동으로 발생하는 오차 ⭐ 분석 모형 평가 기준 구축한 빅데이터의 분석 모형의 유용성을 판단하고 서로 다른 모형들을 비교하여 평가하는 과정은 중요하다. 구죽한 분석 모형이 실무에서 사용이 가능할 수 있을지를 판단하기 위해서는 객관적인 평가지표를 통한 평가가 필요하다. 빅데이터 분석 모형은 만든 것으로 끝이 아니라 기존 운영 시스템과의 ..

[빅데이터분석기사 필기] 적합도 검정 개념 및 기출문제

적합도 검정 적합도 검정은 표본 집단의 분포가 주어딘 특정 이론을 따르고 있는지를 검정하는 기법이다. 적합도 검정은 가정된 확률이 정해진 경우와 아닌 경우로 유형을 분리할 수 있다. 적합도 검정 기법으로는 카이제곱 검정, 샤피로-윌크 검정, K-S 검정, Q-Q Plot이 있다. 적합도 검정 기법 유형 ① 가정된 확률 검정 가정된 확률이 정해져 있을 경우에 사용하는 검정 방법이다. 카이제곱 검정을 이용하여 검정을 수행한다. ⭐ Chi Square Test(카이제곱 검정) R언어에서 chisp.test() 함수를 이용해서 나온 결과의 p-값이 0.05보다 클 경우 관측된 데이터가 가정된 확률을 따른다고 할 수 있다. ② 정규성 검정 일반적으로 데이터가 정규분포를 따른다는 가정 아래 검정 통계량과 p-값을 ..

[빅데이터분석기사 필기] 모수 유의성 검정 개념 및 기출문제

모수 유의성 검정 검정 대상인 모집단의 평균 및 분산에 따라 가설의 유의성을 검정한다. 모집단은 분석의 대상, 즉 관심의 대상이 되는 전체 그룹이며, 모수는 모집단을 설명하는 어떤 값이다. 표본은 모집단 분석을 위해 추출한 한 집단의 관측치이며, 통계량은 모집단을 설명하는 어떤 값을 표본으로부터 구한 값이다. 모집단의 평균에 대한 유의성 검정 모집단의 평균을 알고 있을 때 Z-검정, T-검정을 사용하여 유의성을 검정한다. ① Z-검정 Z-검정은 귀무가설에서 검정 통계량의 분포를 정규분포로 근사할 수 있는 통계 검정이다. 정규분포를 가정하며, 추출된 표본이 동일 모집단에 속하는지 가설을 검정하기 위해 사용한다. 모집단 분산 σ²을 이미 알고 있을 때 분포의 평균을 테스트한다. Z-검정 통계량 값이 임계치보..

[빅데이터분석기사 필기] 교차검증 개념 및 기출문제

교차 검증 교차 검증은 모델의 일반화 오차에 대해 신뢰할 만한 추정치를 구하기 위해 훈련, 평가 데이터를 기반으로 하는 검증 기법이다. 빅데이터 분석 모형을 검증하기 위한 교차 검증으로는 홀드 아웃 교차 검증, K-Fold Cross Validation, LOOCV, LpOCV 등이 있다. ① 홀드 아웃 교차 검증 전체 데이터를 비복원추출 방법을 이용하여 랜덤하게 훈련 데이터, 평가 데이터로 나눠 검증하는 기법이다. 훈련 데이터로 분석 모형을 구축하고, 평가 데이터를 이용하여 분석 모형을 평가하는 기법이다. 계산량이 많지 않아 모형을 쉽게 평가할 수 있으나 전체 데이터에서 평가 데이터만큼은 학습에 사용할 수 없으므로 데이터 손실이 발생한다. 데이터를 어떻게 나누느냐에 따라 결과가 많이 달라질 수 있다. ..

반응형