728x90
반응형

빅데이터분석기사 필기 기출문제 15

빅데이터분석기사 필기 - 분류 모형의 평가지표(혼동 행렬, ROC 곡선, 이익 도표) 개념과 기출문제

빅데이터분석기사 필기 4과목에서 가장 많이 나오는 유형이므로 모든 내용을 이해 후 암기하셔야 합니다. 특히 혼동 행렬은 시험당 3~4문제가 출제됩니다. 평가지표와 공식은 모두 암기해주세요. 또한 ROC 곡선문제도 1~2문제 출제되며 F1 Score와 카파통계량 중 한문제가 출제됩니다.분류 모형의 평가지표분류 모형의 결과를 평가하기 위해서 혼동 행렬을 이용한 평가지표와 ROC곡선의 AUC를 많이 사용한다.모형의 평가지표가 우연히 나온 결과가 아니라는 것을 카파통계량을 통하여 설명할 수 있다. ① 혼동 행렬혼동 행렬은 분석 모델에서 구한 분류의 예측 범주와 데이터의 실제 분류 범주를 교차 표 형태로 정리한 행렬이다.혼동 행렬을 작성함에 따라 모델의 성능을 평가할 수 있는 평가지표가 도출된다.모델의 정확도를 ..

빅데이터분석기사 필기 - 불균형 데이터 처리 방법과 기출문제

불균형 데이터 처리 데이터에서 각 클래스가 갖고 있는 데이터의 양이 차이가 큰 경우 분류 데이터에서 분포가 더 높은 클래스를 더 예측하려고 하기 때문에 정확도는 높아질 수 있지만, 분포가 낮은 클래스의 재현율이 낮아지는 문제가 발생할 수 있음 정확도(Accureacy): 전체예측에서 옳은 예측의 비율 정밀도(Precision):예측 값이 True인 것에 대해 실제 값이 True인 지표 재현율(Recall, Sensitivity): 실제값이 True인 것에 대해 예측값이 True인 지표 불균형 상태 그대로 머신러닝 모델을 통해 예측하게 된다면 과대적합 문제가 발생할 수 있다. 학습 데이터셋에서는 높은 성능으로 보이지만, 테스트 데이터에서는 예측 성능이 더 낮게 나올 가능성이 있음 데이터 클래스 비율의 차이..

[빅데이터분석기사 필기] 서포트 벡터 머신(SVM)의 개념과 기출문제

서포트 벡터 머신 서포트 벡터 머신은 벡터 공간에서 학습 데이터가 속한 2개의 그룹을 분류하는 선형 분리자를 찾는 기하학적 모델이다. 서포트 벡터 머신은 데이터를 분리하는 초평면 중에서 데이터들과 거리가 가장 먼 초평면을 선택하여 분리하는 지도 학습 기반의 이진 선형 분류 모델이다. 최대 마진을 가지는 비확률적 선형 판별 분석에 기초한 이진 분류기이다. 서포트 벡터 머신 특징 SVM은 공간상에서 최적의 분리 초평면을 찾아서 분류 및 회귀를 수행한다, SVM은 변수 속성 간의 의존성은 고려하지 않으며 모든 속성을 활용하는 기법이다. SVM은 훈련 시간이 상대적으로 느리지만, 정확성이 뛰어나며 다른 방법보다 과대 적합의 가능성이 낮은 모델이다. 지도 학습 모델로 회귀 분석 및 분류(이항, 다항 모두 사용) ..

[빅데이터분석기사 필기] 2021년 2회차 기출문제

2021년 제2회 기출문제 2021년 4월 17일에 시행된 빅데이터 분석기사 필기 4회 기출문제입니다. 총 80문항이며 100점을 만점으로 하여 과목당 40점 이상, 전 과목 평균 60점 이상이면 합격입니다. 실제 시험과 100% 일치하지는 않습니다. 정답 버튼을 클릭하시면 정답을 보실 수 있고 에러 사항이 있으면 댓글을 달아 주시면 바로 수정하겠습니다. [1과목 빅데이터 분석 기획] 1. 다음 중 수집 대상 데이터를 추출, 가공하여 데이터 웨어하우스 및 데이터 마트에 저장하는 기술은 무엇인가? ① ETL ② CEP ③ EAI ④ ODS 더보기 ① ETL 2. 딥러닝에 대한 설명으로 옳은 것은? ① 오차 역전파를 사용한다. ② ReLU보다 Sigmoid를 사용한다.. ③ 딥러닝은 각 은닉층의 가중치를 통..

[빅데이터분석기사 필기] 하둡 에코시스템의 다양한 기술과 기출문제

하둡 에코시스템(Hadoop Ecosystem) 하둡 프레임워크를 이루고 있는 다양한 서브 프로젝트들의 모임이다. 하둡 에코시스템은 수집, 저장, 처리 기술과 분석, 실시간 SQL 질의 기술로 구분할 수 있다. 하둡(Hadoop) 아파치 하둡은 대량의 자료를 처리할 수 있는 큰 컴퓨터 클러스터에서 동작하는 분산 응용 프로그램을 지원하는 프리웨어 자바 소프트웨어입니다. 분산처리 시스템인 구글파일시스템(GFS)을 대체할 수 있는 하둡 분산 파일 시스템(HDFS: Hadoop Distributed File System)과 맵리듀스를 구현한 것입니다. 비정형 데이터 수집 기술 Chukwa(척와) 분산 시스템으로부터 데이터를 수집, 하둡 파일 시스템에 저장, 실시간 분석 기능을 제공한다. 에이전트와 컬렉터로 구성..

[빅데이터분석기사 필기] 데이터 저장기술 종류와 기출문제

데이터 저장기술 ① 데이터 웨어하우스 사용자의 의사결정에 도움을 주기 위하여 기간 시스템의 데이터베이스에 축적된 데이터를 공통 형식으로 변환해서 관리하는 데이터베이스 주제 지향적, 통합적, 시계열적, 비휘발적 ② 데이터마트 전사적으로 구축된 데이터 속의 특정 주제, 부서 중심으로 구축된 소규모 단위 주제의 데이터 웨어하우스 ③ 데이터 레이크 정형, 반정형, 비정형 데이터를 비롯한 모든 가공되지 않은 다양한 종류의데이터를 저장할 수 있는 시스템 또는 중앙 집중식 데이터 저장소 빅데이터 저장기술 - 분산파일시스템 분산된 서버에 파일을 저장하고 저장된 데이터를 빠르게 처리할 수 있게 만든 시스템 데이터베이스를 분산 저장한다. x86서버의 CPU,RAM등을 사용하므로 장비 증가에 따른 성능향상에 용이하다. 네트..

빅데이터분석기사 필기 - 데이터 시각화 종류와 기출문제

데이터 시각화 데이터에 대한 이해를 돕기 위해 그림, 도형 등 그래픽 요소들을 이용해 데이터를 묘사하고 표현하는 과정이다. 선, 막대, 원 등의 기하나 도형과 같은 양식을 이용해 데이터의 특징을 설명할 수 있는 모양으로 만들어 내거나, 색상, 레이블 등 특성을 활용하여 데이터를 표현한다. 정보 전달, 설득의 목적으로 사용한다. 데이터 시각화 유형 ① 시간 시각화 시간 시각화는 시간에 따른 데이터의 변화를 표현한 시각화 방법이다. 시계열 데이터에서 주요 관심 요소는 경향성으로 추세선과 산점도의 경우 시간의 흐름에 따른 추세를 알아볼 수 있다. 시간 시각화는 시간의 흐름에 따라 변하는 데이터를 표현하기 때문에 개별적인 데이터를 보기보다는 전체적인 흐름을 파악해야 한다. 시간 시각화의 유형으로 막대그래프, 누..

[빅데이터분석기사 필기] 매개변수 최적화 개념 및 기출문제

매개변수 매개변수는 주어진 데이터로부터 학습을 통해 모델 내부에서 결정되는 변수이다. 매개변수 최적화 학습 모델과 실제 레이블 차이는 손실 함수로 표현되며, 학습의 목적은 오차, 손실 함수의 값을 최대한 작게 하도록 하는 매개변수(가중치, 편향)를 찾는 것이다. 매개변수의 최적값을 찾는 문제이며, 이러한 문제를 푸는 것을 최적화라 한다. 가중치 : 각 입력값에 각기 다르게 곱해지는 수치 편향 : 하나의 뉴런에 입력된 모든 값을 다 더한 값에 더해주는 상수 매개변수 종류 가중치 : 각 입력값에 각기 다르게 곱해지는 수치 편향 : 하나의 뉴런에 입력된 모든 값을 다 더한 값에 더해주는 상수 매개변수 최적화 기법 ① 확률적 경사 하강법(SGD) 확률적 경사 하강법이란 손실 함수의 기울기를 구하여, 그 기울기를..

[빅데이터분석기사 필기] 과대 적합 개념 및 기출문제

과대 적합 과대 적합은 제합된 훈련 데이터 세트가 지나치게 특화되어 새로운 데이터에 대한 오차가 매우 커지는 현상이다. 모델의 개개변수 수가 많거나 훈련 데이터 세트의 양이 부족한 경우에 발생한다. 훈련 데이터는 실제 데이터의 부분 집합이라서 실제 데이터의 모든 특성을 가지고 있지 않을 수 있다. 과대 적합의 발생 원인은 실제 데이터에서 편향된 부분만을 가지고 있거나 오류가 포함된 값을 가지고 있을 경우 발생할 수 있다. 과대 적합 방지하기 과대 적합을 방지하기 위해 데이터 세트 증강, 모델 복잡도 감소, 가중치 규제, 드롭아웃 방법을 적용한다. ① 데이터 증강 모델은 훈련데이터 세트의 양이 적을 경우, 해당 데이터의 특정 패턴이나 노이즈까지 분석되어 과대 적합 현상이 발생할 확률이 높으므로 충분한 데이..

[빅데이터분석기사 필기] 교차검증 개념 및 기출문제

교차 검증 교차 검증은 모델의 일반화 오차에 대해 신뢰할 만한 추정치를 구하기 위해 훈련, 평가 데이터를 기반으로 하는 검증 기법이다. 빅데이터 분석 모형을 검증하기 위한 교차 검증으로는 홀드 아웃 교차 검증, K-Fold Cross Validation, LOOCV, LpOCV 등이 있다. ① 홀드 아웃 교차 검증 전체 데이터를 비복원추출 방법을 이용하여 랜덤하게 훈련 데이터, 평가 데이터로 나눠 검증하는 기법이다. 훈련 데이터로 분석 모형을 구축하고, 평가 데이터를 이용하여 분석 모형을 평가하는 기법이다. 계산량이 많지 않아 모형을 쉽게 평가할 수 있으나 전체 데이터에서 평가 데이터만큼은 학습에 사용할 수 없으므로 데이터 손실이 발생한다. 데이터를 어떻게 나누느냐에 따라 결과가 많이 달라질 수 있다. ..

728x90
반응형