반응형

자격증/빅데이터분석기사 27

빅데이터분석기사 필기 - 분류 모형의 평가지표(혼동 행렬, ROC 곡선, 이익 도표) 개념과 기출문제

빅데이터분석기사 필기 4과목에서 가장 많이 나오는 유형이므로 모든 내용을 이해 후 암기하셔야 합니다. 특히 혼동 행렬은 시험당 3~4문제가 출제됩니다. 평가지표와 공식은 모두 암기해주세요. 또한 ROC 곡선문제도 1~2문제 출제되며 F1 Score와 카파통계량 중 한문제가 출제됩니다. 분류 모형의 평가지표 분류 모형의 결과를 평가하기 위해서 혼동 행렬을 이용한 평가지표와 ROC곡선의 AUC를 많이 사용한다. 모형의 평가지표가 우연히 나온 결과가 아니라는 것을 카파통계량을 통하여 설명할 수 있다. ① 혼동 행렬 혼동 행렬은 분석 모델에서 구한 분류의 예측 범주와 데이터의 실제 분류 범주를 교차 표 형태로 정리한 행렬이다. 혼동 행렬을 작성함에 따라 모델의 성능을 평가할 수 있는 평가지표가 도출된다. 모델의..

빅데이터분석기사 필기 - 불균형 데이터 처리 방법과 기출문제

불균형 데이터 처리 데이터에서 각 클래스가 갖고 있는 데이터의 양이 차이가 큰 경우 분류 데이터에서 분포가 더 높은 클래스를 더 예측하려고 하기 때문에 정확도는 높아질 수 있지만, 분포가 낮은 클래스의 재현율이 낮아지는 문제가 발생할 수 있음 정확도(Accureacy): 전체예측에서 옳은 예측의 비율 정밀도(Precision):예측 값이 True인 것에 대해 실제 값이 True인 지표 재현율(Recall, Sensitivity): 실제값이 True인 것에 대해 예측값이 True인 지표 불균형 상태 그대로 머신러닝 모델을 통해 예측하게 된다면 과대적합 문제가 발생할 수 있다. 학습 데이터셋에서는 높은 성능으로 보이지만, 테스트 데이터에서는 예측 성능이 더 낮게 나올 가능성이 있음 데이터 클래스 비율의 차이..

[빅데이터분석기사 필기] 변수 변환 방법과 기출문제

변수 변환 변수 변환이란 분석을 위해 불필요한 변수를 제거하고, 변수를 반환하며, 새로운 변수를 생성시키는 작업이다. 변수들이 선형관계가 아닌 로그, 제곱, 지수 등의 모습을 보일 때 변수 변환을 통해 선형관계로 만들면 분석하기 쉽다. 변수 변환 방법 ① 스케일링 Min-Max Normalization : 데이터를 특정 구간으로 바꾸는 방법 Z-Score Standardization : 데이터 평균 0 표준편차 1의 표준정규분포로 변경하는 방법 z = (x – μ) / σ (μ=평균, σ=표준편차) Robust Scaler: 중앙값과 IQR 사용, 이상값 영향 최소화 Max Absolute Scaler: 최대 절대값이 1,0은 0이 되도록 스케일링 ② 단순 함수 변환 한쪽으로 치우쳐진 분포를 분석 모형에..

[빅데이터분석기사 필기] 서포트 벡터 머신(SVM)의 개념과 기출문제

서포트 벡터 머신 서포트 벡터 머신은 벡터 공간에서 학습 데이터가 속한 2개의 그룹을 분류하는 선형 분리자를 찾는 기하학적 모델이다. 서포트 벡터 머신은 데이터를 분리하는 초평면 중에서 데이터들과 거리가 가장 먼 초평면을 선택하여 분리하는 지도 학습 기반의 이진 선형 분류 모델이다. 최대 마진을 가지는 비확률적 선형 판별 분석에 기초한 이진 분류기이다. 서포트 벡터 머신 특징 SVM은 공간상에서 최적의 분리 초평면을 찾아서 분류 및 회귀를 수행한다, SVM은 변수 속성 간의 의존성은 고려하지 않으며 모든 속성을 활용하는 기법이다. SVM은 훈련 시간이 상대적으로 느리지만, 정확성이 뛰어나며 다른 방법보다 과대 적합의 가능성이 낮은 모델이다. 지도 학습 모델로 회귀 분석 및 분류(이항, 다항 모두 사용) ..

[빅데이터분석기사 필기] 2021년 2회차 기출문제

2021년 제2회 기출문제 2021년 4월 17일에 시행된 빅데이터 분석기사 필기 4회 기출문제입니다. 총 80문항이며 100점을 만점으로 하여 과목당 40점 이상, 전 과목 평균 60점 이상이면 합격입니다. 실제 시험과 100% 일치하지는 않습니다. 정답 버튼을 클릭하시면 정답을 보실 수 있고 에러 사항이 있으면 댓글을 달아 주시면 바로 수정하겠습니다. [1과목 빅데이터 분석 기획] 1. 다음 중 수집 대상 데이터를 추출, 가공하여 데이터 웨어하우스 및 데이터 마트에 저장하는 기술은 무엇인가? ① ETL ② CEP ③ EAI ④ ODS 더보기 ① ETL 2. 딥러닝에 대한 설명으로 옳은 것은? ① 오차 역전파를 사용한다. ② ReLU보다 Sigmoid를 사용한다.. ③ 딥러닝은 각 은닉층의 가중치를 통..

[빅데이터분석기사 필기] 하둡 에코시스템의 다양한 기술과 기출문제

하둡 에코시스템(Hadoop Ecosystem) 하둡 프레임워크를 이루고 있는 다양한 서브 프로젝트들의 모임이다. 하둡 에코시스템은 수집, 저장, 처리 기술과 분석, 실시간 SQL 질의 기술로 구분할 수 있다. 하둡(Hadoop) 아파치 하둡은 대량의 자료를 처리할 수 있는 큰 컴퓨터 클러스터에서 동작하는 분산 응용 프로그램을 지원하는 프리웨어 자바 소프트웨어입니다. 분산처리 시스템인 구글파일시스템(GFS)을 대체할 수 있는 하둡 분산 파일 시스템(HDFS: Hadoop Distributed File System)과 맵리듀스를 구현한 것입니다. 비정형 데이터 수집 기술 Chukwa(척와) 분산 시스템으로부터 데이터를 수집, 하둡 파일 시스템에 저장, 실시간 분석 기능을 제공한다. 에이전트와 컬렉터로 구성..

[빅데이터분석기사 필기] 데이터 저장기술 종류와 기출문제

데이터 저장기술 ① 데이터 웨어하우스 사용자의 의사결정에 도움을 주기 위하여 기간 시스템의 데이터베이스에 축적된 데이터를 공통 형식으로 변환해서 관리하는 데이터베이스 주제 지향적, 통합적, 시계열적, 비휘발적 ② 데이터마트 전사적으로 구축된 데이터 속의 특정 주제, 부서 중심으로 구축된 소규모 단위 주제의 데이터 웨어하우스 ③ 데이터 레이크 정형, 반정형, 비정형 데이터를 비롯한 모든 가공되지 않은 다양한 종류의데이터를 저장할 수 있는 시스템 또는 중앙 집중식 데이터 저장소 빅데이터 저장기술 - 분산파일시스템 분산된 서버에 파일을 저장하고 저장된 데이터를 빠르게 처리할 수 있게 만든 시스템 데이터베이스를 분산 저장한다. x86서버의 CPU,RAM등을 사용하므로 장비 증가에 따른 성능향상에 용이하다. 네트..

[빅데이터분석기사 필기] 데이터 수집 개념 및 기출문제

데이터 수집 수집 데이터 대상은 데이터의 위치에 따라 내부 데이터와 외부 데이터로 구분한다. 데이터 수집 방식 및 기술 수집 대상 데이터는 데이터의 구조적 관점에 따라 정형 데이터, 비정형 데이터, 반정형 데이터로 나눌 수 있다. 구조적 관점에 따라 분류된 데이터 유형에 따라 각각 데이터 수집 방식과 기술을 최적화하여 적용해야한다. ① ETL ETL은 데이터 분석을 위한 데이터를 데이터 저장소인 DW 및 DM으로 이동시키기 위해 다양한 소스 시스템으로부터 필요한 원본 데이터를 추출하고 변환하여 적재하는 작업 및 기술이다. 추출 ➡️ 변환 ➡️ 적재 ② FTP FTP는 TCM/IP 프로토콜을 기반으로 서버, 클라이언트 사이에서 파일 송수신을 하기 위한 프로토콜이다, Atctive FTP : 클라이언트가 데..

빅데이터분석기사 필기 - 데이터 시각화 종류와 기출문제

데이터 시각화 데이터에 대한 이해를 돕기 위해 그림, 도형 등 그래픽 요소들을 이용해 데이터를 묘사하고 표현하는 과정이다. 선, 막대, 원 등의 기하나 도형과 같은 양식을 이용해 데이터의 특징을 설명할 수 있는 모양으로 만들어 내거나, 색상, 레이블 등 특성을 활용하여 데이터를 표현한다. 정보 전달, 설득의 목적으로 사용한다. 데이터 시각화 유형 ① 시간 시각화 시간 시각화는 시간에 따른 데이터의 변화를 표현한 시각화 방법이다. 시계열 데이터에서 주요 관심 요소는 경향성으로 추세선과 산점도의 경우 시간의 흐름에 따른 추세를 알아볼 수 있다. 시간 시각화는 시간의 흐름에 따라 변하는 데이터를 표현하기 때문에 개별적인 데이터를 보기보다는 전체적인 흐름을 파악해야 한다. 시간 시각화의 유형으로 막대그래프, 누..

[빅데이터분석기사 필기] 매개변수 최적화 개념 및 기출문제

매개변수 매개변수는 주어진 데이터로부터 학습을 통해 모델 내부에서 결정되는 변수이다. 매개변수 최적화 학습 모델과 실제 레이블 차이는 손실 함수로 표현되며, 학습의 목적은 오차, 손실 함수의 값을 최대한 작게 하도록 하는 매개변수(가중치, 편향)를 찾는 것이다. 매개변수의 최적값을 찾는 문제이며, 이러한 문제를 푸는 것을 최적화라 한다. 가중치 : 각 입력값에 각기 다르게 곱해지는 수치 편향 : 하나의 뉴런에 입력된 모든 값을 다 더한 값에 더해주는 상수 매개변수 종류 가중치 : 각 입력값에 각기 다르게 곱해지는 수치 편향 : 하나의 뉴런에 입력된 모든 값을 다 더한 값에 더해주는 상수 매개변수 최적화 기법 ① 확률적 경사 하강법(SGD) 확률적 경사 하강법이란 손실 함수의 기울기를 구하여, 그 기울기를..

반응형