728x90
반응형

자격증 79

[빅데이터분석기사 필기] 변수 변환 방법과 기출문제

변수 변환 변수 변환이란 분석을 위해 불필요한 변수를 제거하고, 변수를 반환하며, 새로운 변수를 생성시키는 작업이다. 변수들이 선형관계가 아닌 로그, 제곱, 지수 등의 모습을 보일 때 변수 변환을 통해 선형관계로 만들면 분석하기 쉽다. 변수 변환 방법 ① 스케일링 Min-Max Normalization : 데이터를 특정 구간으로 바꾸는 방법 Z-Score Standardization : 데이터 평균 0 표준편차 1의 표준정규분포로 변경하는 방법 z = (x – μ) / σ (μ=평균, σ=표준편차) Robust Scaler: 중앙값과 IQR 사용, 이상값 영향 최소화 Max Absolute Scaler: 최대 절대값이 1,0은 0이 되도록 스케일링 ② 단순 함수 변환 한쪽으로 치우쳐진 분포를 분석 모형에..

[빅데이터분석기사 필기] 서포트 벡터 머신(SVM)의 개념과 기출문제

서포트 벡터 머신 서포트 벡터 머신은 벡터 공간에서 학습 데이터가 속한 2개의 그룹을 분류하는 선형 분리자를 찾는 기하학적 모델이다. 서포트 벡터 머신은 데이터를 분리하는 초평면 중에서 데이터들과 거리가 가장 먼 초평면을 선택하여 분리하는 지도 학습 기반의 이진 선형 분류 모델이다. 최대 마진을 가지는 비확률적 선형 판별 분석에 기초한 이진 분류기이다. 서포트 벡터 머신 특징 SVM은 공간상에서 최적의 분리 초평면을 찾아서 분류 및 회귀를 수행한다, SVM은 변수 속성 간의 의존성은 고려하지 않으며 모든 속성을 활용하는 기법이다. SVM은 훈련 시간이 상대적으로 느리지만, 정확성이 뛰어나며 다른 방법보다 과대 적합의 가능성이 낮은 모델이다. 지도 학습 모델로 회귀 분석 및 분류(이항, 다항 모두 사용) ..

[빅데이터분석기사 필기] 2021년 2회차 기출문제

2021년 제2회 기출문제 2021년 4월 17일에 시행된 빅데이터 분석기사 필기 4회 기출문제입니다. 총 80문항이며 100점을 만점으로 하여 과목당 40점 이상, 전 과목 평균 60점 이상이면 합격입니다. 실제 시험과 100% 일치하지는 않습니다. 정답 버튼을 클릭하시면 정답을 보실 수 있고 에러 사항이 있으면 댓글을 달아 주시면 바로 수정하겠습니다. [1과목 빅데이터 분석 기획] 1. 다음 중 수집 대상 데이터를 추출, 가공하여 데이터 웨어하우스 및 데이터 마트에 저장하는 기술은 무엇인가? ① ETL ② CEP ③ EAI ④ ODS 더보기 ① ETL 2. 딥러닝에 대한 설명으로 옳은 것은? ① 오차 역전파를 사용한다. ② ReLU보다 Sigmoid를 사용한다.. ③ 딥러닝은 각 은닉층의 가중치를 통..

[빅데이터분석기사 필기] 하둡 에코시스템의 다양한 기술과 기출문제

하둡 에코시스템(Hadoop Ecosystem) 하둡 프레임워크를 이루고 있는 다양한 서브 프로젝트들의 모임이다. 하둡 에코시스템은 수집, 저장, 처리 기술과 분석, 실시간 SQL 질의 기술로 구분할 수 있다. 하둡(Hadoop) 아파치 하둡은 대량의 자료를 처리할 수 있는 큰 컴퓨터 클러스터에서 동작하는 분산 응용 프로그램을 지원하는 프리웨어 자바 소프트웨어입니다. 분산처리 시스템인 구글파일시스템(GFS)을 대체할 수 있는 하둡 분산 파일 시스템(HDFS: Hadoop Distributed File System)과 맵리듀스를 구현한 것입니다. 비정형 데이터 수집 기술 Chukwa(척와) 분산 시스템으로부터 데이터를 수집, 하둡 파일 시스템에 저장, 실시간 분석 기능을 제공한다. 에이전트와 컬렉터로 구성..

[빅데이터분석기사 필기] 데이터 저장기술 종류와 기출문제

데이터 저장기술 ① 데이터 웨어하우스 사용자의 의사결정에 도움을 주기 위하여 기간 시스템의 데이터베이스에 축적된 데이터를 공통 형식으로 변환해서 관리하는 데이터베이스 주제 지향적, 통합적, 시계열적, 비휘발적 ② 데이터마트 전사적으로 구축된 데이터 속의 특정 주제, 부서 중심으로 구축된 소규모 단위 주제의 데이터 웨어하우스 ③ 데이터 레이크 정형, 반정형, 비정형 데이터를 비롯한 모든 가공되지 않은 다양한 종류의데이터를 저장할 수 있는 시스템 또는 중앙 집중식 데이터 저장소 빅데이터 저장기술 - 분산파일시스템 분산된 서버에 파일을 저장하고 저장된 데이터를 빠르게 처리할 수 있게 만든 시스템 데이터베이스를 분산 저장한다. x86서버의 CPU,RAM등을 사용하므로 장비 증가에 따른 성능향상에 용이하다. 네트..

[빅데이터분석기사 필기] 데이터 수집 개념 및 기출문제

데이터 수집 수집 데이터 대상은 데이터의 위치에 따라 내부 데이터와 외부 데이터로 구분한다. 데이터 수집 방식 및 기술 수집 대상 데이터는 데이터의 구조적 관점에 따라 정형 데이터, 비정형 데이터, 반정형 데이터로 나눌 수 있다. 구조적 관점에 따라 분류된 데이터 유형에 따라 각각 데이터 수집 방식과 기술을 최적화하여 적용해야한다. ① ETL ETL은 데이터 분석을 위한 데이터를 데이터 저장소인 DW 및 DM으로 이동시키기 위해 다양한 소스 시스템으로부터 필요한 원본 데이터를 추출하고 변환하여 적재하는 작업 및 기술이다. 추출 ➡️ 변환 ➡️ 적재 ② FTP FTP는 TCM/IP 프로토콜을 기반으로 서버, 클라이언트 사이에서 파일 송수신을 하기 위한 프로토콜이다, Atctive FTP : 클라이언트가 데..

빅데이터분석기사 필기 - 데이터 시각화 종류와 기출문제

데이터 시각화 데이터에 대한 이해를 돕기 위해 그림, 도형 등 그래픽 요소들을 이용해 데이터를 묘사하고 표현하는 과정이다. 선, 막대, 원 등의 기하나 도형과 같은 양식을 이용해 데이터의 특징을 설명할 수 있는 모양으로 만들어 내거나, 색상, 레이블 등 특성을 활용하여 데이터를 표현한다. 정보 전달, 설득의 목적으로 사용한다. 데이터 시각화 유형 ① 시간 시각화 시간 시각화는 시간에 따른 데이터의 변화를 표현한 시각화 방법이다. 시계열 데이터에서 주요 관심 요소는 경향성으로 추세선과 산점도의 경우 시간의 흐름에 따른 추세를 알아볼 수 있다. 시간 시각화는 시간의 흐름에 따라 변하는 데이터를 표현하기 때문에 개별적인 데이터를 보기보다는 전체적인 흐름을 파악해야 한다. 시간 시각화의 유형으로 막대그래프, 누..

[빅데이터분석기사 필기] 매개변수 최적화 개념 및 기출문제

매개변수 매개변수는 주어진 데이터로부터 학습을 통해 모델 내부에서 결정되는 변수이다. 매개변수 최적화 학습 모델과 실제 레이블 차이는 손실 함수로 표현되며, 학습의 목적은 오차, 손실 함수의 값을 최대한 작게 하도록 하는 매개변수(가중치, 편향)를 찾는 것이다. 매개변수의 최적값을 찾는 문제이며, 이러한 문제를 푸는 것을 최적화라 한다. 가중치 : 각 입력값에 각기 다르게 곱해지는 수치 편향 : 하나의 뉴런에 입력된 모든 값을 다 더한 값에 더해주는 상수 매개변수 종류 가중치 : 각 입력값에 각기 다르게 곱해지는 수치 편향 : 하나의 뉴런에 입력된 모든 값을 다 더한 값에 더해주는 상수 매개변수 최적화 기법 ① 확률적 경사 하강법(SGD) 확률적 경사 하강법이란 손실 함수의 기울기를 구하여, 그 기울기를..

[빅데이터분석기사 필기] 과대 적합 개념 및 기출문제

과대 적합 과대 적합은 제합된 훈련 데이터 세트가 지나치게 특화되어 새로운 데이터에 대한 오차가 매우 커지는 현상이다. 모델의 개개변수 수가 많거나 훈련 데이터 세트의 양이 부족한 경우에 발생한다. 훈련 데이터는 실제 데이터의 부분 집합이라서 실제 데이터의 모든 특성을 가지고 있지 않을 수 있다. 과대 적합의 발생 원인은 실제 데이터에서 편향된 부분만을 가지고 있거나 오류가 포함된 값을 가지고 있을 경우 발생할 수 있다. 과대 적합 방지하기 과대 적합을 방지하기 위해 데이터 세트 증강, 모델 복잡도 감소, 가중치 규제, 드롭아웃 방법을 적용한다. ① 데이터 증강 모델은 훈련데이터 세트의 양이 적을 경우, 해당 데이터의 특정 패턴이나 노이즈까지 분석되어 과대 적합 현상이 발생할 확률이 높으므로 충분한 데이..

[빅데이터분석기사 필기] 회귀 모형의 평가지표 개념 및 기출문제

Tip 최신 기출문제를 보면 회귀모형 분류 공식이 자주 출제되므로 공식을 꼭 암기해야 합니다. 평가지표 빅데이터 분석 모형은 분류 모형과 회귀 모형에 따라 다른 평가지표를 이용하여 평가한다. ⭐ 분석 모형 설정 이상적인 모형에서는 낮은 편향과 낮은 분산으로 설정되어야 한다. 편향 : 학습 알고리즘에서 잘못된 가정을 했을 때 발생하는 오차 분산 : 훈련 데이터에 내재된 작은 변동으로 발생하는 오차 ⭐ 분석 모형 평가 기준 구축한 빅데이터의 분석 모형의 유용성을 판단하고 서로 다른 모형들을 비교하여 평가하는 과정은 중요하다. 구죽한 분석 모형이 실무에서 사용이 가능할 수 있을지를 판단하기 위해서는 객관적인 평가지표를 통한 평가가 필요하다. 빅데이터 분석 모형은 만든 것으로 끝이 아니라 기존 운영 시스템과의 ..

728x90
반응형