반응형

빅데이터분석기사 21

[빅데이터분석기사 필기] 비모수 통계 개념 및 기출문제

비모수 통계란? 비모수 통계는 평균이나 분산 같은 모집단의 분포에 대한 모수성을 가정하지 않고 분석하는 통계적 방법이다. 데이터가 모수적 분석 방법이 가정한 특성을 만족하지 못할 때는 비모수 통계분석 방법을 사용하여야 한다. ⭐비모수 통계 특징 비모수 통계분석에서는 빈도, 부호, 순위 등의 통계량을 사용한다. 순위와 부호에 기초한 방법 위주로 이상값으로 인한 영향이 적다. 데이터가 모수적 분석 방법이 가정한 특성을 만족하지 못할 때는 비모수 통계분석 방법을 사용하여야 한다. ⭐비모수 통계 장단점 장점 모집단의 분포에 대한 가정의 불만족으로 인한 오류의 가능성이 작다. 모수적 방법에 비해 통계량의 계산이 간편하고 직관적으로 이해하기 쉽다. 모집단의 분포에 무관하게 사용할 수 있다. 추출된 샘플의개수가 10..

[빅데이터분석기사 필기] 앙상블 분석 개념 및 기출문제

앙상블 분석 앙상블은 학습 알고리즘들을 따로 쓰는 경우에 비해 더 좋은 예측 성능을 얻기 위해 다수의 학습 알고리즘을 사용하는 기법이다. 앙상블 기법은 다양한 모형의 예측 결과를 결합함으로써 단일 모형으로 분석했을 때보다 높은 신뢰성을 가집니다. 이상값에 대한 대응력이 높아지고, 전체 분산을 감소시켜 정확도를 상승시킨다. 모형의 투명성이 떨어지게 되어 정확한 현상의 원인 분석에는 부적합하다. 주어진 자료로부터 여러 개의 예측 모형을 만든 후 예측 모형들을 조합하여 하나의 최종 예측 모형을 만드는 방법으로 다중 모델 조합, 분류기 조합이 있다. 앙상블 알고리즘은 여러개의 학습 모델을 훈련하고 투표를 통해 최적화된 예측을 수행하고 결정한다. 앙상블 학습절차 앙상블 학습절차는 도출 및 생성, 집합별 모델 학습..

[빅데이터분석기사 필기] 비정형 데이터 분석 개념 및 기출문제

비정형 데이터 비정형 데이터는 스키만 구조 형태를 가지지 않고 고정된 필드에 저장되지 않는 데이터이며 텍스트, 이미지, 오디오, 비디오 등이 있다. 텍스트 : 문자/문자열 형태로 저장 이미지 : RGB 방식으로 저장 오디오 : 시간에 따른 진폭 형태로 저장 비디오 : 이미지 스트리밍으로 저장 비정형 데이터 분석 비정형 데이터 안에서 체계적인 통계적 규칙이나 패턴을 탐색하고 이를 의미 있는 정보로 변환함으로써 기업의 의사결정에 적용하는 분석 기법이다. 대표적인 비정형 데이터 분석 기법으로 텍스트 마이닝, 오피니언 마이닝, 웹 마이닝, 사회 연결망 분석이 있다. ① 텍스트 마이닝 텍스트 마이닝은 텍스트 형태로 이루어진 비정형 데이터들을 자연어 처리 방식을 이용해 정보를 추출하는 기법이다. 텍스트 마이닝의 기..

[빅데이터분석기사 필기] 시계열분석 개념 및 기출문제

이전글 보러가기 2022.09.27 - [빅데이터분석기사] - [빅데이터분석기사] 주성분분석(PCA) 개념 및 기출문제 [빅데이터분석기사] 주성분분석(PCA) 개념 및 기출문제 주성분 분석이란? 상관관계가 있는 고차원 자료를 자료의 변동을 최대한 보존하는 저차원 자료로 변환하는 차원축소 방법이다. 주성분 분석은 서로 상관성이 높은 변수들의 선형 결합으로 만들 ohaengsa.tistory.com 시계열 분석이란? 시계열 분석은 연도별 분기별, 월별 등 시계열로 관측되는 자료를 분석하여 미래를 예측하기 위한 분석 기법이다. ⭐ 시계열 분석의 특징 x축에는 시간, y축에는 관측값을 나타내어 추세를 빠르게 분석한다. 시계열 데이터는 규칙적, 불규칙한 특징을 갖는다. ⭐ 정상성 정상성은 시점에 상관없이 시계열의..

[빅데이터분석기사 필기] 주성분분석(PCA) 개념 및 기출문제

주성분 분석(PCA) 상관관계가 있는 고차원 자료를 자료의 변동을 최대한 보존하는 저차원 자료로 변환하는 차원축소 방법이다. 주성분 분석은 서로 상관성이 높은 변수들의 선형 결합으로 만들어 기존의 상관성이 높은 변수들을 요약 축소하는 기법이다. 분석을 통해 나타나는 주성분으로 변수들 사이의 구조를 쉽게 이해하기는 어렵다. 차원축소는 고윳값이 높은 순으로 정렬해서 높은 고윳값을 가진 고유벡터만으로 데이터를 복원한다. 차원축소 : 많은 변수로 구성된 고차원 자료를 축소하여 새로운 차원의 자료를 생성하는 기법이다. 고윳값 : 고유벡터의 변환되는 스케일 정도를 나타내는 상숫값이다. 고유벡터 : 행렬 변환 결과가 자기 자신의 상수 배가 되는 0이 아닌 벡터이다. 주성분 분석의 특징 누적 기여율이 85% 이상이면 ..

[빅데이터 분석기사 필기] 3과목 빅데이터모델링 요점정리 ②

이전글 보러가기 [빅데이터 분석기사 필기] 3과목 빅데이터모델링 요점정리 ① [빅데이터 분석기사 필기] 3과목 빅데이터모델링 요점정리 ① 이전글 보러가기 [빅데이터분석기사 필기] 2과목 빅데이터탐색 요약정리 이전글 보러가기 [빅데이터분석기사 필기] 1과목 빅데이터분석기획 요약정리 ⭐: 키워드 ⭐⭐:기출문제 유형 ⭐⭐⭐:출 ohaengsa.tistory.com ② 분석 기법 적용 ⭐⭐ 회귀분석 독립변수와 종속변수 간에 선형적인 관계를 도출해서 하나 이상의 독립변수들이 종속변수에 미치는 영향을 분석하고 독립변수를 통해 종속변수를 예측하는 분석 기법이다. 변수들 사이의 인과관계를 밝히고 모형을 적합하여 관심 있는 변수를 예측하거나 추론하기 위한 분석 방법이다. 유형 : 단순선형 회귀, 다중선형회귀, 다항 회귀..

[빅데이터 분석기사 필기] 3과목 빅데이터모델링 요점정리 ①

이전글 보러가기 [빅데이터분석기사 필기] 2과목 빅데이터탐색 요약정리 이전글 보러가기 [빅데이터분석기사 필기] 1과목 빅데이터분석기획 요약정리 ⭐: 키워드 ⭐⭐:기출문제 유형 ⭐⭐⭐:출제 多 ① 빅데이터의 이해 ⭐ DIKW피라미드 Data ➡️ Information ➡️ Knowledge ohaengsa.tistory.com ① 분석모형설계 ⭐ 분석모형선정 분석목적에 부합하고 수집된 데이터의 변수들을 고려하여 적합한 빅데이터 분석 모형을 선정한다. 현상에서 패턴을 발견하는 것은 탐색적 데이터 분석이며 현상에서 인과적인 결론을 도출하는 것은 통계적 추천, 현상을 예측하는 것은 기계학습(머신러닝)이다. 통계, 데이터 마이닝, 머신러닝 기반 분석 모델 기법을 고려하여 적합한 빅데이터 분석 모델을 선정한다. ⭐..

[빅데이터분석기사 필기] 한번에 합격하는 공부법

접수 데이터자격시험 카드결제/계좌이체 환불 환불 요청시 즉시환불 www.dataq.or.kr 이 글을 쓴 시점에서 시험까지 2주라는 시간이 있다. 책을 구매하지 않고 유튜브와 구글로 공부하려 했으나 시간이 없는지라 책을 샀다. 그리고 오래된 시험이 아니기에 자료가 많이 부족하다. 책 교보문고에서 수제비 빅데이터 분석기사 필기 책을 구매했다. 중고라서 12000원에 구매했다. 책 후기는 나중에 할꺼지만 빅데이터분석기사 책은 아직 좋은게 없다고 생각한다. 공부법 현재 1과목과 2과목을 공부하였고 오늘부터 진득하게 3,4과목을 공부하려한다. 1과목은 구글에 돌아다니는 기출문제로 공부하였고 2과목은 유튜브로 공부하였다. https://www.youtube.com/c/EduAtoZPython EduAtoZ - P..

[빅데이터분석기사 필기] 2과목 빅데이터탐색 요약정리

이전 글 보러가기 [빅데이터분석기사 필기] 1과목 빅데이터분석기획 요약정리 ⭐: 키워드 ⭐⭐:기출문제 유형 ⭐⭐⭐:출제 多 ① 빅데이터의 이해 ⭐ DIKW피라미드 Data ➡️ Information ➡️ Knowledge ➡️ Wisdom ⭐⭐ 데이터 바이트크기 [기출] KB(10³Bytes)➡️MB(10⁶) ➡️ GB(1.. ohaengsa.tistory.com ⭐: 키워드 ⭐⭐:기출문제 유형 ⭐⭐⭐:출제 多 ① 데이터전처리 ⭐ 데이터 전처리 데이터 분석을 위한 필수 과정, 분석 결과의 오류를 방지하고 신뢰도를 높일 수 있음 실제 분석 과정의 70~80%를 수집 및 데이터 전처리 과정에 사용 데이터 정제 ➡️ 결측값 처리 ➡️ 이상값 처리 ➡️ 분석변수처리 ⭐⭐ 데이터 정제 결측값을 채우거나 이상값을 ..

[빅데이터분석기사 필기] 1과목 빅데이터분석기획 요약정리

⭐: 키워드 ⭐⭐:기출문제 유형 ⭐⭐⭐:출제 多 ① 빅데이터의 이해 ⭐ DIKW피라미드 Data ➡️ Information ➡️ Knowledge ➡️ Wisdom ⭐⭐ 데이터 바이트크기 [기출] KB(10³Bytes)➡️MB(10⁶) ➡️ GB(10⁹) ➡️ TB(10¹²)➡️ PB(10¹⁵) ➡️ EB(10¹⁸) ➡️ ZB(10²¹) ➡️YB(10²⁴) 2¹⁰ ➡️ 2²⁰ ➡️ 2³⁰ ➡️ 2⁴⁰➡️ 2⁵⁰ ➡️ 2⁶⁰ ➡️ 2⁷⁰ ➡️ 2⁸⁰ (1byte의 아스키 코드를 넣을 수 있는 양) ⭐⭐⭐ 빅데이터특징 [기출] 가트너 3V(Volume, Variety, Velocity) 5V(Value, Veracity) 7V(Validity, Volatility) ⭐⭐ 분석 가치 에스컬레이터 [기출] 가트..

반응형