자격증/빅데이터분석기사

[빅데이터분석기사 필기] 1과목 빅데이터분석기획 요약정리

j9m 2022. 9. 14. 19:19

728x90

⭐: 키워드 ⭐⭐:기출문제 유형 ⭐⭐⭐:출제 多

① 빅데이터의 이해

⭐ DIKW피라미드

Data ➡️ Information ➡️ Knowledge ➡️ Wisdom

⭐⭐ 데이터 바이트크기 [기출]

KB(10³Bytes)➡️MB(10⁶) ➡️ GB(10⁹) ➡️ TB(10¹²)➡️ PB(10¹⁵) ➡️ EB(10¹⁸) ➡️ ZB(10²¹) ➡️YB(10²⁴)
2¹⁰ ➡️ 2²⁰ ➡️ 2³⁰ ➡️ 2⁴⁰➡️ 2⁵⁰ ➡️ 2⁶⁰ ➡️ 2⁷⁰ ➡️ 2⁸⁰ (1byte의 아스키 코드를 넣을 수 있는 양)

⭐⭐⭐ 빅데이터특징 [기출]

가트너 3V(Volume, Variety, Velocity)
5V(Value, Veracity)
7V(Validity, Volatility)

⭐⭐ 분석 가치 에스컬레이터 [기출]

가트너가 빅데이터의 가치를 묘사분석, 진단분석, 예측분석, 처방분석의 4단계로 정의한 기법이다.
분석가치 에스컬레이터에서는 높은 난도를 수반하는 데이터분석은 더 많은 가치를 창출한다.
묘사분석 : 분석의 가장 기본적인 지표 (과거에 어떤일이 일어났고, 현재는 무슨 일이 일어나고 있는지 확인)
진단분석 : 묘사 단계에서 찾아낸 분석의 원인을 이해하는 과정(데이터를 기반으로 왜 발생했는지 이유를 확인)
예측분석 : 데이터를 통해 기업 혹은 조직의 미래, 고객의 행동 등을 예측하는 과정(무슨일이 일어날 것인지를 예측)
처방분석 : 예측을 바탕으로 최적화하는 과정(무엇을 해야 할 것인지를 확인)

⭐⭐ 클라우드 컴퓨터

클라우드 컴퓨팅은 인터넷으로 가상화된 IT 리소스를 서비스로 제공하는 것
Iaas : 서버, 저장장치, 네트워크 등의 인프라 제공
Paas : 응용프로그램 등 소프트웨어의 개발, 배포, 운영, 관리 등을 위한 환경 제공 (Platform as a Service)
Saas : 응용프로그램 등 소프트웨어 제공

⭐⭐ 데이터 거버넌스 [기출]

데이터 거버넌스는 기업에서 사용하는 데이터의 가용성, 유용성, 통합성, 보안성을 관리하기 위한 정책과 프로세스를 다루며 프라이버시, 보안성, 데이터 품질, 관리규정준수를 강조하는 모델
구성요소 : 원칙, 조직, 프로세스
체계 : 데이터 표준화, 데이터 관리 체계, 데이터 저장소 관리, 표준화 활동

⭐ IT 거버넌스

IT자원과정보를 통해 조직의 경영목표를 충족시킬 수 있는 계획을 개발하고 통제하는 프로세스

⭐⭐ 조직평가를 위한 성숙도 단계 [기출]

기업의 분석수준은 성숙도 수준에 따라 달라진다.
도입단계 : 분석을 시작해 환경과 시스템을 구축
활용 단계 : 분석 결과를 실제 업무에 적용
확산 단계 : 전사 차원에서 분석을 관리하고 공유
최적화 단계 : 분석을 진화시켜서 혁신 및 성과 향상에 기여
도입단계 ➡️ 활용 단계 ➡️ 확산 단계 ➡️ 최적화 단계

⭐⭐ 분산데이터 처리 - MapReduce(맵리듀스) [기출]

구글검색을 위해 개발된 분산환경 병렬 데이터 처리 기법
비공유 구조의 여러노드PC로 대량의 병렬처리 가능
모든 데이터는 KEY-VALUE의 쌍으로 존재
Map : GFS에서 전달된 청크단위의 데이터를 (Key,Value)형태의 파일들로 데이터 기록
Shuffle : 데이터를 통합하여 처리
Reduce : Map과정에서 분할 및 정리된(key,value)데이터를 그룹화, 집계 후 GFS에 새로운 (key,value)로 저장
Map ➡️ Shuffle ➡️ Reduce

⭐분산데이터베이스 - HBase

HDFS의 칼럼 기반 데이터베이스
구글의 BigTable 논문을 기반으로 개발된 것으로, 실시간 랜덤 조회 및 업데이트가 가능하며, 각각의 프로세스들은 개인의 데이터를 비동기적으로 업데이트 할 수 있다. 단, MapReduce는 일괄처리 방식으로 수행된다.

⭐⭐ 인메모리 처리 - Spark [기출]

대용량 데이터를 빠르게 처리하기 위한 인-메모리 기반의 분산 데이터 처리 엔진
오프소스 프로젝트로 데이터브릭스에서 주로 개발
대량의 데이터를 메모리에 유지하는 설계로 계산 성능 대폭 강화
일괄 처리, 실시간 처리(스트리밍), 정형데이터 SQL처리, 그래프 알고리즘, 머신러닝 등 다양한 요구사항 통합
필요한 데이터를 메모리에 캐시로 저장하는 인-메모리 실행 방식 채택
온라인 트랜잭션 처리(OLTP)보다 온라인 분석 처리(OLAP)에 더 적합
소규모 데이터는 일반 DBMS가 유리
특징 : 불변성, 복원성, 분산성

⭐⭐ 데이터 가공 - Pig(피그)

복잡한 MapReduce 프로그래밍을 대체할 Pig Latin이라는 자체 언어를 제공.
MapReduce API를 매우 단순화시키고 SQL과 유사한 형태로 설계되었다.

⭐⭐ 데이터 가공 - HIVE(하이브) [기출]

하둡 기반의 데이터웨어하우징용 솔루션
페이스북에서 만든 오픈소스로, SQL과 매우 유사한 HiveQL이라는 쿼리를 제공한다. 그래서 자바를 잘 모르는 데이터 분석가들도 쉽게 하둡 데이터를 분석할 수 있게 도와준다.
HiveQL은 내부적으로 MapReduce 잡으로 변환되어 실행된다.

⭐데이터 마이닝 - Mahout(머하웃)

하둡 기반으로 데이터 마이닝 알고리즘을 구현한 오프 소스
분류, 클러스터링, 추천 및 협업 필터링, 패턴 마이닝, 회귀 분석, 진화 알고리즘 등 주요 알고리즘 지원

⭐실시간 SQL 질의 - Impala(임팔라)

하둡 기반의 실시간 SQL 질의 시스템
데이터 조회를 위한 인터페이스로 HiveQL을 사용
수초 내에 SQL질의 결과를 확인할 수 있으며, HBASE와 연동이 가능

⭐⭐ 워크플로우 관리 - Oozie(우지) [기출]

하둡 작업을 관리하는 워크플로우 및 코디네이터 시스템
자바 서블릿 컨테이너에서 실행되는 자바 웹 애플리케이션 서버
맵리듀스나 피그와 같은 특화된 액션들로 구성된 워크플로우 제어

⭐분산 코디네이션 - Zookeeper(주키퍼)

분산환경에서 서버들 간에 상호 조정이 필요한 다양한 서비스를 제공
하나의 서버에만 서비스가 집중되지 않도록 서비스를 알맞게 분산하여 동시에 처리
하나의 서버에서 처리한 결과를 다른 서버들과도 동기화하여 데이터의 안정성을 보장

⭐ 인공지능 [기출]

인공지능이란 인간의 지적능력을 인공적으로 구현하여 컴퓨터가 인간의 지능적인 행동과 사고를 모방할 수 있도록 하는 소프트웨어이다.
강인공지능은 약인공지능의 제한된 기능을 뛰어넘어 더 발달된 인공지능이다.
강인공지능은 범용으로 사용되기는 시기 상조이다.
강인공지능이라고 불릴만한 수준의 인공지능은 지금도 개발되지 않았다.

⭐⭐⭐ 딥러닝 [기출]

인간의 뇌와 흡사하게 구현한 신경망 알고리즘을 적용하여 보다 빠르고 효율적으로 학습하는 인공지능
Sigmoid는 기울기 소실 문제로 인해 ReLU, tanh와 같은 활성화 함수를 많이 사용한다.
오차 역전파를 사용한다.
딥러닝은 은닉층을 사용항 결과에 대한 해석이 어렵다
Dropout은 무작위로 신경망을 제거한다.
과적합, 기울기소실, 성능의 문제가 있다.
지도학습 : 정답인 레이블(Label)이 포함되어 있는 훈련 데이터를 통해 학습시키는 방법
비지도 학습 : 입력데이터에 대한 정답인 레이블(Label)이 없는 상태에서 훈련데이터를 통해 학습시키는 방법
준지도 학습 : 정답인 레이블(Label)이 포함되어 있는 훈련 데이터와 레이블이 없는 훈련 데이터를 모두 훈련에 사용하는 학습 방법
강화 학습 : 어떤 환경 안에서 정의된 에이전트가 현재의 상태를 인식하여, 선택 가능한 행동들 중 보상을 최대화하는 행동 혹은 행동 순서를 선택하는 방법

⭐⭐⭐개인정보 수집시 동의를 얻지 않아도 되는 경우 [기출]

사전동의를 받을 수 없는 경우로서 명백히 정보 주체 또는 제3자의 급박한 생명, 신체, 재산의 이익을 위하여 필요하다고 인정되는 경우
정보 주체와의 계약의 체결을 위하여 불가피하게 필요한 경우
요금 부과를 위해 회사가 사용자의 정보를 조회하는 경우
법령상 의무를 준수하기 위하여 불가피한 경우

⭐⭐ 데이터3법 [기출]

개인정보보호법
정보통신망법
신용정보법

⭐⭐ 프라이버시모델 추론방지기술 [기출]

K-익명성:일정확률 수준이상 비식별조치
I-다양성: 민감한 정보의 다양성을 높임
t-근접성: 민감한 정보의 분포를 낮춤
m-유일성: 재식별 가능성 위험을 낮춤

⭐마이데이터

개인은 데이터 주권인 자기 정보결정권으로 개인 데이터의 활용과 관리에 대한 통제권을 개인이 가진다.

② 데이터 분석 계획

⭐ 분석 로드맵

단계별로 추진하고자 하는 목표를 명확히 정의하고, 선후행 단계를 고려해 단계별 추진내용을 정렬한다.
데이터 분석체계 도입 ➡️ 데이터 분석 유효성 검증 ➡️ 데이터 분석 확산 및 고도화

⭐ 분석 시나리오(분석과제정의서) [기출]

목적 : 이해관계자 도출, 업무성과 판단, 분석 목표 도출, 필요한 소스데이터, 분석방법, 데이터 입수 난이도, 데이터 입수 사유, 분석 수행 주기, 분석 결과에 대한 검증 오너쉽, 상세 분석 과정등

⭐ 하향식 접근 방식

분석과제가 정해져 있고 이에 대한 해법을 찾기 위해 체계적으로 분석하는 방법이다.
하향식 접근 방식에 비즈니스 모델 캔버스를 사용한다.
문제 탐색 ➡️ 문제정의 ➡️ 해결방안 탐색 ➡️타당성 검토 ➡️선택

⭐⭐ 상향식 접근 방식 [기출]

문제 정의 자체가 어려운 경우 데이터를 기반으로 문제를 지속적으로 개선하는 방식
디자인 사고, 비지도 학습 방법 사용, 프로토타이핑 접근법
프로세스 분류 ➡️ 프로세스 흐름분석 ➡️ 분석 요건 식별 ➡️ 분석 요건 정의

⭐⭐ 대상별 분석 기획 유형 [기출]

최적화: 분석의 대상이 무엇인지를 인지하고 있는 경우, 즉 해결해야 할 문제를 알고 이미 분석의 방법도 알고 있는 경우 사용개선을 통한 최적화 형태로 분석을 수행
솔루션: 분석의 대상은 인지하고 있으나 방법을 모르는 경우에는 해당 분석 주제에 대한 솔루션을 찾아냄
통찰: 분석의 대상이 명확하게 무엇인지 모르는 경우에는 기존 분석 방식을 활용하여 새로운 지식인 통찰을 도출
발견: 분석의 대상과 방법을 모르는 경우에는 발견 접근법으로 분석의 대상 자체를 새롭게 도출

⭐⭐ 분석 방법론의 분석 절차 [21년 2회 기출]

분석기획 ➡️ 데이터 준비 ➡️ 데이터 분석 ➡️ 시스템 구현

⭐⭐ 분석 마스터 플랜 수립 [기출]

우선순위설정 : 전략적 중요도, 비즈니스 성과/ROI, 실행용이성, 시급성, 난이도
로드맵 수립 : 업무 내재화 적용 수준, 분석 데이터 적용 수준, 기술 적용 수준

⭐⭐⭐ 빅데이터 분석 방법론 [기출]

빅데이터를 분석하기 위해 문제를 정의하고 답을 도출하기 위한 체계적인 절차
데이터 분석 방법론의 구성요소에는 절차, 방법, 도구와 기법,템플릿과 산출물이 있다.
계층 : 단계, 태스크, 스탭
분석 기획 : 범위설정 ➡️ 프로젝트 정의 ➡️ 프로젝트 수행계획 수립 ➡️ 프로젝트 위험계획 수립
데이터 분석 : 데이터 준비 ➡️ 텍스트 분석 ➡️ 탐색적 분석 ➡️ 모델링 ➡️ 모델 평가 및 검증 ➡️ 모델적용 및 운영방안수립

⭐ KDD 분석 방법론

프로파일링 기술을 기반으로 통계적 패턴이나 지식을 찾기 위해 체계적으로 정리한 방법론이다.
KDD 분석 방법론의 분석 절차는 데이터 선택, 데이터 전처리, 데이터 변환, 데이터 마이닝, 데이터 마이닝 결과평가이다.
선택 ➡️ 전처리 ➡️ 변환 ➡️ 데이터마이닝 ➡️ 해석과 평가

⭐ CRISP-DM 분석 방법론의 분석 절차

비즈니스의 이해를 바탕으로 데이터 분석 목적의 6단계로 진행되는 데이터 마이닝 방법론이다.
단계, 일반화 태스트, 세분화 태스크, 프로세스 실행으로 구성된다.
단계 간 피드백을 통해여 단계별 완성도를 높인다.
업무이해 ➡️ 데이터이해 ➡️ 데이터 준비 ➡️ 모델링 ➡️ 평가 ➡️ 전개

⭐ SEMMA분석 방법론의 분석 절차

분석 솔루션 업제 SAS사가 주도한 통계 중심의 5단계(샘플링,탐색,수정,모델링,검증)방법이다.

⭐빅데이터 분석 절차 [기출]

빅데이터 분석은 문제 인식부터 연구 조사, 모형화, 자료 수집 및 분석, 결과 공유의 절차로 수행된다.
문제인식 ➡️ 연구 조사 ➡️ 모형화 ➡️ 자료 수집 ➡️ 자료 분석 ➡️ 분석결과 공유

⭐빅데이터 분석 작업 WBS 설정

데이터 분석 과제 정의, 데이터 준비 및 탐색 , 데이터 분석 모델링 및 검증, 산출물 정리

③ 데이터 수집 및 저장 계획

⭐⭐⭐ 데이터 수집 - ETL [기출]

ETL은 데이터 분석을 위한 데이터를 데이터 저장소인 DW 및 DM으로 이동시키기 위해 다양한 소스 시스템으로부터 필요한 원본 데이터를 추출하고 변환하여 적재하는 작업 및 기술이다.
추출 ➡️ 변환 ➡️ 적재

⭐ FTP

FTP는 TCM/IP 프로토콜을 기반으로 서버, 클라이언트 사이에서 파일 송수신을 하기 위한 프로토콜이다,
Atctive FTP : 클라이언트가 데이터를 수신받을 포트를 서버에 알려주면, 서버가 자신의 20번 포트를 통해 클라이언트의 임의의 포트로데이터를 전송해 주는 방식
Passive: FTP : 서버가 데이터를 송신해줄 임의의 포트를 클라이언트에 알려주면 클라이언트가 서버의 임의의 포트로 접속해서 데이터를 가져가는 방식

⭐ 정형데이터 수집 - Sqoop

대용량 데이터 전송 솔루션.
커넥터를 사용하여 HDFS, RDBMS, DW, NoSQL등 다양한 저장소와 하둡 간 데이터 전송 기능을 제공하는 기술이다..
벌크 임포트 지원, 데이터 전송 병렬화, 직접 입력 제공, 프로그래핑 방식의 데이터 인터랙션

⭐ 정형데이터 수집 - Hiho

스쿱과 같은 대용량 데이터 전송 솔루션

⭐ Scrapy(스크래파이)

웹사이트를 크롤링하고 구조화된 데이터를 수집하는 파이썬 기반의 애플리케이션 프레임워크로서 데이터 마이닝, 정보처리, 이력 기록 같은 다양한 애플리케이션에 사용되는 수집 기술이다.

⭐ Apach Kafka

대용량 실시간 로그 처리를 위한 분산 스트리밍 플랫폼이다.
소스, 채널, 싱크, 인터프리터

⭐ 비정형데이터 수집 - Flume(플럼)

많은 양의 로그데이터를 효율적으로 수집, 집계 및 이동하기 위해 이벤트와 에이전트를 활용하고, 스트리밍 데이터흐름을 비동기 방식으로 처리하는 분산형 로그 수집 기술이다.
발행 / 구독 모델, 고가용성 제공, 파일 기반 저장방식
데이터를 디스크에 순차적으로 저장한다.
소스, 채널, 싱크

⭐ 비정형 데이터 수집 - Scribe

다수의 서버로부터 실시간으로 스트리밍되는 로그 데이터를 수집하여 분산 시스템에 데이터를 저장하는 대용량 실시간 로그 수집 기술이다.
단일 중앙 스크라이브 서버와 다수의 로컬 스크라이브 서버로 구성되어 안정성과 확장성을 제공한다.
실시간 스트리밍 수집, 확장성, 데이터 수집 다양성, 고가용성
페이스북에서 개발한 데이터 수집 플랫폼이며, Chukwa와는 다르게 데이터를 중앙 집중 서버로 전송하는 방식이다.
최종 데이터는 HDFS외에 다양한 저장소를 활용할 수 있으며, 설치와 구성이 쉽게 다양한 프로그램 언어를 지원함.
HDFS에 저장하기 위해서는 JNI(Java Native Interface)를 이용해야 한다.

⭐ 비정형 데이터 수집 - Chukwa(척와)

분산 시스템으로부터 데이터를 수집, 하둡 파일 시스템에 저장, 실시간 분석 기능을 제공한다.
에이전트와 컬렉터로 구성되어 있다.
데이터 처리 방식에는 아키아빙과 디먹스가 있다.

⭐⭐ CEP [21년 2회 기출]

CEP는 여러 이벤트 소스로부터 발생한 이벤트를 실시간으로 추출하여 대응되는 액션을 수행하는 처리 기술이다.
CEP를 통해 실시간 상황에서 의미 있는 이벤트를 파악하고 가능한 빨리 대응할 수 있다.

⭐⭐EAI [기출]

기업에서 운영되는 서로 다른 플랫폼 및 애플리케이션들 간의 정보 전달, 연계, 통합을 가능하게 해주는 연계 기술이다.
EAI를 사용함으로써 각 비즈니스 간 통합 및 연계성을 증대시켜 효율성을 높여 줄 수 있으며 각 시스템 간의의 확장성을 높여 줄 수 있다.

⭐ CDC

CDC는 데이터 백업이나 통합 작업을 할 경우 최근 변경된 데이터들을 대상으로 다른 시스템으로 이동하는 처리 기술
실시간 백업과 데이터 통합이 가능하여 24시간 운영해야 하는 업무 시스템에 활용된다.

⭐⭐ ODS [기출]

데이터에 대한 추가 작엽을 위해 다양한 데이터 원천들로부터 데이터를 추출 및 통합한 데이터 베이스이다.
ODS 내 데이터는 비즈니스 지원을 위해 타 시스템으로 이관되거나, 보고서 생성을 위해 데이터 웨어하우스로 이관된다.

⭐⭐Crawling(크롤링) [기출]

크롤링은 인터넷상에서 제공되는 다양한 웹 사이트로부터 소셜 네트워크 정보, 뉴스, 게시판 등의 웹문서 및 콘텐츠 수집 기술이다.

⭐ RSS

RSS는 블로그, 뉴스, 쇼핑몰 등의 웹 사이트에 게시된 새로운 글을 공유하기 위해 XML 기반으로 정보를 배포하는 프로토콜을 활용하여 데이터를 수집하는기술이다.

⭐ 반정형데이터 수집 - Open API

Open API는 응용 프로그램을 통해 실시간으로 데이터를 수신할 수 있도록 공개된 API를 이용하여 데이터를 수집하는 기술이다.
Open API를 통해 센서 데이터, 공공 데이터 등의 정보를 수집할 수 있다.
API 게이트웨이 : 시스템의 전방에 위치하여 클라이언트로부터 다양한 서비스를 처리하고 내부시스테믕로 전달하는 미들웨어

⭐ ESB

디지털 서비스를 상호간에 연결하기위한 레거시 기술

⭐ 스트리밍

스트리밍은 네트워크를 통해 오디오, 비디오 등의 미디어 데이터를 실시간으로 수집하는 기술이다.

⭐⭐⭐ 정형데이터 [기출]

지정된 행과열에 의해 데이터의 속성이 구별되는 스프레드시트 형태의 데이터
형태소는 정형데이터를 분석하기 위한 단위이다.
관계형 데이터베이스, 스프레드시트

⭐⭐⭐ 반정형데이터 [기출]

스키마 구조 형태를 가지고 메타데이터를 포함하며 값과 형식에서 일관성을 가지지 않는 데이터
XML, HTML, 웹로그, 알람, 시스템 로그, JSON, RSS, 센서데이터

⭐⭐⭐ 비정형데이터 [기출]

스키마 구조 형태를 가지지 않고 조정된 필드에 저장되지 않는 데이터
비정형 데이터는 잠재적 가치가 가장 높다.
SNS, 웹게시판, 텍스트, 이미지, 오디오, 동영상

⭐ 데이터 변환기술

평활화: 데이터로부터 잡음을 제거하기 우해 데이터 추세에 벗어나는 값들을 변화하는 기법(구간화, 군집화 적용)
집계: 다양한 차원의 방법으로 데이터를 요약하는 기법
일반화: 특정 구간에 분포하는 값으로 스케일을 변화시키는 기법
정규화: 데이터를 정해진 구간 내에 들도록 하는 기법

⭐ 비식별화

데이터 비식별화는 특정 개인을 식별할 수 없도록 개인정보의 일부 또는 전부를 변환하는 일련의 방법이다.
데이터를 안전하게 활용하기 위해서는 수집된 데이터의 개인정보 일부 또는 전부를 삭제하거나 다른 정보로 대체함으로써 다른 정보와 결합하여도 특정 개인을 식별하기 어렵게 데이터 비식별화 조치를 해야한다.

⭐⭐⭐ 비식별화 기술 [기출]

가명처리 : 개인 식별에 중요한 데이터를 식별할 수 없는 다른 값으로 변경하는 기술
총계처리 : 데이터의 총합 값으로 처리하여 개인 데이터의 값을 보이지 않도록 하는 기술
데이터삭제 : 개인정보 식별에 중요한 데이터 값을 삭제하는 기술
범주화 : 데이터의 값을 범주의 값으로 변환하여 값을 변경하는 기술
마스킹: 개인 식별 정보에 대하여 전체 또는 부분적으로 대체값으로 변환

⭐⭐개인정보차등보호(differntial privacy) [기출]

개인정보에 노이즈를 추가해서 개인정보 보호와 데이터 분석을 모두 진행할 수 있다.

⭐⭐ 개인정보 익명 처리 기법 [기출]

가명 : 개인 식별이 가능한 데이터에 대하여 직접 식별할 수 없는 다른 값으로 대체하는 기법
일반화 : 더 일반화된 값으로 대체하는 것으로 숫자 데이터의 경우 구간으로 정의하고 범주화된 속성은 트리의 계층적 구조에 의해 대체하는 기법
섭동 : 동일한 확률적 정보를 가지는 변형된 값에 대하여 원래 데이터를 대체하는 기법
치환 : 속성 값을 수정하지 않고 레코드 간에 속성값의 위치를 바꾸는 기법

⭐⭐ 데이터 품질 검증 [기출]

메타데이터 분석 - 실제 운영 중인데이터 베이스의 테이블명·칼럼명·자료형, 도메인·제약조건 등이며 데이터베이스 설계에는 반영되지 않은 한글 메타데이터,도메인 정보·엔티티 관계·코드 정의 등도 검증한다.
데이터 표준 - 데이터 표준 준수 진단, 논리/물리 모델 표준에 맞는지 검증한다.
데이터프로파일링 - 정의된 표준 도메인에 맞는지 검증한다.

⭐⭐ 데이터 품질 검증 기준 [기출]

완전성, 유용성, 적시성, 일관성, 타당성, 정확성

⭐⭐ 데이터 저장 - 데이터 웨어하우스 [기출]

사용자의 의사결정에 도움을 주기 위하여 기간 시스템의 데이터베이스에 축적된 데이터를 공통 형식으로 변환해서 관리하는 데이터베이스
주제 지향적, 통합적, 시계열적, 비휘발적

⭐⭐ 데이터 저장 - 데이터마트

전사적으로 구축된 데이터 속의 특정 주제, 부서 중심으로 구축된 소규모 단위 주제의 데이터 웨어하우스

⭐⭐ 데이터 저장 - 데이터 레이크

정형, 반정형, 비정형 데이터를 비롯한 모든 가공되지 않은 다양한 종류의데이터를 저장할 수 있는 시스템 또는 중앙 집중식 데이터 저장소

⭐⭐ 분산파일시스템 [기출]

분산된 서버에 파일을 저장하고 저장된 데이터를 빠르게 처리할 수 있게 만든 시스템
데이터베이스를 분산 저장한다.
x86서버의 CPU,RAM등을 사용하므로 장비 증가에 따른 성능향상에 용이하다.
네트워크를 통한 여러 파일을 관리 및 저장하는 개념이다.

⭐⭐ 데이터 저장 - GFS(구글파일시스템) [기출]

구글의 대규모 클러스터 서비스 플랫폼의 기반이 되는 파일 시스템
구성 : client, master, chunk server
청크 : 구글파일시스템에서 파일을 나누는 조각 한 단위 1개의 청크는 64MB고정된 크기로 분할 저장
마스터 : 단일마스터, 파일 메타정보 저장, 하트비스 메시지로 청크서버와 연결
청크서버 : 청크저장, 청크파일처리, 하트비트메시지를 마스터에게 전달
클라이언트 : 마스터에 청크인덱스 요청, 청크읽기/쓰기

⭐⭐ 분산데이터 저장 - HDFS(하둡파일시스템) [기출]

대용량 파일을 분산된 서버에 저장하고, 저장된 데이터를 빠르게 처리할 수 있게 하는 하둡 분산 파일 시스템
장애복구, 스트리밍 방식의 데이터 접근, 대용량 데이터 저장, 데이터 무결성
구성 : 네임노드, 보조네임 노드, 데이터 노드
NameNode : 메타데이터 관리, DataNode 모니터링, block 관리, client 요청 접수
데이터를 복제해서 여러 서버에 저장하며 복제횟수는 기본 3번이고 복제 횟수 설정가능
GFS와 유사한 소스코드임

⭐러스터

객체 기반 클러스터 파일 시스템

⭐ 데이터베이스 클러스터

하나의 데이터 베이스를 여러개의 서버상에 분산하여 구축하는 것
성능과 가용성의 향상을 위해 데이터베이스 파티셔닝 또는 클러스터링을 이용한다.
데이터베이스 시스템을 구성하는 형태에 따라 단일 서버 파티셔닝과 다중 서버 파티셔닝으로 구분한다.

⭐⭐ NoSQL [기출]

빅데이터 저장기술
Basically Available(사용가능한)
Soft state(소프트 상태) : 일관성이 없는 상태에서 data읽기 가능. 현시점 최신상태 읽음
Eventually Consistentcy(궁극적 일관성): 일시적으로 일관성이 깨질수 있다.(네트워크 문제, 시스템 부하)
NoSQL의 데이터 모델 종류 : Key/Value Store, Column Family Store, Document Store, Graph Store
MongoDB, Cassandra, Hbase, 아마존SimpleDB, 마이크로소프트SSDS

⭐ CAP 이론

분산 컴퓨팅 환경은 Consistency, Availability, Partition Tolerance 3가지 특징을 가지고 있다.

다음글 보러가기

[빅데이터분석기사 필기] 2과목 빅데이터탐색 요약정리

이전글 보러가기 [빅데이터분석기사 필기] 1과목 빅데이터분석기획 요약정리 ⭐: 키워드 ⭐⭐:기출문제 유형 ⭐⭐⭐:출제 多 ① 빅데이터의 이해 ⭐ DIKW피라미드 Data ➡️ Information ➡️ Knowledge

ohaengsa.tistory.com

728x90

'자격증 > 빅데이터분석기사' 카테고리의 다른 글

[빅데이터분석기사 필기] 주성분분석(PCA) 개념 및 기출문제 (1)	2022.09.27
[빅데이터 분석기사 필기] 3과목 빅데이터모델링 요점정리 ② (1)	2022.09.27
[빅데이터 분석기사 필기] 3과목 빅데이터모델링 요점정리 ① (0)	2022.09.23
[빅데이터분석기사 필기] 한번에 합격하는 공부법 (0)	2022.09.17
[빅데이터분석기사 필기] 2과목 빅데이터탐색 요약정리 (4)	2022.09.14

현재글[빅데이터분석기사 필기] 1과목 빅데이터분석기획 요약정리

Ministory

[빅데이터분석기사 필기] 1과목 빅데이터분석기획 요약정리

① 빅데이터의 이해

② 데이터 분석 계획

③ 데이터 수집 및 저장 계획

다음글 보러가기

'자격증 > 빅데이터분석기사' 카테고리의 다른 글

'자격증/빅데이터분석기사'의 다른글

티스토리툴바

[빅데이터분석기사 필기] 1과목 빅데이터분석기획 요약정리

① 빅데이터의 이해

② 데이터 분석 계획

③ 데이터 수집 및 저장 계획

다음글 보러가기

'자격증 > 빅데이터분석기사' 카테고리의 다른 글

'자격증/빅데이터분석기사'의 다른글

관련글

티스토리툴바