자격증/빅데이터분석기사

[빅데이터분석기사 필기] 1과목 빅데이터분석기획 요약정리

j9m 2022. 9. 14. 19:19
728x90
반응형

⭐: 키워드 ⭐:기출문제 유형 ⭐:출제 多

 

빅데이터의 이해

 

 DIKW피라미드

  • Data ➡️ Information ➡️ Knowledge ➡️ Wisdom

 

데이터 바이트크기 [기출]

  • KB(10³Bytes)➡️MB(10⁶) ➡️ GB(10⁹) ➡️ TB(10¹²)➡️ PB(10¹⁵) ➡️ EB(10¹⁸) ➡️ ZB(10²¹) ➡️YB(10²⁴) 
  • 2¹⁰ ➡️  ➡️ 2³⁰ ➡️ 2➡️ 2➡️ 2⁶ ➡️ 2⁷➡️ 2 (1byte의 아스키 코드를 넣을 수 있는 양)

 

빅데이터특징 [기출]

  • 가트너 3V(Volume, Variety, Velocity)
  • 5V(Value, Veracity)
  • 7V(Validity, Volatility) 

 

분석 가치 에스컬레이터 [기출]

  • 가트너가 빅데이터의 가치를 묘사분석, 진단분석, 예측분석, 처방분석의 4단계로 정의한 기법이다.
  • 분석가치 에스컬레이터에서는 높은 난도를 수반하는 데이터분석은 더 많은 가치를 창출한다.
  • 묘사분석 : 분석의 가장 기본적인 지표 (과거에 어떤일이 일어났고, 현재는 무슨 일이 일어나고 있는지 확인)
  • 진단분석 : 묘사 단계에서 찾아낸 분석의 원인을 이해하는 과정(데이터를 기반으로 왜 발생했는지 이유를 확인)
  • 예측분석 : 데이터를 통해 기업 혹은 조직의 미래, 고객의 행동 등을 예측하는 과정(무슨일이 일어날 것인지를 예측)
  • 처방분석 : 예측을 바탕으로 최적화하는 과정(무엇을 해야 할 것인지를 확인)

 

클라우드 컴퓨터 

  • 클라우드 컴퓨팅은 인터넷으로 가상화된 IT 리소스를 서비스로 제공하는 것
  • Iaas : 서버, 저장장치, 네트워크 등의 인프라 제공
  • Paas : 응용프로그램 등 소프트웨어의 개발, 배포, 운영, 관리 등을 위한 환경 제공 (Platform as a Service)
  • Saas : 응용프로그램 등 소프트웨어 제공

 

 데이터 거버넌스 [기출]

  • 데이터 거버넌스는 기업에서 사용하는 데이터의 가용성, 유용성, 통합성, 보안성을 관리하기 위한 정책과 프로세스를 다루며 프라이버시, 보안성, 데이터 품질, 관리규정준수를 강조하는 모델
  • 구성요소 : 원칙, 조직, 프로세스
  • 체계 : 데이터 표준화, 데이터 관리 체계, 데이터 저장소 관리, 표준화 활동

 

IT 거버넌스 

  • IT자원과정보를 통해 조직의 경영목표를 충족시킬 수 있는 계획을 개발하고 통제하는 프로세스

 

조직평가를 위한 성숙도 단계 [기출]

  • 기업의 분석수준은 성숙도 수준에 따라 달라진다.
  • 도입단계 : 분석을 시작해 환경과 시스템을 구축
  • 활용 단계 : 분석 결과를 실제 업무에 적용
  • 확산 단계 : 전사 차원에서 분석을 관리하고 공유
  • 최적화 단계 : 분석을 진화시켜서 혁신 및 성과 향상에 기여
  • 도입단계 ➡️ 활용 단계 ➡️ 확산 단계 ➡️ 최적화 단계

 

분산데이터 처리 -  MapReduce(맵리듀스) [기출]

  • 구글검색을 위해 개발된 분산환경 병렬 데이터 처리 기법
  • 비공유 구조의 여러노드PC로 대량의 병렬처리 가능
  • 모든 데이터는 KEY-VALUE의 쌍으로 존재
  • Map : GFS에서 전달된 청크단위의 데이터를 (Key,Value)형태의 파일들로 데이터 기록
  • Shuffle : 데이터를 통합하여 처리
  • Reduce : Map과정에서 분할 및 정리된(key,value)데이터를 그룹화, 집계 후 GFS에 새로운 (key,value)로 저장
  • Map ➡️ Shuffle ➡️ Reduce 

 

⭐분산데이터베이스 - HBase

  • HDFS의 칼럼 기반 데이터베이스
  • 구글의 BigTable 논문을 기반으로 개발된 것으로, 실시간 랜덤 조회 및 업데이트가 가능하며, 각각의 프로세스들은 개인의 데이터를 비동기적으로 업데이트 할 수 있다. 단, MapReduce는 일괄처리 방식으로 수행된다. 

 

인메모리 처리 - Spark [기출]

  • 대용량 데이터를 빠르게 처리하기 위한 인-메모리 기반의 분산 데이터 처리 엔진
  • 오프소스 프로젝트로 데이터브릭스에서 주로 개발
  • 대량의 데이터를 메모리에 유지하는 설계로 계산 성능 대폭 강화
  • 일괄 처리, 실시간 처리(스트리밍), 정형데이터 SQL처리, 그래프 알고리즘, 머신러닝 등 다양한 요구사항 통합
  • 필요한 데이터를 메모리에 캐시로 저장하는 인-메모리 실행 방식 채택
  • 온라인 트랜잭션 처리(OLTP)보다 온라인 분석 처리(OLAP)에 더 적합
  •  소규모 데이터는 일반 DBMS가 유리
  • 특징 :  불변성, 복원성, 분산성

 

데이터 가공 - Pig(피그)

  • 복잡한 MapReduce 프로그래밍을 대체할 Pig Latin이라는 자체 언어를 제공.
  • MapReduce API를 매우 단순화시키고 SQL과 유사한 형태로 설계되었다. 

 

⭐ 데이터 가공 -  HIVE(하이브) [기출]

  • 하둡 기반의 데이터웨어하우징용 솔루션
  • 페이스북에서 만든 오픈소스로, SQL과 매우 유사한 HiveQL이라는 쿼리를 제공한다. 그래서 자바를 잘 모르는 데이터 분석가들도 쉽게 하둡 데이터를 분석할 수 있게 도와준다.
  • HiveQL은 내부적으로 MapReduce 잡으로 변환되어 실행된다.

 

⭐데이터 마이닝 - Mahout(머하웃)

  • 하둡 기반으로 데이터 마이닝 알고리즘을 구현한 오프 소스
  • 분류, 클러스터링, 추천 및 협업 필터링, 패턴 마이닝, 회귀 분석, 진화 알고리즘 등 주요 알고리즘 지원

 

⭐실시간 SQL 질의 - Impala(임팔라)

  • 하둡 기반의 실시간 SQL 질의 시스템
  • 데이터 조회를 위한 인터페이스로 HiveQL을 사용
  • 수초 내에 SQL질의 결과를 확인할 수 있으며, HBASE와 연동이 가능

 

워크플로우 관리 - Oozie(우지) [기출]

  • 하둡 작업을 관리하는 워크플로우 및 코디네이터 시스템
  • 자바 서블릿 컨테이너에서 실행되는 자바 웹 애플리케이션 서버
  • 맵리듀스나 피그와 같은 특화된 액션들로 구성된 워크플로우 제어

 

⭐분산 코디네이션 - Zookeeper(주키퍼)

  • 분산환경에서 서버들 간에 상호 조정이 필요한 다양한 서비스를 제공
  • 하나의 서버에만 서비스가 집중되지 않도록 서비스를 알맞게 분산하여 동시에 처리
  • 하나의 서버에서 처리한 결과를 다른 서버들과도 동기화하여 데이터의 안정성을 보장

 

  인공지능 [기출]

  • 인공지능이란 인간의 지적능력을 인공적으로 구현하여 컴퓨터가 인간의 지능적인 행동과 사고를 모방할 수 있도록 하는 소프트웨어이다.
  • 강인공지능은 약인공지능의 제한된 기능을 뛰어넘어 더 발달된 인공지능이다.
  • 강인공지능은 범용으로 사용되기는 시기 상조이다.
  • 강인공지능이라고 불릴만한 수준의 인공지능은 지금도 개발되지 않았다.

 

딥러닝 [기출]

  • 인간의 뇌와 흡사하게 구현한 신경망 알고리즘을 적용하여 보다 빠르고 효율적으로 학습하는 인공지능
  • Sigmoid는 기울기 소실 문제로 인해 ReLU, tanh와 같은 활성화 함수를 많이 사용한다.
  • 오차 역전파를 사용한다.
  • 딥러닝은 은닉층을 사용항 결과에 대한 해석이 어렵다
  • Dropout은 무작위로 신경망을 제거한다.
  • 과적합, 기울기소실, 성능의 문제가 있다. 
  • 지도학습 : 정답인 레이블(Label)이 포함되어 있는 훈련 데이터를 통해 학습시키는 방법
  • 비지도 학습 :  입력데이터에 대한 정답인 레이블(Label)이 없는 상태에서 훈련데이터를 통해 학습시키는 방법
  • 준지도 학습 :  정답인 레이블(Label)이 포함되어 있는 훈련 데이터와 레이블이 없는 훈련 데이터를 모두 훈련에 사용하는 학습 방법
  • 강화 학습 : 어떤 환경 안에서 정의된 에이전트가 현재의 상태를 인식하여, 선택 가능한 행동들 중 보상을 최대화하는 행동 혹은 행동 순서를 선택하는 방법

 

개인정보 수집시  동의를 얻지 않아도 되는 경우 [기출]

  • 사전동의를 받을 수 없는 경우로서 명백히 정보 주체 또는 제3자의 급박한 생명, 신체, 재산의 이익을 위하여 필요하다고 인정되는 경우
  • 정보 주체와의 계약의 체결을 위하여 불가피하게 필요한 경우
  • 요금 부과를 위해 회사가 사용자의 정보를 조회하는 경우
  • 법령상 의무를 준수하기 위하여 불가피한 경우

 

데이터3법 [기출]

  • 개인정보보호법
  • 정보통신망법
  • 신용정보법

 

프라이버시모델 추론방지기술 [기출]

  • K-익명성:일정확률 수준이상 비식별조치
  • I-다양성: 민감한 정보의 다양성을 높임
  • t-근접성: 민감한 정보의 분포를 낮춤
  • m-유일성: 재식별 가능성 위험을 낮춤

 

⭐마이데이터

  • 개인은 데이터 주권인 자기 정보결정권으로 개인 데이터의 활용과 관리에 대한 통제권을 개인이 가진다.

 

 데이터 분석 계획

 

⭐ 분석 로드맵

  • 단계별로 추진하고자 하는 목표를 명확히 정의하고, 선후행 단계를 고려해 단계별 추진내용을 정렬한다.
  • 데이터 분석체계 도입 ➡️ 데이터 분석 유효성 검증 ➡️ 데이터 분석 확산 및 고도화

 

분석 시나리오(분석과제정의서) [기출]

  • 목적 : 이해관계자 도출, 업무성과 판단, 분석 목표 도출, 필요한 소스데이터, 분석방법, 데이터 입수 난이도, 데이터 입수 사유, 분석 수행 주기, 분석 결과에 대한 검증 오너쉽, 상세 분석 과정등

 

⭐ 하향식 접근 방식

  • 분석과제가 정해져 있고 이에 대한 해법을 찾기 위해 체계적으로 분석하는 방법이다.
  • 하향식 접근 방식에 비즈니스 모델 캔버스를 사용한다. 
  • 문제 탐색 ➡️ 문제정의 ➡️ 해결방안 탐색 ➡️타당성 검토 ➡️선택

 

상향식 접근 방식 [기출]

  • 문제 정의 자체가 어려운 경우 데이터를 기반으로 문제를 지속적으로 개선하는 방식
  • 디자인 사고, 비지도 학습 방법 사용, 프로토타이핑 접근법
  • 프로세스 분류 ➡️ 프로세스 흐름분석 ➡️ 분석 요건 식별 ➡️ 분석 요건 정의

 

⭐ 대상별 분석 기획 유형 [기출]

  • 최적화: 분석의 대상이 무엇인지를 인지하고 있는 경우, 즉 해결해야 할 문제를 알고 이미 분석의 방법도 알고 있는 경우 사용개선을 통한 최적화 형태로 분석을 수행
  • 솔루션: 분석의 대상은 인지하고 있으나 방법을 모르는 경우에는 해당 분석 주제에 대한 솔루션을 찾아냄
  • 통찰: 분석의 대상이 명확하게 무엇인지 모르는 경우에는 기존 분석 방식을 활용하여 새로운 지식인 통찰을 도출
  • 발견: 분석의 대상과 방법을 모르는 경우에는 발견 접근법으로 분석의 대상 자체를 새롭게 도출

 

⭐ 분석 방법론의 분석 절차 [21년 2회 기출]

  • 분석기획 ➡️ 데이터 준비 ➡️  데이터 분석 ➡️ 시스템 구현

 

⭐ 분석 마스터 플랜 수립 [기출]

  • 우선순위설정 : 전략적 중요도, 비즈니스 성과/ROI, 실행용이성, 시급성, 난이도 
  • 로드맵 수립 : 업무 내재화 적용 수준, 분석 데이터 적용 수준, 기술 적용 수준

 

빅데이터 분석 방법론 [기출]

  • 빅데이터를 분석하기 위해 문제를 정의하고 답을 도출하기 위한 체계적인 절차
  • 데이터 분석 방법론의 구성요소에는 절차, 방법, 도구와 기법,템플릿과 산출물이 있다.
  • 계층 : 단계, 태스크, 스탭
  • 분석 기획 : 범위설정 ➡️ 프로젝트 정의 ➡️ 프로젝트 수행계획 수립 ➡️ 프로젝트 위험계획 수립 
  • 데이터 분석 : 데이터 준비 ➡️ 텍스트 분석 ➡️ 탐색적 분석 ➡️ 모델링 ➡️ 모델 평가 및 검증 ➡️ 모델적용 및 운영방안수립

 

 KDD 분석 방법론

  • 프로파일링 기술을 기반으로 통계적 패턴이나 지식을 찾기 위해 체계적으로 정리한 방법론이다.
  • KDD 분석 방법론의 분석 절차는 데이터 선택, 데이터 전처리, 데이터 변환, 데이터 마이닝, 데이터 마이닝 결과평가이다. 
  • 선택 ➡️ 전처리 ➡️ 변환 ➡️ 데이터마이닝 ➡️ 해석과 평가

 

⭐ CRISP-DM 분석 방법론의 분석 절차 

  • 비즈니스의 이해를 바탕으로 데이터 분석 목적의 6단계로 진행되는 데이터 마이닝 방법론이다.
  • 단계, 일반화 태스트, 세분화 태스크, 프로세스 실행으로 구성된다.
  • 단계 간 피드백을 통해여 단계별 완성도를 높인다.
  • 업무이해 ➡️ 데이터이해 ➡️ 데이터 준비 ➡️ 모델링 ➡️ 평가 ➡️ 전개

 

⭐ SEMMA분석 방법론의 분석 절차 

  • 분석 솔루션 업제 SAS사가 주도한 통계 중심의 5단계(샘플링,탐색,수정,모델링,검증)방법이다.

 

⭐빅데이터 분석 절차 [기출]

  • 빅데이터 분석은 문제 인식부터 연구 조사, 모형화, 자료 수집 및 분석, 결과 공유의 절차로 수행된다.
  • 문제인식 ➡️ 연구 조사 ➡️  모형화 ➡️ 자료 수집 ➡️ 자료 분석 ➡️ 분석결과 공유 

 

⭐빅데이터 분석 작업 WBS 설정

  • 데이터 분석 과제 정의, 데이터 준비 및 탐색 , 데이터 분석 모델링 및 검증, 산출물 정리

 데이터 수집 및 저장 계획

 

⭐ 데이터 수집 - ETL [기출]

  • ETL은 데이터 분석을 위한 데이터를 데이터 저장소인 DW 및 DM으로 이동시키기 위해 다양한 소스 시스템으로부터 필요한 원본 데이터를 추출하고 변환하여 적재하는 작업 및 기술이다.
  • 추출 ➡️ 변환 ➡️ 적재

 

⭐ FTP

  • FTP는 TCM/IP 프로토콜을 기반으로 서버, 클라이언트 사이에서 파일 송수신을 하기 위한 프로토콜이다,
  • Atctive FTP : 클라이언트가 데이터를 수신받을 포트를 서버에 알려주면, 서버가 자신의 20번 포트를 통해 클라이언트의 임의의 포트로데이터를 전송해 주는 방식
  • Passive: FTP : 서버가 데이터를 송신해줄 임의의 포트를 클라이언트에 알려주면 클라이언트가 서버의 임의의 포트로 접속해서 데이터를 가져가는 방식

 

⭐ 정형데이터 수집 - Sqoop

  • 대용량 데이터 전송 솔루션.
  • 커넥터를 사용하여 HDFS, RDBMS, DW, NoSQL등 다양한 저장소와 하둡 간 데이터 전송 기능을 제공하는 기술이다..
  • 벌크 임포트 지원, 데이터 전송 병렬화, 직접 입력 제공, 프로그래핑 방식의 데이터 인터랙션

 

정형데이터 수집 - Hiho

  • 스쿱과 같은 대용량 데이터 전송 솔루션

 

Scrapy(스크래파이)

  • 웹사이트를 크롤링하고 구조화된 데이터를 수집하는 파이썬 기반의 애플리케이션 프레임워크로서 데이터 마이닝, 정보처리, 이력 기록 같은 다양한 애플리케이션에 사용되는 수집 기술이다.

 

Apach Kafka

  • 대용량 실시간 로그 처리를 위한 분산 스트리밍 플랫폼이다.
  • 소스, 채널, 싱크, 인터프리터

 

⭐ 비정형데이터 수집 - Flume(플럼)

  • 많은 양의 로그데이터를 효율적으로 수집, 집계 및 이동하기 위해 이벤트와 에이전트를 활용하고, 스트리밍 데이터흐름을 비동기 방식으로 처리하는 분산형 로그 수집 기술이다.
  • 발행 / 구독 모델, 고가용성 제공, 파일 기반 저장방식
  • 데이터를 디스크에 순차적으로 저장한다.
  • 소스, 채널, 싱크

 

⭐ 비정형 데이터 수집 - Scribe

  • 다수의 서버로부터 실시간으로 스트리밍되는 로그 데이터를 수집하여 분산 시스템에 데이터를 저장하는 대용량 실시간 로그 수집 기술이다.
  • 단일 중앙 스크라이브 서버와 다수의 로컬 스크라이브 서버로 구성되어 안정성과 확장성을 제공한다.
  • 실시간 스트리밍 수집, 확장성, 데이터 수집 다양성, 고가용성
  • 페이스북에서 개발한 데이터 수집 플랫폼이며, Chukwa와는 다르게 데이터를 중앙 집중 서버로 전송하는 방식이다.
  • 최종 데이터는 HDFS외에 다양한 저장소를 활용할 수 있으며, 설치와 구성이 쉽게 다양한 프로그램 언어를 지원함.
  • HDFS에 저장하기 위해서는 JNI(Java Native Interface)를 이용해야 한다.

 

⭐ 비정형 데이터 수집 - Chukwa(척와)

  • 분산 시스템으로부터 데이터를 수집, 하둡 파일 시스템에 저장, 실시간 분석 기능을 제공한다.
  • 에이전트와 컬렉터로 구성되어 있다.
  • 데이터 처리 방식에는 아키아빙과 디먹스가 있다.

 

 CEP [21년 2회 기출]

  • CEP는 여러 이벤트 소스로부터 발생한 이벤트를 실시간으로 추출하여 대응되는 액션을 수행하는 처리 기술이다.
  • CEP를 통해 실시간 상황에서 의미 있는 이벤트를 파악하고 가능한 빨리 대응할 수 있다.

 

EAI  [기출]

  • 기업에서 운영되는 서로 다른 플랫폼 및 애플리케이션들 간의 정보 전달, 연계, 통합을 가능하게 해주는 연계 기술이다.
  • EAI를 사용함으로써 각 비즈니스 간 통합 및 연계성을 증대시켜 효율성을 높여 줄 수 있으며 각 시스템 간의의 확장성을 높여 줄 수 있다.

 

CDC

  • CDC는 데이터 백업이나 통합 작업을 할 경우 최근 변경된 데이터들을 대상으로 다른 시스템으로 이동하는 처리 기술
  • 실시간 백업과 데이터 통합이 가능하여 24시간 운영해야 하는 업무 시스템에 활용된다.

 

ODS [기출]

  • 데이터에 대한 추가 작엽을 위해 다양한 데이터 원천들로부터 데이터를 추출 및 통합한 데이터 베이스이다.
  • ODS 내 데이터는 비즈니스 지원을 위해 타 시스템으로 이관되거나, 보고서 생성을 위해 데이터 웨어하우스로 이관된다.

 

⭐Crawling(크롤링) [기출]

  • 크롤링은 인터넷상에서 제공되는 다양한 웹 사이트로부터 소셜 네트워크 정보, 뉴스, 게시판 등의 웹문서 및 콘텐츠 수집 기술이다.

 

RSS

  • RSS는 블로그, 뉴스, 쇼핑몰 등의 웹 사이트에 게시된 새로운 글을 공유하기 위해 XML 기반으로 정보를 배포하는 프로토콜을 활용하여 데이터를 수집하는기술이다.

 

⭐ 반정형데이터 수집 - Open API

  • Open API는 응용 프로그램을 통해 실시간으로 데이터를 수신할 수 있도록 공개된 API를 이용하여 데이터를 수집하는 기술이다.
  • Open API를 통해 센서 데이터, 공공 데이터 등의 정보를 수집할 수 있다.
  • API 게이트웨이 : 시스템의 전방에 위치하여 클라이언트로부터 다양한 서비스를 처리하고 내부시스테믕로 전달하는 미들웨어

 

ESB 

  • 디지털 서비스를 상호간에 연결하기위한 레거시 기술

 

스트리밍

  • 스트리밍은 네트워크를 통해 오디오, 비디오 등의 미디어 데이터를 실시간으로 수집하는 기술이다.

 

정형데이터 [기출]

  • 지정된 행과열에 의해 데이터의 속성이 구별되는 스프레드시트 형태의 데이터
  • 형태소는 정형데이터를 분석하기 위한 단위이다.
  • 관계형 데이터베이스, 스프레드시트

 

반정형데이터 [기출]

  • 스키마 구조 형태를 가지고 메타데이터를 포함하며 값과 형식에서 일관성을 가지지 않는 데이터
  • XML, HTML, 웹로그, 알람, 시스템 로그, JSON, RSS, 센서데이터

 

비정형데이터 [기출]

  • 스키마 구조 형태를 가지지 않고 조정된 필드에 저장되지 않는 데이터
  • 비정형 데이터는 잠재적 가치가 가장 높다.
  • SNS, 웹게시판, 텍스트, 이미지, 오디오, 동영상

 

⭐ 데이터 변환기술

  • 평활화: 데이터로부터 잡음을 제거하기 우해 데이터 추세에 벗어나는 값들을 변화하는 기법(구간화, 군집화 적용)
  • 집계: 다양한 차원의 방법으로 데이터를 요약하는 기법
  • 일반화: 특정 구간에 분포하는 값으로 스케일을 변화시키는 기법
  • 정규화: 데이터를 정해진 구간 내에 들도록 하는 기법

 

비식별화 

  • 데이터 비식별화는 특정 개인을 식별할 수 없도록 개인정보의 일부 또는 전부를 변환하는 일련의 방법이다.
  • 데이터를 안전하게 활용하기 위해서는 수집된 데이터의 개인정보 일부 또는 전부를 삭제하거나 다른 정보로 대체함으로써 다른 정보와 결합하여도 특정 개인을 식별하기 어렵게 데이터 비식별화 조치를 해야한다.

 

비식별화 기술 [기출]

  • 가명처리 : 개인 식별에 중요한 데이터를 식별할 수 없는 다른 값으로 변경하는 기술
  • 총계처리 : 데이터의 총합 값으로 처리하여 개인 데이터의 값을 보이지 않도록 하는 기술
  • 데이터삭제 : 개인정보 식별에 중요한 데이터 값을 삭제하는 기술
  • 범주화 : 데이터의 값을 범주의 값으로 변환하여 값을 변경하는 기술
  • 마스킹: 개인 식별 정보에 대하여 전체 또는 부분적으로 대체값으로 변환

 

개인정보차등보호(differntial privacy) [기출]

  • 개인정보에 노이즈를 추가해서 개인정보 보호와 데이터 분석을 모두 진행할 수 있다.

 

개인정보 익명 처리 기법 [기출]

  • 가명 : 개인 식별이 가능한 데이터에 대하여 직접 식별할 수 없는 다른 값으로 대체하는 기법
  • 일반화 : 더 일반화된 값으로 대체하는 것으로 숫자 데이터의 경우 구간으로 정의하고 범주화된 속성은 트리의 계층적 구조에 의해 대체하는 기법
  • 섭동 : 동일한 확률적 정보를 가지는 변형된 값에 대하여 원래 데이터를 대체하는 기법
  • 치환 : 속성 값을 수정하지 않고 레코드 간에 속성값의 위치를 바꾸는 기법

 

데이터 품질 검증 [기출]

  • 메타데이터 분석 - 실제 운영 중인데이터 베이스의 테이블명·칼럼명·자료형, 도메인·제약조건 등이며 데이터베이스 설계에는 반영되지 않은 한글 메타데이터,도메인 정보·엔티티 관계·코드 정의 등도 검증한다.
  • 데이터 표준 -  데이터 표준 준수 진단, 논리/물리 모델 표준에 맞는지 검증한다.
  • 데이터프로파일링 - 정의된 표준 도메인에 맞는지 검증한다.

 

데이터 품질 검증 기준 [기출]

  • 완전성, 유용성, 적시성, 일관성, 타당성, 정확성 

 

⭐ 데이터 저장 - 데이터 웨어하우스 [기출]

  • 사용자의 의사결정에 도움을 주기 위하여 기간 시스템의 데이터베이스에 축적된 데이터를 공통 형식으로 변환해서 관리하는 데이터베이스
  • 주제 지향적, 통합적, 시계열적, 비휘발적

 

데이터 저장 - 데이터마트

  • 전사적으로 구축된 데이터 속의 특정 주제, 부서 중심으로 구축된 소규모 단위 주제의 데이터 웨어하우스

 

데이터 저장 - 데이터 레이크

  • 정형, 반정형, 비정형 데이터를 비롯한 모든 가공되지 않은 다양한 종류의데이터를 저장할 수 있는 시스템 또는 중앙 집중식 데이터 저장소

 

분산파일시스템 [기출]

  • 분산된 서버에 파일을 저장하고 저장된 데이터를 빠르게 처리할 수 있게 만든 시스템
  • 데이터베이스를 분산 저장한다.
  • x86서버의 CPU,RAM등을 사용하므로 장비 증가에 따른 성능향상에 용이하다.
  • 네트워크를 통한 여러 파일을 관리 및 저장하는 개념이다.

 

⭐ 데이터 저장 - GFS(구글파일시스템) [기출]

  • 구글의 대규모 클러스터 서비스 플랫폼의 기반이 되는 파일 시스템
  • 구성 : client, master, chunk server
  • 청크 : 구글파일시스템에서 파일을 나누는 조각 한 단위 1개의 청크는 64MB고정된 크기로 분할 저장
  • 마스터 : 단일마스터, 파일 메타정보 저장, 하트비스 메시지로 청크서버와 연결
  • 청크서버 : 청크저장, 청크파일처리, 하트비트메시지를 마스터에게 전달
  • 클라이언트 : 마스터에 청크인덱스 요청, 청크읽기/쓰기

 

분산데이터 저장 - HDFS(하둡파일시스템) [기출]

  • 대용량 파일을 분산된 서버에 저장하고, 저장된 데이터를 빠르게 처리할 수 있게 하는 하둡 분산 파일 시스템
  • 장애복구, 스트리밍 방식의 데이터 접근, 대용량 데이터 저장, 데이터 무결성
  • 구성 : 네임노드, 보조네임 노드, 데이터 노드
  • NameNode : 메타데이터 관리, DataNode 모니터링, block 관리, client 요청 접수
  • 데이터를 복제해서 여러 서버에 저장하며 복제횟수는 기본 3번이고 복제 횟수 설정가능
  • GFS와 유사한 소스코드임

 

⭐러스터

  • 객체 기반 클러스터 파일 시스템

 

 데이터베이스 클러스터

  • 하나의 데이터 베이스를 여러개의 서버상에 분산하여 구축하는 것
  • 성능과 가용성의 향상을 위해 데이터베이스 파티셔닝 또는 클러스터링을 이용한다.
  • 데이터베이스 시스템을 구성하는 형태에 따라 단일 서버 파티셔닝과 다중 서버 파티셔닝으로 구분한다.

 

⭐ NoSQL [기출]

  • 빅데이터 저장기술
  • Basically Available(사용가능한) 
  • Soft state(소프트 상태) : 일관성이 없는 상태에서 data읽기 가능. 현시점 최신상태 읽음
  • Eventually Consistentcy(궁극적 일관성): 일시적으로 일관성이 깨질수 있다.(네트워크 문제, 시스템 부하)
  • NoSQL의 데이터 모델 종류 : Key/Value Store, Column Family Store, Document Store, Graph Store
  • MongoDB, Cassandra, Hbase, 아마존SimpleDB, 마이크로소프트SSDS

 

⭐ CAP 이론 

  • 분산 컴퓨팅 환경은 Consistency, Availability, Partition Tolerance 3가지 특징을 가지고 있다. 

 

다음글 보러가기

 

[빅데이터분석기사 필기] 2과목 빅데이터탐색 요약정리

이전글 보러가기 [빅데이터분석기사 필기] 1과목 빅데이터분석기획 요약정리 ⭐: 키워드 ⭐⭐:기출문제 유형 ⭐⭐⭐:출제 多 ① 빅데이터의 이해 ⭐ DIKW피라미드 Data ➡️ Information ➡️ Knowledge

ohaengsa.tistory.com

 

728x90
반응형