자격증/빅데이터분석기사

[빅데이터분석기사 필기] 데이터 저장기술 종류와 기출문제

j9m 2022. 9. 29. 10:21
반응형

데이터 저장기술

데이터 웨어하우스 

  • 사용자의 의사결정에 도움을 주기 위하여 기간 시스템의 데이터베이스에 축적된 데이터를 공통 형식으로 변환해서 관리하는 데이터베이스
  • 주제 지향적, 통합적, 시계열적, 비휘발적

 

데이터마트

  • 전사적으로 구축된 데이터 속의 특정 주제, 부서 중심으로 구축된 소규모 단위 주제의 데이터 웨어하우스

 

데이터 레이크

  • 정형, 반정형, 비정형 데이터를 비롯한 모든 가공되지 않은 다양한 종류의데이터를 저장할 수 있는 시스템 또는 중앙 집중식 데이터 저장소

 

빅데이터 저장기술 - 분산파일시스템

  • 분산된 서버에 파일을 저장하고 저장된 데이터를 빠르게 처리할 수 있게 만든 시스템
  • 데이터베이스를 분산 저장한다.
  • x86서버의 CPU,RAM등을 사용하므로 장비 증가에 따른 성능향상에 용이하다.
  • 네트워크를 통한 여러 파일을 관리 및 저장하는 개념이다.

 

 GFS(구글파일시스템) 

  • 구글의 대규모 클러스터 서비스 플랫폼의 기반이 되는 파일 시스템
  • 구성 : client, master, chunk server
  • 청크 : 구글파일시스템에서 파일을 나누는 조각 한 단위 1개의 청크는 64MB고정된 크기로 분할 저장
  • 마스터 : 단일마스터, 파일 메타정보 저장, 하트비스 메시지로 청크서버와 연결
  • 청크서버 : 청크저장, 청크파일처리, 하트비트메시지를 마스터에게 전달
  • 클라이언트 : 마스터에 청크인덱스 요청, 청크읽기/쓰기

 

HDFS(하둡파일시스템) 

  • 대용량 파일을 분산된 서버에 저장하고, 저장된 데이터를 빠르게 처리할 수 있게 하는 하둡 분산 파일 시스템
  • 장애복구, 스트리밍 방식의 데이터 접근, 대용량 데이터 저장, 데이터 무결성
  • 구성 : 네임노드, 보조네임 노드, 데이터 노드
  • NameNode : 메타데이터 관리, DataNode 모니터링, block 관리, client 요청 접수
  • 데이터를 복제해서 여러 서버에 저장하며 복제횟수는 기본 3번이고 복제 횟수 설정가능
  • GFS와 유사한 소스코드임

 

러스터

  • 클러스터 파일 시스템에서 개발한 객체 기반의클러스터 파일 시스템이다.
  • 고속 네트워크로 연결된 클라이언트 파일 시스템, 메타데이터 서버, 객체 저장 서버들로 구성된다.
  • 계층화된 모듈 구조로 TCP/IP, 인피니밴드 같은 네트워크를 지원한다.

 

빅데이터 저장기술 - 데이터베이스 클러스터

  • 하나의 데이터 베이스를 여러개의 서버상에 분산하여 구축하는 것
  • 성능과 가용성의 향상을 위해 데이터베이스 파티셔닝 또는 클러스터링을 이용한다.
  • 데이터베이스 시스템을 구성하는 형태에 따라 단일 서버 파티셔닝과 다중 서버 파티셔닝으로 구분한다.

 

빅데이터 저장기술 - NoSQL

NoSQL 

  • NoSQL은 전통적인 RDBMS와 다른 DBMS를 지칭하기 위한 용어로 데이터 저장에 고정된 테이블 스키마가 필요하지 않고 조인 연산을 사용할 수 없으며, 수평적으로 확장이 가능한 DBMS이다.
  • NoSQL은 관계형 모델을 사용하지 않는 데이터 저장소 또는 인터페이스이며, 대규모 데이터를 처리하기 위한 기술로 확장성, 가용성, 높은 성능을 제공한다.
  • 스키마-리스로 고정된 스키마 없이 자유롭게 데이터베이스의 레코드에 필드를 추가할 수 있다.

 

⭐ NoSQL의 특성(BASE)

  • Basically Available(사용가능한)  : 언제든지 데이터는 접근할 수 있어야 하는 속성
  • Soft state(소프트 상태) : 일관성이 없는 상태에서 data읽기 가능. 현시점 최신상태 읽음
  • Eventually Consistentcy(궁극적 일관성): 일시적으로 일관성이 깨질수 있다.(네트워크 문제, 시스템 부하)

 

NoSQL 유형

  • Key-Value Store : Unique한 Key에 하나의 Value를 가지고 있는 형태
  • Column Family Data Store : Key안에 (Column, Value) 조합으로 된 여러 개의 필드를 갖는 DB테이블 기반, 조인 미지원, 컬럼 기반, 구글의 BigTable 기반으로 구현
  • Document Store : Value의 데이터 타입이 Doucument라는 타입을 사용하는 DB
  • Graph Store : 시멘틱 웹과 온톨로지 분야에서 활용되는 그래프로 데이터를 표현하는 DB

 

⭐ CAP 이론 

  • 분산 컴퓨팅 환경은 Consistency, Availability, Partition Tolerance 3가지 특징을 가지고 있다. 
  • NoSQL은 CAP 이론을 기반으로 하고 있다.
  • 일관성 : 모든 사용자에게 같은 시간에는 같은 데이터를 보여주어야 한다는 특성
  • 유효성 : 하나의 노드에 장애가 일어나더라도 다른 노드에는 영향을 미치면 안 되는 특성
  • 분산 가능 : 네트워크 전송 중 데이터 손실 상황이 생겨도 시스템은 정상적으로 동작해야 한다는 특성

 

⭐NoSQL 제품 종류

  • MongoDB
  • Cassandra
  • 구글빅테이블
  • Hbase
  • 아마존SimpleDB
  • 마이크로소프트SSDS

 

데이터 저장기술 기출문제

Q. HDFS에 대한 설명으로 옳은 것은?

① 복제의 횟수는 내부에서 결정된다.

② ETL, NTFA가 상위 프로그램이다.

③ GFS와 동일한 소스코드를 사용한다.

④ 네임노드는 저장공간에 네임노드 데이터를 같이 저장한다.

더보기

③ GFS와 동일한 소스코드를 사용한다.

 

Q. 분산 파일 시스템에 대한 설명으로 옳은 것은?

① 데이터베이스를 분산 저장한다.

② x86 서버의 CPU, RAM 등을 사용하므로 장비 증가에 따른 성능향상에 용이하다.

③ 여러 컴퓨터를 하나의 서버 환경에 저장한다.

④ 네트워크를 통한 여러 파일을 관리 및 저장하는 개념이다.

더보기

③ 여러 컴퓨터를 하나의 서버 환경에 저장한다.

 

Q. 다음 중 데이터 저장소가 아닌것은 무엇인가?

① 데이터 웨어하우스

② 데이터 레이크

③ 데이터 마이닝

④ 데이터 댐

더보기

③ 데이터 마이닝

 

Q. 다음 중 빅데이터 저장기술로 옳은 것은 무엇인가?

① 맵리듀스

② 직렬화

③ 가시화

④ NoSQL

더보기

④ NoSQL

 

반응형