자격증/빅데이터분석기사

[빅데이터분석기사 필기] 데이터 저장기술 종류와 기출문제

j9m 2022. 9. 29. 10:21

728x90

데이터 저장기술

① 데이터 웨어하우스

사용자의 의사결정에 도움을 주기 위하여 기간 시스템의 데이터베이스에 축적된 데이터를 공통 형식으로 변환해서 관리하는 데이터베이스
주제 지향적, 통합적, 시계열적, 비휘발적

② 데이터마트

전사적으로 구축된 데이터 속의 특정 주제, 부서 중심으로 구축된 소규모 단위 주제의 데이터 웨어하우스

③ 데이터 레이크

정형, 반정형, 비정형 데이터를 비롯한 모든 가공되지 않은 다양한 종류의데이터를 저장할 수 있는 시스템 또는 중앙 집중식 데이터 저장소

빅데이터 저장기술 - 분산파일시스템

분산된 서버에 파일을 저장하고 저장된 데이터를 빠르게 처리할 수 있게 만든 시스템
데이터베이스를 분산 저장한다.
x86서버의 CPU,RAM등을 사용하므로 장비 증가에 따른 성능향상에 용이하다.
네트워크를 통한 여러 파일을 관리 및 저장하는 개념이다.

① GFS(구글파일시스템)

구글의 대규모 클러스터 서비스 플랫폼의 기반이 되는 파일 시스템
구성 : client, master, chunk server
청크 : 구글파일시스템에서 파일을 나누는 조각 한 단위 1개의 청크는 64MB고정된 크기로 분할 저장
마스터 : 단일마스터, 파일 메타정보 저장, 하트비스 메시지로 청크서버와 연결
청크서버 : 청크저장, 청크파일처리, 하트비트메시지를 마스터에게 전달
클라이언트 : 마스터에 청크인덱스 요청, 청크읽기/쓰기

② HDFS(하둡파일시스템)

대용량 파일을 분산된 서버에 저장하고, 저장된 데이터를 빠르게 처리할 수 있게 하는 하둡 분산 파일 시스템
장애복구, 스트리밍 방식의 데이터 접근, 대용량 데이터 저장, 데이터 무결성
구성 : 네임노드, 보조네임 노드, 데이터 노드
NameNode : 메타데이터 관리, DataNode 모니터링, block 관리, client 요청 접수
데이터를 복제해서 여러 서버에 저장하며 복제횟수는 기본 3번이고 복제 횟수 설정가능
GFS와 유사한 소스코드임

③ 러스터

클러스터 파일 시스템에서 개발한 객체 기반의클러스터 파일 시스템이다.
고속 네트워크로 연결된 클라이언트 파일 시스템, 메타데이터 서버, 객체 저장 서버들로 구성된다.
계층화된 모듈 구조로 TCP/IP, 인피니밴드 같은 네트워크를 지원한다.

빅데이터 저장기술 - 데이터베이스 클러스터

하나의 데이터 베이스를 여러개의 서버상에 분산하여 구축하는 것
성능과 가용성의 향상을 위해 데이터베이스 파티셔닝 또는 클러스터링을 이용한다.
데이터베이스 시스템을 구성하는 형태에 따라 단일 서버 파티셔닝과 다중 서버 파티셔닝으로 구분한다.

빅데이터 저장기술 - NoSQL

① NoSQL

NoSQL은 전통적인 RDBMS와 다른 DBMS를 지칭하기 위한 용어로 데이터 저장에 고정된 테이블 스키마가 필요하지 않고 조인 연산을 사용할 수 없으며, 수평적으로 확장이 가능한 DBMS이다.
NoSQL은 관계형 모델을 사용하지 않는 데이터 저장소 또는 인터페이스이며, 대규모 데이터를 처리하기 위한 기술로 확장성, 가용성, 높은 성능을 제공한다.
스키마-리스로 고정된 스키마 없이 자유롭게 데이터베이스의 레코드에 필드를 추가할 수 있다.

⭐ NoSQL의 특성(BASE)

Basically Available(사용가능한) : 언제든지 데이터는 접근할 수 있어야 하는 속성
Soft state(소프트 상태) : 일관성이 없는 상태에서 data읽기 가능. 현시점 최신상태 읽음
Eventually Consistentcy(궁극적 일관성): 일시적으로 일관성이 깨질수 있다.(네트워크 문제, 시스템 부하)

⭐ NoSQL 유형

Key-Value Store : Unique한 Key에 하나의 Value를 가지고 있는 형태
Column Family Data Store : Key안에 (Column, Value) 조합으로 된 여러 개의 필드를 갖는 DB테이블 기반, 조인 미지원, 컬럼 기반, 구글의 BigTable 기반으로 구현
Document Store : Value의 데이터 타입이 Doucument라는 타입을 사용하는 DB
Graph Store : 시멘틱 웹과 온톨로지 분야에서 활용되는 그래프로 데이터를 표현하는 DB

⭐ CAP 이론

분산 컴퓨팅 환경은 Consistency, Availability, Partition Tolerance 3가지 특징을 가지고 있다.
NoSQL은 CAP 이론을 기반으로 하고 있다.
일관성 : 모든 사용자에게 같은 시간에는 같은 데이터를 보여주어야 한다는 특성
유효성 : 하나의 노드에 장애가 일어나더라도 다른 노드에는 영향을 미치면 안 되는 특성
분산 가능 : 네트워크 전송 중 데이터 손실 상황이 생겨도 시스템은 정상적으로 동작해야 한다는 특성

⭐NoSQL 제품 종류

MongoDB
Cassandra
구글빅테이블
Hbase
아마존SimpleDB
마이크로소프트SSDS

데이터 저장기술 기출문제

Q. HDFS에 대한 설명으로 옳은 것은?

① 복제의 횟수는 내부에서 결정된다.

② ETL, NTFA가 상위 프로그램이다.

③ GFS와 동일한 소스코드를 사용한다.

④ 네임노드는 저장공간에 네임노드 데이터를 같이 저장한다.

③ GFS와 동일한 소스코드를 사용한다.

Q. 분산 파일 시스템에 대한 설명으로 옳은 것은?

① 데이터베이스를 분산 저장한다.

② x86 서버의 CPU, RAM 등을 사용하므로 장비 증가에 따른 성능향상에 용이하다.

③ 여러 컴퓨터를 하나의 서버 환경에 저장한다.

④ 네트워크를 통한 여러 파일을 관리 및 저장하는 개념이다.

③ 여러 컴퓨터를 하나의 서버 환경에 저장한다.

Q. 다음 중 데이터 저장소가 아닌것은 무엇인가?

① 데이터 웨어하우스

② 데이터 레이크

③ 데이터 마이닝

④ 데이터 댐

③ 데이터 마이닝

Q. 다음 중 빅데이터 저장기술로 옳은 것은 무엇인가?

① 맵리듀스

② 직렬화

③ 가시화

④ NoSQL

④ NoSQL

728x90

'자격증 > 빅데이터분석기사' 카테고리의 다른 글

[빅데이터분석기사 필기] 2021년 2회차 기출문제 (2)	2022.09.30
[빅데이터분석기사 필기] 하둡 에코시스템의 다양한 기술과 기출문제 (1)	2022.09.30
[빅데이터분석기사 필기] 데이터 수집 개념 및 기출문제 (0)	2022.09.29
빅데이터분석기사 필기 - 데이터 시각화 종류와 기출문제 (3)	2022.09.29
[빅데이터분석기사 필기] 매개변수 최적화 개념 및 기출문제 (0)	2022.09.29

현재글[빅데이터분석기사 필기] 데이터 저장기술 종류와 기출문제

Ministory

[빅데이터분석기사 필기] 데이터 저장기술 종류와 기출문제

데이터 저장기술

① 데이터 웨어하우스

② 데이터마트

③ 데이터 레이크

빅데이터 저장기술 - 분산파일시스템

① GFS(구글파일시스템)

② HDFS(하둡파일시스템)

③ 러스터

빅데이터 저장기술 - 데이터베이스 클러스터

빅데이터 저장기술 - NoSQL

① NoSQL

데이터 저장기술 기출문제

'자격증 > 빅데이터분석기사' 카테고리의 다른 글

'자격증/빅데이터분석기사'의 다른글

티스토리툴바

[빅데이터분석기사 필기] 데이터 저장기술 종류와 기출문제

데이터 저장기술

① 데이터 웨어하우스

② 데이터마트

③ 데이터 레이크

빅데이터 저장기술 - 분산파일시스템

① GFS(구글파일시스템)

② HDFS(하둡파일시스템)

③ 러스터

빅데이터 저장기술 - 데이터베이스 클러스터

빅데이터 저장기술 - NoSQL

① NoSQL

데이터 저장기술 기출문제

'자격증 > 빅데이터분석기사' 카테고리의 다른 글

'자격증/빅데이터분석기사'의 다른글

관련글

티스토리툴바