자격증/빅데이터분석기사

[빅데이터분석기사 필기] 데이터 수집 개념 및 기출문제

j9m 2022. 9. 29. 09:52
728x90
반응형

데이터 수집

  • 수집 데이터 대상은 데이터의 위치에 따라 내부 데이터와 외부 데이터로 구분한다.

 

데이터 수집 방식 및 기술

  • 수집 대상 데이터는 데이터의 구조적 관점에 따라 정형 데이터, 비정형 데이터, 반정형 데이터로 나눌 수 있다.
  • 구조적 관점에 따라 분류된 데이터 유형에 따라 각각 데이터 수집 방식과 기술을 최적화하여 적용해야한다.

 

ETL 

  • ETL은 데이터 분석을 위한 데이터를 데이터 저장소인 DW 및 DM으로 이동시키기 위해 다양한 소스 시스템으로부터 필요한 원본 데이터를 추출하고 변환하여 적재하는 작업 및 기술이다.
  • 추출 ➡️ 변환 ➡️ 적재

 

FTP

  • FTP는 TCM/IP 프로토콜을 기반으로 서버, 클라이언트 사이에서 파일 송수신을 하기 위한 프로토콜이다,
  • Atctive FTP : 클라이언트가 데이터를 수신받을 포트를 서버에 알려주면, 서버가 자신의 20번 포트를 통해 클라이언트의 임의의 포트로데이터를 전송해 주는 방식
  • Passive: FTP : 서버가 데이터를 송신해줄 임의의 포트를 클라이언트에 알려주면 클라이언트가 서버의 임의의 포트로 접속해서 데이터를 가져가는 방식

 

 Sqoop(스쿱)

  • 대용량 데이터 전송 솔루션.
  • 커넥터를 사용하여 HDFS, RDBMS, DW, NoSQL등 다양한 저장소와 하둡 간 데이터 전송 기능을 제공하는 기술이다..
  • 벌크 임포트 지원, 데이터 전송 병렬화, 직접 입력 제공, 프로그래핑 방식의 데이터 인터랙션

 

Scrapy(스크래파이)

  • 웹사이트를 크롤링하고 구조화된 데이터를 수집하는 파이썬 기반의 애플리케이션 프레임워크로서 데이터 마이닝, 정보처리, 이력 기록 같은 다양한 애플리케이션에 사용되는 수집 기술이다.

 

 Apach Kafka

  • 대용량 실시간 로그 처리를 위한 분산 스트리밍 플랫폼이다.
  • 소스, 채널, 싱크, 인터프리터

 

Flume(플럼)

  • 많은 양의 로그데이터를 효율적으로 수집, 집계 및 이동하기 위해 이벤트와 에이전트를 활용하고, 스트리밍 데이터흐름을 비동기 방식으로 처리하는 분산형 로그 수집 기술이다.
  • 발행 / 구독 모델, 고가용성 제공, 파일 기반 저장방식
  • 데이터를 디스크에 순차적으로 저장한다.
  • 소스, 채널, 싱크

 

Scribe

  • 다수의 서버로부터 실시간으로 스트리밍되는 로그 데이터를 수집하여 분산 시스템에 데이터를 저장하는 대용량 실시간 로그 수집 기술이다.
  • 단일 중앙 스크라이브 서버와 다수의 로컬 스크라이브 서버로 구성되어 안정성과 확장성을 제공한다.
  • 실시간 스트리밍 수집, 확장성, 데이터 수집 다양성, 고가용성
  • 페이스북에서 개발한 데이터 수집 플랫폼이며, Chukwa와는 다르게 데이터를 중앙 집중 서버로 전송하는 방식이다.
  • 최종 데이터는 HDFS외에 다양한 저장소를 활용할 수 있으며, 설치와 구성이 쉽게 다양한 프로그램 언어를 지원함.
  • HDFS에 저장하기 위해서는 JNI(Java Native Interface)를 이용해야 한다.

 

Chukwa(척와)

  • 분산 시스템으로부터 데이터를 수집, 하둡 파일 시스템에 저장, 실시간 분석 기능을 제공한다.
  • 에이전트와 컬렉터로 구성되어 있다.
  • 데이터 처리 방식에는 아키아빙과 디먹스가 있다.

 

CEP 

  • CEP는 여러 이벤트 소스로부터 발생한 이벤트를 실시간으로 추출하여 대응되는 액션을 수행하는 처리 기술이다.
  • CEP를 통해 실시간 상황에서 의미 있는 이벤트를 파악하고 가능한 빨리 대응할 수 있다.

 

EAI

  • 기업에서 운영되는 서로 다른 플랫폼 및 애플리케이션들 간의 정보 전달, 연계, 통합을 가능하게 해주는 연계 기술이다.
  • EAI를 사용함으로써 각 비즈니스 간 통합 및 연계성을 증대시켜 효율성을 높여 줄 수 있으며 각 시스템 간의의 확장성을 높여 줄 수 있다.

 

 CDC

  • CDC는 데이터 백업이나 통합 작업을 할 경우 최근 변경된 데이터들을 대상으로 다른 시스템으로 이동하는 처리 기술
  • 실시간 백업과 데이터 통합이 가능하여 24시간 운영해야 하는 업무 시스템에 활용된다.

 

 ODS 

  • 데이터에 대한 추가 작엽을 위해 다양한 데이터 원천들로부터 데이터를 추출 및 통합한 데이터 베이스이다.
  • ODS 내 데이터는 비즈니스 지원을 위해 타 시스템으로 이관되거나, 보고서 생성을 위해 데이터 웨어하우스로 이관된다.

 

Crawling(크롤링)

  • 크롤링은 인터넷상에서 제공되는 다양한 웹 사이트로부터 소셜 네트워크 정보, 뉴스, 게시판 등의 웹문서 및 콘텐츠 수집 기술이다.

 

 RSS

  • RSS는 블로그, 뉴스, 쇼핑몰 등의 웹 사이트에 게시된 새로운 글을 공유하기 위해 XML 기반으로 정보를 배포하는 프로토콜을 활용하여 데이터를 수집하는기술이다.

 

Open API

  • Open API는 응용 프로그램을 통해 실시간으로 데이터를 수신할 수 있도록 공개된 API를 이용하여 데이터를 수집하는 기술이다.
  • Open API를 통해 센서 데이터, 공공 데이터 등의 정보를 수집할 수 있다.
  • API 게이트웨이 : 시스템의 전방에 위치하여 클라이언트로부터 다양한 서비스를 처리하고 내부시스템으로 전달하는 미들웨어이다.

 

Streaming(스트리밍)

  • 스트리밍은 네트워크를 통해 오디오, 비디오 등의 미디어 데이터를 실시간으로 수집하는 기술이다.

 

데이터 수집 기출문제

Q. 다음 중 데이터 수집 방법으로 가장 적절하지 않은 것은? [2회차]

① Open API로 센서 데이터를 수집한다.

② FTP를 통해 문서를 수집한다.

③ 동영상 데이터는 스트리밍(Streaming)을 통해 수집한다.

④ DBMS로부터 크롤링한다.

더보기

④ DBMS로부터 크롤링한다.

 

Q. 다음 중 수집 대상 데이터를 추출, 가공하여 데이터 웨어하우스 및 데이터 마트에 저장하는 기술은 무엇인가? [2회차]

① ETL

② CEP

③ EAI

④ ODS

더보기

① ETL

 

728x90
반응형