728x90
반응형
데이터 수집
- 수집 데이터 대상은 데이터의 위치에 따라 내부 데이터와 외부 데이터로 구분한다.
데이터 수집 방식 및 기술
- 수집 대상 데이터는 데이터의 구조적 관점에 따라 정형 데이터, 비정형 데이터, 반정형 데이터로 나눌 수 있다.
- 구조적 관점에 따라 분류된 데이터 유형에 따라 각각 데이터 수집 방식과 기술을 최적화하여 적용해야한다.
① ETL
- ETL은 데이터 분석을 위한 데이터를 데이터 저장소인 DW 및 DM으로 이동시키기 위해 다양한 소스 시스템으로부터 필요한 원본 데이터를 추출하고 변환하여 적재하는 작업 및 기술이다.
- 추출 ➡️ 변환 ➡️ 적재
② FTP
- FTP는 TCM/IP 프로토콜을 기반으로 서버, 클라이언트 사이에서 파일 송수신을 하기 위한 프로토콜이다,
- Atctive FTP : 클라이언트가 데이터를 수신받을 포트를 서버에 알려주면, 서버가 자신의 20번 포트를 통해 클라이언트의 임의의 포트로데이터를 전송해 주는 방식
- Passive: FTP : 서버가 데이터를 송신해줄 임의의 포트를 클라이언트에 알려주면 클라이언트가 서버의 임의의 포트로 접속해서 데이터를 가져가는 방식
③ Sqoop(스쿱)
- 대용량 데이터 전송 솔루션.
- 커넥터를 사용하여 HDFS, RDBMS, DW, NoSQL등 다양한 저장소와 하둡 간 데이터 전송 기능을 제공하는 기술이다..
- 벌크 임포트 지원, 데이터 전송 병렬화, 직접 입력 제공, 프로그래핑 방식의 데이터 인터랙션
④ Scrapy(스크래파이)
- 웹사이트를 크롤링하고 구조화된 데이터를 수집하는 파이썬 기반의 애플리케이션 프레임워크로서 데이터 마이닝, 정보처리, 이력 기록 같은 다양한 애플리케이션에 사용되는 수집 기술이다.
⑤ Apach Kafka
- 대용량 실시간 로그 처리를 위한 분산 스트리밍 플랫폼이다.
- 소스, 채널, 싱크, 인터프리터
⑥ Flume(플럼)
- 많은 양의 로그데이터를 효율적으로 수집, 집계 및 이동하기 위해 이벤트와 에이전트를 활용하고, 스트리밍 데이터흐름을 비동기 방식으로 처리하는 분산형 로그 수집 기술이다.
- 발행 / 구독 모델, 고가용성 제공, 파일 기반 저장방식
- 데이터를 디스크에 순차적으로 저장한다.
- 소스, 채널, 싱크
⑦ Scribe
- 다수의 서버로부터 실시간으로 스트리밍되는 로그 데이터를 수집하여 분산 시스템에 데이터를 저장하는 대용량 실시간 로그 수집 기술이다.
- 단일 중앙 스크라이브 서버와 다수의 로컬 스크라이브 서버로 구성되어 안정성과 확장성을 제공한다.
- 실시간 스트리밍 수집, 확장성, 데이터 수집 다양성, 고가용성
- 페이스북에서 개발한 데이터 수집 플랫폼이며, Chukwa와는 다르게 데이터를 중앙 집중 서버로 전송하는 방식이다.
- 최종 데이터는 HDFS외에 다양한 저장소를 활용할 수 있으며, 설치와 구성이 쉽게 다양한 프로그램 언어를 지원함.
- HDFS에 저장하기 위해서는 JNI(Java Native Interface)를 이용해야 한다.
⑧ Chukwa(척와)
- 분산 시스템으로부터 데이터를 수집, 하둡 파일 시스템에 저장, 실시간 분석 기능을 제공한다.
- 에이전트와 컬렉터로 구성되어 있다.
- 데이터 처리 방식에는 아키아빙과 디먹스가 있다.
⑨ CEP
- CEP는 여러 이벤트 소스로부터 발생한 이벤트를 실시간으로 추출하여 대응되는 액션을 수행하는 처리 기술이다.
- CEP를 통해 실시간 상황에서 의미 있는 이벤트를 파악하고 가능한 빨리 대응할 수 있다.
⑩ EAI
- 기업에서 운영되는 서로 다른 플랫폼 및 애플리케이션들 간의 정보 전달, 연계, 통합을 가능하게 해주는 연계 기술이다.
- EAI를 사용함으로써 각 비즈니스 간 통합 및 연계성을 증대시켜 효율성을 높여 줄 수 있으며 각 시스템 간의의 확장성을 높여 줄 수 있다.
⑪ CDC
- CDC는 데이터 백업이나 통합 작업을 할 경우 최근 변경된 데이터들을 대상으로 다른 시스템으로 이동하는 처리 기술
- 실시간 백업과 데이터 통합이 가능하여 24시간 운영해야 하는 업무 시스템에 활용된다.
⑫ ODS
- 데이터에 대한 추가 작엽을 위해 다양한 데이터 원천들로부터 데이터를 추출 및 통합한 데이터 베이스이다.
- ODS 내 데이터는 비즈니스 지원을 위해 타 시스템으로 이관되거나, 보고서 생성을 위해 데이터 웨어하우스로 이관된다.
⑬ Crawling(크롤링)
- 크롤링은 인터넷상에서 제공되는 다양한 웹 사이트로부터 소셜 네트워크 정보, 뉴스, 게시판 등의 웹문서 및 콘텐츠 수집 기술이다.
⑭ RSS
- RSS는 블로그, 뉴스, 쇼핑몰 등의 웹 사이트에 게시된 새로운 글을 공유하기 위해 XML 기반으로 정보를 배포하는 프로토콜을 활용하여 데이터를 수집하는기술이다.
⑮ Open API
- Open API는 응용 프로그램을 통해 실시간으로 데이터를 수신할 수 있도록 공개된 API를 이용하여 데이터를 수집하는 기술이다.
- Open API를 통해 센서 데이터, 공공 데이터 등의 정보를 수집할 수 있다.
- API 게이트웨이 : 시스템의 전방에 위치하여 클라이언트로부터 다양한 서비스를 처리하고 내부시스템으로 전달하는 미들웨어이다.
⑯ Streaming(스트리밍)
- 스트리밍은 네트워크를 통해 오디오, 비디오 등의 미디어 데이터를 실시간으로 수집하는 기술이다.
데이터 수집 기출문제
Q. 다음 중 데이터 수집 방법으로 가장 적절하지 않은 것은? [2회차]
① Open API로 센서 데이터를 수집한다.
② FTP를 통해 문서를 수집한다.
③ 동영상 데이터는 스트리밍(Streaming)을 통해 수집한다.
④ DBMS로부터 크롤링한다.
더보기
④ DBMS로부터 크롤링한다.
Q. 다음 중 수집 대상 데이터를 추출, 가공하여 데이터 웨어하우스 및 데이터 마트에 저장하는 기술은 무엇인가? [2회차]
① ETL
② CEP
③ EAI
④ ODS
더보기
① ETL
728x90
반응형
'자격증 > 빅데이터분석기사' 카테고리의 다른 글
[빅데이터분석기사 필기] 하둡 에코시스템의 다양한 기술과 기출문제 (1) | 2022.09.30 |
---|---|
[빅데이터분석기사 필기] 데이터 저장기술 종류와 기출문제 (0) | 2022.09.29 |
빅데이터분석기사 필기 - 데이터 시각화 종류와 기출문제 (3) | 2022.09.29 |
[빅데이터분석기사 필기] 매개변수 최적화 개념 및 기출문제 (0) | 2022.09.29 |
[빅데이터분석기사 필기] 과대 적합 개념 및 기출문제 (0) | 2022.09.29 |