자격증/빅데이터분석기사

[빅데이터분석기사 필기] 비정형 데이터 분석 개념 및 기출문제

j9m 2022. 9. 27. 23:38
반응형

비정형 데이터

  • 비정형 데이터는 스키만 구조 형태를 가지지 않고 고정된 필드에 저장되지 않는 데이터이며 텍스트, 이미지, 오디오, 비디오 등이 있다.
  • 텍스트 : 문자/문자열 형태로 저장
  • 이미지 : RGB 방식으로 저장
  • 오디오 : 시간에 따른 진폭 형태로 저장
  • 비디오 : 이미지 스트리밍으로 저장 

 

비정형 데이터 분석

  • 비정형 데이터 안에서 체계적인 통계적 규칙이나 패턴을 탐색하고 이를 의미 있는 정보로 변환함으로써 기업의 의사결정에 적용하는 분석 기법이다.
  • 대표적인 비정형 데이터 분석 기법으로 텍스트 마이닝, 오피니언 마이닝, 웹 마이닝, 사회 연결망 분석이 있다.

 

텍스트 마이닝

  • 텍스트 마이닝은 텍스트 형태로 이루어진 비정형 데이터들을 자연어 처리 방식을 이용해 정보를 추출하는 기법이다.
  • 텍스트 마이닝의 기능으로 정보 추출, 문서 요약, 문서 분류, 문서 군집화 등이 있다.

텍스트 수집

  • 데이터 베이스, 텍스트 기반 문서 등이 수집 대상

데이터 전처리 

  • 문서 내 표현된 단어, 구, 절에 해당하는 내용을 가공할 수 있는 데이터로 변환하는 작업
  • 크롤링 등으로 데이터 추출 후 HTML 태그나 XML 문법을 제거하는 작업(Text 레벨 전처리)
  • 마침표, 문자 부호를 사용하여 문장 구분하는 작업 수행(Sentence 레벨 전처리)
  • Tokenizing/Parsing : 텍스트의 단어, 어절을 분리하는 작업
  • Filtering : 불용어(Stopword)처리, 의미 없는 단어 제거
  • 어간(Stemming) 추출 : 단어들에서 공통 음절을 뽑아내는 작업
  • POS tagging : 나눠진 토큰에 품사를 tagging하는 작업
  • N-gram : 텍스트 문맥 파알을 위해서 단어 단위로 끊어서 판별하는 기법

의미 추출

  • 복잡한 의미 정보의 표현을 단순화
  • 도메인에 적합한 정보를 문서의 의미 데이터로 저장

패턴 분석 

  • 의미 데이터를 기반으로 문서를 자동으로 군집화 및 분류

정보 생성

  • 시간화 도구를 통해 효과적으로 정보를 표현

 

 오피니언 마이닝

  • 오피니언 마이닝은 주관적인 의견이 포함된 데이터에서 사용자가 게재한 의견과 감정을 나타내는 패턴을 분석하는 기법이다.
  • 사람들이 특정 제품 및 서비스를 좋아하거나 싫어하는 이유를 분석하여 여론이 실시간으로 어떻게 변하는지 확인한다.
  • 오피니언 마이닝의 절차로는 특징 추출, 문장 인식, 요약 및 전달 단계를 거친다.

특징 추출

  • 긍정 및 부정을 표현하는 단어 정보를 추출

문장 인식

  • 세부 평가 요소와 오피니언으로 구성된 문장을 인식
  • 규칙 기반 방법, 통계기반 방법을 활용

요약 및 전달

  • 긍정, 부정 표현의 통계, 주요 문장을 추출하여 요약 생성
  • 오피니언 정보를 요약하고 사용자에게 전달

 

 웹 마이닝

  • 웹 마이닝은 데이터 마이닝 기법을 활용하여 웹상의 문서들과 서비스들로부터 정보를 자동으로 추출, 발견하는 기법이다.
  • 정보 단위인 '노드'와 연결점인 '링크'를 활용한다.
  • 웹 마이닝의 유형으로는 웹 내용 마이닝, 웹 사용 마이닝, 웹 구조 마이닝 등이 있다.

웹 내용 마이닝 

  • 웹 사이트를 구성하는 페이지의 내용 중에서 유용한 정보를 추출
  • 텍스트, 이미지, 사운드 등

웹 사용 마이닝

  • 웹로그를 통해 사용자의 행위 패턴을 분석하여 의미 있는 정보 추출
  • 사용자 프로파일, 페이지 접근 패턴 등

웹 구조 마이닝

  • 웹사이트의 구조적인 요약 정보를 찾기 위한 기법
  • 하이퍼링크를 통한 그래프의 구조적인 정보 이용
  • 웹 페이지, 하이퍼링크 등

 

 사회 연결망 분석

  • SNA는 개인과 집단 간의 관계를 노드와 링크로 그룹에 속한 사람들 간의 네트워크 특성과 구조를 분석하고 시각화하는 분석 기법이다.
  • 사회 연결망 분석 절차로는 데이터 수집, 데이터 분석, 데이터 시각화 단계를 거친다.

데이터 수집

  • 소셜 네트워크 서비스에서 데이터를 수집
  • 웹 크롤러, NodeXL 등을 활용

데이터 분석

  • 수집된 데이터를 바탕으로 분석 수행
  • R, Python, NodeXL 등을 활용

데이터 시각화

  • 분석을 마친 데이터를 파악하기 위한 시각화 수행
  • 분석 방향과 필요 정보에 따라 최종 시각화 시행

 

사회 연결망 분석 주요 속성

  • 응집력
  • 구조적
  • 등위 성
  • 명성
  • 범위 중계

 

⭐ 사회 연결망 분석 측정지표

  • 연결 정보 
  • 포괄성
  • 밀도
  • 연결 정도 중심성
  • 근접 중심성
  • 매개 중심성
  • 위세 중심성(Eigenvector Centrality)

비정형 데이터 분석 기출문제

Q. 비정형 데이터에 대한 설명으로 옳지 않은 것은? [2회차]

① 텍스트는 문자 데이터로 저장한다.

② 오디오는 CMYK형태로 저장한다.

③ 이미지는 RGB 방식으로 저장한다.

 비디오는 이미지 스트리밍으로 저장한다.

더보기

② 오디오는 CMYK형태로 저장한다.

 

Q. 사회관계망 문제에서 네트워크 중심성의 분석 지표가 아닌 것은 무엇인가? [3회차]

① 연결 중심성

② 매개 중심성

③ 관계 중심성

 아이겐벡터 중심성

더보기

③ 관계 중심성

 

Q. 비정형 텍스트 데이터 전처리 기법이 아닌 것은? [4회차]

① Tokenizing

② API 이용

③ POS tagging

 Stemming

더보기

②  API 이용

 

다음 글 보러 가기

  • 앙상블 분석 개념 및 기출문제
 

[빅데이터분석기사] 앙상블분석 개념 및 기출문제

이전글 보러가기 비정형데이터분석 개념 및 기출문제 [빅데이터분석기사] 비정형데이터분석 개념 및 기출문제 비정형 데이터란? 비정형 데이터는 스키만 구조 형태를 가지지 않고 고정된 필드

ohaengsa.tistory.com

 

반응형