728x90
반응형
비정형 데이터
- 비정형 데이터는 스키만 구조 형태를 가지지 않고 고정된 필드에 저장되지 않는 데이터이며 텍스트, 이미지, 오디오, 비디오 등이 있다.
- 텍스트 : 문자/문자열 형태로 저장
- 이미지 : RGB 방식으로 저장
- 오디오 : 시간에 따른 진폭 형태로 저장
- 비디오 : 이미지 스트리밍으로 저장
비정형 데이터 분석
- 비정형 데이터 안에서 체계적인 통계적 규칙이나 패턴을 탐색하고 이를 의미 있는 정보로 변환함으로써 기업의 의사결정에 적용하는 분석 기법이다.
- 대표적인 비정형 데이터 분석 기법으로 텍스트 마이닝, 오피니언 마이닝, 웹 마이닝, 사회 연결망 분석이 있다.
① 텍스트 마이닝
- 텍스트 마이닝은 텍스트 형태로 이루어진 비정형 데이터들을 자연어 처리 방식을 이용해 정보를 추출하는 기법이다.
- 텍스트 마이닝의 기능으로 정보 추출, 문서 요약, 문서 분류, 문서 군집화 등이 있다.
텍스트 수집
- 데이터 베이스, 텍스트 기반 문서 등이 수집 대상
데이터 전처리
- 문서 내 표현된 단어, 구, 절에 해당하는 내용을 가공할 수 있는 데이터로 변환하는 작업
- 크롤링 등으로 데이터 추출 후 HTML 태그나 XML 문법을 제거하는 작업(Text 레벨 전처리)
- 마침표, 문자 부호를 사용하여 문장 구분하는 작업 수행(Sentence 레벨 전처리)
- Tokenizing/Parsing : 텍스트의 단어, 어절을 분리하는 작업
- Filtering : 불용어(Stopword)처리, 의미 없는 단어 제거
- 어간(Stemming) 추출 : 단어들에서 공통 음절을 뽑아내는 작업
- POS tagging : 나눠진 토큰에 품사를 tagging하는 작업
- N-gram : 텍스트 문맥 파알을 위해서 단어 단위로 끊어서 판별하는 기법
의미 추출
- 복잡한 의미 정보의 표현을 단순화
- 도메인에 적합한 정보를 문서의 의미 데이터로 저장
패턴 분석
- 의미 데이터를 기반으로 문서를 자동으로 군집화 및 분류
정보 생성
- 시간화 도구를 통해 효과적으로 정보를 표현
② 오피니언 마이닝
- 오피니언 마이닝은 주관적인 의견이 포함된 데이터에서 사용자가 게재한 의견과 감정을 나타내는 패턴을 분석하는 기법이다.
- 사람들이 특정 제품 및 서비스를 좋아하거나 싫어하는 이유를 분석하여 여론이 실시간으로 어떻게 변하는지 확인한다.
- 오피니언 마이닝의 절차로는 특징 추출, 문장 인식, 요약 및 전달 단계를 거친다.
특징 추출
- 긍정 및 부정을 표현하는 단어 정보를 추출
문장 인식
- 세부 평가 요소와 오피니언으로 구성된 문장을 인식
- 규칙 기반 방법, 통계기반 방법을 활용
요약 및 전달
- 긍정, 부정 표현의 통계, 주요 문장을 추출하여 요약 생성
- 오피니언 정보를 요약하고 사용자에게 전달
③ 웹 마이닝
- 웹 마이닝은 데이터 마이닝 기법을 활용하여 웹상의 문서들과 서비스들로부터 정보를 자동으로 추출, 발견하는 기법이다.
- 정보 단위인 '노드'와 연결점인 '링크'를 활용한다.
- 웹 마이닝의 유형으로는 웹 내용 마이닝, 웹 사용 마이닝, 웹 구조 마이닝 등이 있다.
웹 내용 마이닝
- 웹 사이트를 구성하는 페이지의 내용 중에서 유용한 정보를 추출
- 텍스트, 이미지, 사운드 등
웹 사용 마이닝
- 웹로그를 통해 사용자의 행위 패턴을 분석하여 의미 있는 정보 추출
- 사용자 프로파일, 페이지 접근 패턴 등
웹 구조 마이닝
- 웹사이트의 구조적인 요약 정보를 찾기 위한 기법
- 하이퍼링크를 통한 그래프의 구조적인 정보 이용
- 웹 페이지, 하이퍼링크 등
④ 사회 연결망 분석
- SNA는 개인과 집단 간의 관계를 노드와 링크로 그룹에 속한 사람들 간의 네트워크 특성과 구조를 분석하고 시각화하는 분석 기법이다.
- 사회 연결망 분석 절차로는 데이터 수집, 데이터 분석, 데이터 시각화 단계를 거친다.
데이터 수집
- 소셜 네트워크 서비스에서 데이터를 수집
- 웹 크롤러, NodeXL 등을 활용
데이터 분석
- 수집된 데이터를 바탕으로 분석 수행
- R, Python, NodeXL 등을 활용
데이터 시각화
- 분석을 마친 데이터를 파악하기 위한 시각화 수행
- 분석 방향과 필요 정보에 따라 최종 시각화 시행
⭐ 사회 연결망 분석 주요 속성
- 응집력
- 구조적
- 등위 성
- 명성
- 범위 중계
⭐ 사회 연결망 분석 측정지표
- 연결 정보
- 포괄성
- 밀도
- 연결 정도 중심성
- 근접 중심성
- 매개 중심성
- 위세 중심성(Eigenvector Centrality)
비정형 데이터 분석 기출문제
Q. 비정형 데이터에 대한 설명으로 옳지 않은 것은? [2회차]
① 텍스트는 문자 데이터로 저장한다.
② 오디오는 CMYK형태로 저장한다.
③ 이미지는 RGB 방식으로 저장한다.
④ 비디오는 이미지 스트리밍으로 저장한다.
더보기
② 오디오는 CMYK형태로 저장한다.
Q. 사회관계망 문제에서 네트워크 중심성의 분석 지표가 아닌 것은 무엇인가? [3회차]
① 연결 중심성
② 매개 중심성
③ 관계 중심성
④ 아이겐벡터 중심성
더보기
③ 관계 중심성
Q. 비정형 텍스트 데이터 전처리 기법이 아닌 것은? [4회차]
① Tokenizing
② API 이용
③ POS tagging
④ Stemming
더보기
② API 이용
다음 글 보러 가기
- 앙상블 분석 개념 및 기출문제
728x90
반응형
'자격증 > 빅데이터분석기사' 카테고리의 다른 글
[빅데이터분석기사 필기] 비모수 통계 개념 및 기출문제 (2) | 2022.09.28 |
---|---|
[빅데이터분석기사 필기] 앙상블 분석 개념 및 기출문제 (2) | 2022.09.28 |
[빅데이터분석기사 필기] 시계열분석 개념 및 기출문제 (0) | 2022.09.27 |
[빅데이터분석기사 필기] 주성분분석(PCA) 개념 및 기출문제 (1) | 2022.09.27 |
[빅데이터 분석기사 필기] 3과목 빅데이터모델링 요점정리 ② (1) | 2022.09.27 |