데이터 시각화
- 데이터에 대한 이해를 돕기 위해 그림, 도형 등 그래픽 요소들을 이용해 데이터를 묘사하고 표현하는 과정이다.
- 선, 막대, 원 등의 기하나 도형과 같은 양식을 이용해 데이터의 특징을 설명할 수 있는 모양으로 만들어 내거나, 색상, 레이블 등 특성을 활용하여 데이터를 표현한다.
- 정보 전달, 설득의 목적으로 사용한다.
데이터 시각화 유형
① 시간 시각화
- 시간 시각화는 시간에 따른 데이터의 변화를 표현한 시각화 방법이다.
- 시계열 데이터에서 주요 관심 요소는 경향성으로 추세선과 산점도의 경우 시간의 흐름에 따른 추세를 알아볼 수 있다.
- 시간 시각화는 시간의 흐름에 따라 변하는 데이터를 표현하기 때문에 개별적인 데이터를 보기보다는 전체적인 흐름을 파악해야 한다.
- 시간 시각화의 유형으로 막대그래프, 누적 막대 그래프, 선 그래프, 영역 차트, 계단식 그래프, 추세선이 있다.
막대 그래프(Bar Chart) | 누적 막대 그래프 | 그룹 막대 그래프 |
시간에 따른 값의 변화를 보거나, 범주형 변수의 탐색에 주로 사용된다. | 막대를 사용하여 전체 비율을 보여주면서 여러 가지 범주를 동시에 차트로 표현가능하다. | 막대 그래프에서 X축에 두 범주에 대해 표시 |
선 차트(Line plot) | 영역 차트 | 누적 영역차트 |
수량을 점으로 표시하고, 점들을 선분으로 이어 그린 그래프 | 시간의 값에 따라 크기 변화를 보염 | 여러 그룹에 대한 숫자 변수의 변화를 표시한다. (분포시각화) |
② 공간 시각화
- 공간 시각화는 지도상에 해당하는 정보를 표현하는 시각화 방법이다.
- 지도 위에 위치를 표시하기 위해 대부분 위도와 경도를 사용한다.
- 공간 시각화의 유형으로 등치지역도, 등치선도, 도트 플롯맵, 버블 플롯맵, 카토그램 등이 있다.
코노플레스맵 | 버블맵 | 카토그램 |
지리적 단위로 데이터의 의미를 색상으로 구분하여 표시 | 수치화된 데이터값의 크기를 나타내는 서로 다른 크기의 원형으로 표시 | 지역의 값을 표현하기 위해 지리적 형상 크기를 조절. 재구성된 지도록 왜곡되고 삐뚤어진 화면으로 표기함. |
|
③ 분포시각화
- 분포 시각화는 데이터의 최댓값, 최솟값, 전체 분포 등을 나타내는 시각화 방법이다.
- 시계열 데이터와 비슷한 점이 있으나, 시계열 데이터와 다른 점은 구분 단위가 시간이 아니라 데이터가 차지하는 영역을 기준으로 삼는다.
- 분포 시각화의 유형으로는 파이 차트, 도넛 차트, 트리맵, 누적 영역 차트 등이 있다.
파이차트(Pie Chart) | 도넛 차트(Donut Chart) | 트리맵 차트(Tree Map Chart) |
원의 조각을 사용해 범주형 데이터의 범주별 기여도를 표시하는데 사용함 | 파이차트의 중앙에 구멍을 넣어 표현한 차트, 표현 내용은 파이 차트와 동일, 여러 범주 데이터에 대해서는 선버스트 차트 사용 | 계층 구조를 나타내며, 사각형의 크기 또는 면적을 사용해 구성을 나타냄 |
④ 관계 시각화
- 관계 시각화는 다변량 데이터 사이에 존재하는 변수 사이의 연관성, 분포와 패턴을 찾는 시각화 방법이다.
- 변수 사잉의 연관성인 상관관계는 한 가지 요소의 변화가 다른 요소의 변화와 관련이 있는지를 표현하는 시각화 기법이다.
- 관계 시각화의 유형으로 산점도, 산점도 행렬, 버블 차트, 히스토그램, 네트워크 그래프 등이 있다.
산점도 | 산점도 행렬 | 버블 차트(Bubble Chart) | |
두 개 수치형 변수의 상관 관계 확인 범주별로 색상, 모양 크기 등을 변경해 사용할 수 있음 |
여러 수치형 변수의 상관관계 알아보기 | 산점도에서 데이터값을 나타내는 점 또는 마크에 여러 가지 의미를 부여하여 확장된 차트 |
|
⑤ 비교 시각화
- 비교 시각화는 다변량 변수를 갖는 자료를 제한된 2차원에 효과적으로 표현하는 시각화 방법이다.
- 비교 시각화의 유형으로 플로팅 바 차트, 히트맵, 체르노프 페이스, 스타 차트, 평행 좌표 그래프 등이 있다.
체르노프 페이스(Chernoff Face) | 플로팅 바(Floating Bar) |
다차원 통계 데이터를 사람의 얼굴 이미지를 이용하여 표현하는 방법, 얼굴의 각 요소가 변수 표현에 사용됨 | 축에 연결되지 않고 최소/최대 값 사이에 하나 또는 여러 막대가 떠 있는 차트로 온도, 주가, 혈압 등의 범위 표시에 유용 |
평행차트(Parallel Chart) | 스타 차트(Star Chart) | 히트맵(Heatmap) |
여러 축을 평행으로 배치하는 기술 수직선엔 변수를 배치한다. 측정 대상은 변숫값에 따라 위아래로 이어지는 연결선으로 표현한다. |
중심점은 축이 나타내는 값의 최솟값, 가장 먼 끝점은 최댓값을 의미 설명변수가 늘어날 때마다 축이 늘어나는 시각화 방법 |
변수를 비교할 수 있는 시각화 그래프 칸 별로 색상을 구분하여 데이터값표현 |
⑥ 인포그래픽(Infographics, information + Graphics)
- 인포그래픽은 중요 정보를 하나의 그래픽으로 표현해서 보는 사람들이 쉽게 정보를 이해할 수 이도록 만드는 시각화 방법이다.
- 인포메이션(Information)과 시각적 그래프의 합성어이다.
- 쉽게 이해할 수 있도록 그래픽과 텍스트를 조합해 사용한다.
- 복잡하고 어려운 데이터를 더 쉽고 명확하게 이해할 수 있도록 그래픽과 텍스트를 균형 있게 조합한다.
- 정보를 SNS상에 십고 빠르게 전달할 수 있다.
데이터 시각화 기출문제
Q. 다음 중 산점도(Scatter Plot)와 같은 유형의 시각화 방법은 무엇인가? [2회차]
① 파이 차트
② 버블 차트
③ 히트맵
④ 트리맵
② 버블 차트
Q. 다음 중 비교 시각화의 유형으로, 설명 변수가 늘어날 때마다 축이 늘어나는 시각화 방법은 무엇인가 [2회차]
① 플로팅 바 차트
② 막대 차트
③ 스타 차트
④ 히트맵
③ 스타 차트
Q. 아래에서 설명하는 시각화 기법은 어떤 차트를 설명하고 있는가? [2회차]
- 여러 축을 평행으로 배치하는 비교 시각화 기술이다.
- 수직선에 변수를 배치한다.
- 측정 대상은 변숫값에 따라 위아래로 이어지는 연결선으로 표현한다.
① 산점도
② 박스 플롯
③ 스타 차트
④ 평행 좌표계
④ 평행 좌표계
Q. 다음 중 인포그래픽에 대한 설명으로 옳지 않은 것은? [2회차]
① 도표나 글에 비해 시각적 기법을 사용하여 기억에 오랫동안 남는다.
② 다양한 정보를 그래픽을 활용하여 나타내는 방법이다.
③ 빅데이터의 대량의 데이터를 표현하기에는 복잡하고 이해하기 어려울 수 있다.
④ 정보를 SNS상에 쉽고 빠르게 전달할 수 있다.
③ 빅데이터의 대량의 데이터를 표현하기에는 복잡하고 이해하기 어려울 수 있다.
Q. 특정 지역의 데이터 값을 표현하기 위해 지리적 형상 크기를 조절하여 지도의 면적이 왜곡되는 시각화 방법은 무엇인가?
① 도트플롯
② 카토그램
③ 등치선도
④ 버블플롯
② 카토그램
Q. 다음 중 빅데이터 분석 시각화 방법 중 성격이 다른 하나는?
① 바 차트
② 파이 차트
③ 도넛 차트
④ 트리맵 차트
① 바 차트
Q. 다음 중 관계시각화에 대한 설명으로 올바른 것은?
① 연속형 데이터의 분포를 시각적으로 표현하는 시각화 방법이다.
② 집단 간 상관관계를 확인하여 다른 수치의 변화 예측에 사용되는 시각화 방법이다.
③ 지도를 통해 시점에 따른 경향, 차이 등을 확인할 수 있는 시각화 방법이다.
④ 전체에 대한 범주 별 비율을 표시하는 시각화 방법이다.
② 집단 간 상관관계를 확인하여 다른 수치의 변화 예측에 사용되는 시각화 방법이다.
Q. 다음 보기에서 설명하는 시각화 분석으로 적절한 것은?
- 다변량 데이터에 대하여 변수 간의 연관성 및 패턴을 분석한다.
- 버블차트, 밀도차트 등을 활용한다.
① 시간 시각화
② 관계 시각화
③ 비교 시각화
④ 공간 시각화
② 관계 시각화
Q. 시공간 시각화 기법 중 옳은 것은? [4회차]
① 히스토그램
② 체르노프 페이스
③ 지도맵핑
④ 평행 좌표계
③ 지도맵핑
Q. 다음 그래프의 이름으로 적절한 것은? [4회차]
① 히트맵
② 트리맵
③ 영역차트
④ 누적영역차트
① 히트맵
Q. 효과적인 인포그래픽의 조건 중 가장 적절하지 않은 것은? [4회차]
① 인포메이션(Information과 시각적 그래프의 합성어이다.
② 최대한 많은 정보를 담는다.
③ 쉽게 이해할 수 있도록 그래픽과 텍스트를 조합해 사용한다.
④ 누적영역차트
② 최대한 많은 정보를 담는다.
Q. 비교 그래프가 아닌것은? [4회차]
① 막대그래프
② 레이더차트
③ 히트맵
④ 산점도
④ 산점도
Q. 누적 히스토그램에 대한 설명으로 가장 알맞은 것은? [4회차]
① 범주형과 수치형 모두의 분포를 알 수 있다.
② 히스토그램의 y축을 평균으로도 나타낼 수 있다.
③ 계급수를 잘 정해야 정확한 분포 파악이 가능하다.
④ 누적확률분포표는 누적확률밀도함수와 비슷한 형태를 보인다.
③ 계급수를 잘 정해야 정확한 분포 파악이 가능하다.
'자격증 > 빅데이터분석기사' 카테고리의 다른 글
[빅데이터분석기사 필기] 데이터 저장기술 종류와 기출문제 (0) | 2022.09.29 |
---|---|
[빅데이터분석기사 필기] 데이터 수집 개념 및 기출문제 (0) | 2022.09.29 |
[빅데이터분석기사 필기] 매개변수 최적화 개념 및 기출문제 (0) | 2022.09.29 |
[빅데이터분석기사 필기] 과대 적합 개념 및 기출문제 (0) | 2022.09.29 |
[빅데이터분석기사 필기] 회귀 모형의 평가지표 개념 및 기출문제 (1) | 2022.09.29 |