자격증/빅데이터분석기사

빅데이터분석기사 필기 - 데이터 시각화 종류와 기출문제

j9m 2022. 9. 29. 07:41
반응형

데이터 시각화

  • 데이터에 대한 이해를 돕기 위해 그림, 도형 등 그래픽 요소들을 이용해 데이터를 묘사하고 표현하는 과정이다.
  • 선, 막대, 원 등의 기하나 도형과 같은 양식을 이용해 데이터의 특징을 설명할 수 있는 모양으로 만들어 내거나, 색상, 레이블 등 특성을 활용하여 데이터를 표현한다.
  • 정보 전달, 설득의 목적으로 사용한다.

 

데이터 시각화 유형

① 시간 시각화

  • 시간 시각화는 시간에 따른 데이터의 변화를 표현한 시각화 방법이다.
  • 시계열 데이터에서 주요 관심 요소는 경향성으로 추세선과 산점도의 경우 시간의 흐름에 따른 추세를 알아볼 수 있다.
  • 시간 시각화는 시간의 흐름에 따라 변하는 데이터를 표현하기 때문에 개별적인 데이터를 보기보다는 전체적인 흐름을 파악해야 한다.
  • 시간 시각화의 유형으로 막대그래프, 누적 막대 그래프, 선 그래프, 영역 차트, 계단식 그래프, 추세선이 있다.
막대 그래프(Bar Chart) 누적 막대 그래프 그룹 막대 그래프
시간에 따른 값의 변화를 보거나, 범주형 변수의 탐색에 주로 사용된다. 막대를 사용하여 전체 비율을 보여주면서 여러 가지 범주를 동시에 차트로 표현가능하다. 막대 그래프에서 X축에 두 범주에 대해 표시

 

선 차트(Line plot) 영역 차트 누적 영역차트
수량을 점으로 표시하고, 점들을 선분으로 이어 그린 그래프  시간의 값에 따라 크기 변화를 보염 여러 그룹에 대한 숫자 변수의 변화를 표시한다. (분포시각화)

 

② 공간 시각화

  • 공간 시각화는 지도상에 해당하는 정보를 표현하는 시각화 방법이다.
  • 지도 위에 위치를 표시하기 위해 대부분 위도와 경도를 사용한다.
  • 공간 시각화의 유형으로 등치지역도, 등치선도, 도트 플롯맵, 버블 플롯맵, 카토그램 등이 있다.
코노플레스맵 버블맵 카토그램
지리적 단위로 데이터의 의미를 색상으로 구분하여 표시 수치화된 데이터값의 크기를 나타내는 서로 다른 크기의 원형으로 표시 지역의 값을 표현하기 위해 지리적 형상 크기를 조절.
재구성된 지도록 왜곡되고 삐뚤어진 화면으로 표기함.


 

③ 분포시각화

  • 분포 시각화는 데이터의 최댓값, 최솟값, 전체 분포 등을 나타내는 시각화 방법이다.
  • 시계열 데이터와 비슷한 점이 있으나, 시계열 데이터와 다른 점은 구분 단위가 시간이 아니라 데이터가 차지하는 영역을 기준으로 삼는다.
  • 분포 시각화의 유형으로는 파이 차트, 도넛 차트, 트리맵, 누적 영역 차트 등이 있다.
파이차트(Pie Chart) 도넛 차트(Donut Chart) 트리맵 차트(Tree Map Chart)
원의 조각을 사용해 범주형 데이터의 범주별 기여도를 표시하는데 사용함 파이차트의 중앙에 구멍을 넣어 표현한 차트, 표현 내용은 파이 차트와 동일, 여러 범주 데이터에 대해서는 선버스트 차트 사용 계층 구조를 나타내며, 사각형의 크기 또는 면적을 사용해 구성을 나타냄

 

④ 관계 시각화

  • 관계 시각화는 다변량 데이터 사이에 존재하는 변수 사이의 연관성, 분포와 패턴을 찾는 시각화 방법이다.
  • 변수 사잉의 연관성인 상관관계는 한 가지 요소의 변화가 다른 요소의 변화와 관련이 있는지를 표현하는 시각화 기법이다.
  • 관계 시각화의 유형으로 산점도, 산점도 행렬, 버블 차트, 히스토그램, 네트워크 그래프 등이 있다.
산점도 산점도 행렬 버블 차트(Bubble Chart)
두 개 수치형 변수의 상관 관계 확인
범주별로 색상, 모양 크기 등을 변경해 사용할 수 있음
여러 수치형 변수의 상관관계 알아보기 산점도에서 데이터값을 나타내는 점 또는 마크에 여러 가지 의미를 부여하여 확장된 차트

 

⑤ 비교 시각화

  • 비교 시각화는 다변량 변수를 갖는 자료를 제한된 2차원에 효과적으로 표현하는 시각화 방법이다.
  • 비교 시각화의 유형으로 플로팅 바 차트, 히트맵, 체르노프 페이스, 스타 차트, 평행 좌표 그래프 등이 있다.
체르노프 페이스(Chernoff Face) 플로팅 바(Floating Bar)
다차원 통계 데이터를 사람의 얼굴 이미지를 이용하여 표현하는 방법, 얼굴의 각 요소가 변수 표현에 사용됨 축에 연결되지 않고 최소/최대 값 사이에 하나 또는 여러 막대가  떠 있는 차트로 온도, 주가, 혈압 등의 범위 표시에 유용

 

평행차트(Parallel Chart) 스타 차트(Star Chart) 히트맵(Heatmap)
여러 축을 평행으로 배치하는 기술
수직선엔 변수를 배치한다.
측정 대상은 변숫값에 따라 위아래로 이어지는 연결선으로 표현한다.
중심점은 축이 나타내는 값의 최솟값, 가장 먼 끝점은 최댓값을 의미
설명변수가 늘어날 때마다 축이 늘어나는 시각화 방법
변수를 비교할 수 있는 시각화 그래프
칸 별로 색상을 구분하여 데이터값표현

 

인포그래픽(Infographics, information + Graphics)

  • 인포그래픽은 중요 정보를 하나의 그래픽으로 표현해서 보는 사람들이 쉽게 정보를 이해할 수 이도록 만드는 시각화 방법이다.
  • 인포메이션(Information)과 시각적 그래프의 합성어이다.
  • 쉽게 이해할 수 있도록 그래픽과 텍스트를 조합해 사용한다.
  • 복잡하고 어려운 데이터를 더 쉽고 명확하게 이해할 수 있도록 그래픽과 텍스트를 균형 있게 조합한다.
  • 정보를 SNS상에 십고 빠르게 전달할 수 있다.

데이터 시각화 기출문제

Q. 다음 중 산점도(Scatter Plot)와 같은 유형의 시각화 방법은 무엇인가? [2회차]

① 파이 차트

② 버블 차트

③ 히트맵

 트리맵

더보기

② 버블 차트

 

Q. 다음 중 비교 시각화의 유형으로, 설명 변수가 늘어날 때마다 축이 늘어나는 시각화 방법은 무엇인가 [2회차]

① 플로팅 바 차트

② 막대 차트

③ 스타 차트

 히트맵

더보기

③ 스타 차트

 

Q. 아래에서 설명하는 시각화 기법은 어떤 차트를 설명하고 있는가? [2회차]

  • 여러 축을 평행으로 배치하는 비교 시각화 기술이다.
  • 수직선에 변수를 배치한다.
  • 측정 대상은 변숫값에 따라 위아래로 이어지는 연결선으로 표현한다.

① 산점도

② 박스 플롯

③ 스타 차트

 평행 좌표계

더보기

 평행 좌표계

 

Q. 다음 중 인포그래픽에 대한 설명으로 옳지 않은 것은? [2회차]

① 도표나 글에 비해 시각적 기법을 사용하여 기억에 오랫동안 남는다.

② 다양한 정보를 그래픽을 활용하여 나타내는 방법이다.

③ 빅데이터의 대량의 데이터를 표현하기에는 복잡하고 이해하기 어려울 수 있다.

 정보를 SNS상에 쉽고 빠르게 전달할 수 있다.

더보기

③ 빅데이터의 대량의 데이터를 표현하기에는 복잡하고 이해하기 어려울 수 있다.

 

Q. 특정 지역의 데이터 값을 표현하기 위해 지리적 형상 크기를 조절하여 지도의 면적이 왜곡되는 시각화 방법은 무엇인가? 

① 도트플롯

② 카토그램

③ 등치선도

 버블플롯

더보기

② 카토그램

 

Q. 다음 중 빅데이터 분석 시각화 방법 중 성격이 다른 하나는?

① 바 차트

② 파이 차트

③ 도넛 차트

 트리맵 차트

더보기

① 바 차트

 

Q. 다음 중 관계시각화에 대한 설명으로 올바른 것은?

① 연속형 데이터의 분포를 시각적으로 표현하는 시각화 방법이다.

② 집단 간 상관관계를 확인하여 다른 수치의 변화 예측에 사용되는 시각화 방법이다.

③ 지도를 통해 시점에 따른 경향, 차이 등을 확인할 수 있는 시각화 방법이다.

 전체에 대한 범주 별 비율을 표시하는 시각화 방법이다.

더보기

② 집단 간 상관관계를 확인하여 다른 수치의 변화 예측에 사용되는 시각화 방법이다.

 

Q. 다음 보기에서 설명하는 시각화 분석으로 적절한 것은?

  • 다변량 데이터에 대하여 변수 간의 연관성 및 패턴을 분석한다.
  • 버블차트, 밀도차트 등을 활용한다.

① 시간 시각화

② 관계 시각화

③ 비교 시각화

 공간 시각화

더보기

② 관계 시각화

 

Q. 시공간 시각화 기법 중 옳은 것은? [4회차]

① 히스토그램

② 체르노프 페이스

③ 지도맵핑

 평행 좌표계

더보기

③ 지도맵핑

 

Q. 다음 그래프의 이름으로 적절한 것은? [4회차]

① 히트맵

② 트리맵

③ 영역차트

 누적영역차트

더보기

① 히트맵

 

Q. 효과적인 인포그래픽의 조건 중 가장 적절하지 않은 것은? [4회차]

① 인포메이션(Information과 시각적 그래프의 합성어이다. 

② 최대한 많은 정보를 담는다.

③ 쉽게 이해할 수 있도록 그래픽과 텍스트를 조합해 사용한다.

 누적영역차트

더보기

② 최대한 많은 정보를 담는다.

 

Q. 비교 그래프가 아닌것은? [4회차]

① 막대그래프

② 레이더차트

③ 히트맵

④ 산점도

더보기

④ 산점도

 

Q. 누적 히스토그램에 대한 설명으로 가장 알맞은 것은[4회차]

① 범주형과 수치형 모두의 분포를 알 수 있다.

② 히스토그램의 y축을 평균으로도 나타낼 수 있다.

③ 계급수를 잘 정해야 정확한 분포 파악이 가능하다.

④ 누적확률분포표는 누적확률밀도함수와 비슷한 형태를 보인다.

더보기

③ 계급수를 잘 정해야 정확한 분포 파악이 가능하다.

 

반응형