전문가칼럼

DBMS, DB 구축 절차, 빅데이터 기술 칼럼, 사례연구 및 세미나 자료를 소개합니다.

상황에 따라 필요한 데이터시각화방법 - SK텔레콤 데이터 엔지니어 박혜미 연구원

전문가칼럼
작성자
dataonair
작성일
2021-09-28 15:05
조회
101

얼마 전에 오랜 친구를 만났다. 친구는 항공사에서 여객기 정비 업무를 담당하고 있는데, 그 업무 중에 비행기 부품의 수요와 재고를 관리하는 일이 포함되어 있다고 했다. 항공업에대해 워낙 아는 바가 없어서 얘기를 다 이해하지는 못했지만, 비행기 한 대에도 수백만개의 부품이 들어가다 보니 시간과 노력이 많이 소요되는 작업인 것 같았다. 이런저런소소한 회사 생활 이야기를 하던 중에 친구가 이런 말을 했다.

“요즘 후배들이 심심치 않게 파이썬으로 분석한 결과를 들고 오는데, 뭘 말하는지도 잘모르겠고, 나는 하던 방식대로 하는게 맘 편하더라.”

친구와 내가 옛날 사람이라서 일까? 우리는 데이터 분석이 모든 직장인의 필수 소양으로 여겨지는 시대에 취업한 세대는 아니니까. 아니면, 친구 회사 후배가 정말 말도 안되는 차트를 그려 왔는지도 모르겠다.

친구가 예전 방식을 고집하는 이유가 뭐든, 친구 회사에서도 우리 회사에서도 적지 않게 맞닥뜨리는 상황이라는 생각이 들었다. 데이터 기반 의사결정의 중요성이 강조되면서파이썬이나 R 같은 프로그래밍 언어나 엑셀이나 Tableau 같은 분석&시각화 툴을 배우는 실무자들이 늘어났지만, 막상 시각화 단계에서 부적절한 차트를 적용하거나 차트에 충분한 정보를 포함시키지 않아서 읽는 사람에게 내용을 제대로 전달하지 못하는 리포트들을 흔히 보기 때문이다. 혹은 반대로 훌륭한 리포트임에도 불구하고 읽는 사람이 n차트를 제대로 해석할 줄 몰라서 리포트가 무용지물이 되는 경우도 많다.

그래서 준비했다. 이럴 땐, 이 차트!!

데이터 시각화에서 빈번하게 사용되는 대표적인 차트들을 골라서 어떤 데이터에 적용하는 것이 적합한지 설명하고, 차트를 그릴 때 필수적으로 포함해야하는 정보들을 간단하게 정리했다. 차트를 작성하는 사람도 읽는 사람도 반드시 알고 있어야 할 기본적인 내용들이다.


이럴 땐, 이 차트!

1) 파이 차트 (Pie Chart)

파이 차트는 가장 흔하게 볼 수 있는 차트 중에 하나로, 범주형 데이터(Categorical Data)를 표현할 때 적합하다. 각 조각은 각기 하나의 범주에 해당하며, 부채꼴의 호의 길이가 각 범주의 값을 표현한다.

그림1 파이 차트 예시
(이미지 출처: https://en.wikipedia.org/wiki/Pie_chart)

그림 1 은 2004 년 유럽의회 선거 결과를 보여주는 파이 차트이다. PES, EUL, UEN 등은 유럽의회를 구성하는 정당의 당명이며, 각 정당이 하나의 범주이다. 이 차트는 선거 결과 각 정당이 전체에서 얼마의 의석을 차지했는지를 보여주고 있다. 예를 들면, PES(유럽 사회당)은 전체 의석 중 27%를 차지했다. 이처럼 파이 차트는 전체와 부분을 비교하고자 할 때(예. 전체 의석 대비 PES 의 의석) 사용한다.

파이 차트를 그릴 때 주의할 점은, 범주의 개수는 최대 7 개를 넘지 않게 하고, 예시와 같이 라벨을 통해 각 부분의 수치를 명확하게 표시하는 편이 좋다는 점이다. 수치를 명시하지 않으면 읽는 사람이 작은 값을 과대 평가하거나 큰 값을 과소 평가하기 쉽다


2) 스캐터 플롯 (Scatter Plot)

스캐터 플롯은 두 종류의 이산 데이터(Discrete Data)를 각 축에 표시해서, 두 데이터의 상관관계를 확인하고자 할 때 사용한다. 스캐터 플롯에 데이터를 뿌려보는 것만으로도 간단하게 Outlier 나 Cluster 를 확인할 수 있다.

그림2 스캐터 플롯 예시
(이미지 출처: https://chart-studio.plotly.com/~jennadevries/1/#plot)

그림 3 은 X 축에 1 인당 국민소득을 Y 축에 예상 수명을 표시한 스캐터 플롯이다. 전반적인 점의 분포를 보면, 국민소득이 높은 국가일 수록 예상 수명도 더 길어지는 경향이 있다는 것을 확인할 수 있다. 예시처럼 데이터 포인트를 따라 선을 그어서 전반적인 트랜드를 표시할 수도 있다. 두 변수간의 상관관계를 확인할 수 있기 때문에 EDA(Exploratory Data Analysis)에서 많이 활용되는 시각화 기법이기도 하다.


3) 박스 플롯 (Box Plot)

박스 플롯은 데이터의 통계적 특성을 보여주고자 할 때 활용한다. 여기서 통계적 특성은 최솟값, 제 1 사분위수, 중앙값, 제 3 사분위수, 최댓값으로 구성된 5-number summary 를 의미한다. 박스 플롯은 원시 데이터를 그대로 이용해서 차트를 그리는 것이 아니라 5-number summary 를 계산해서 그린다.

그림3 박스 플롯 예시
(이미지 출처: https://nzmaths.co.nz/category/glossary/box-and-whisker-plot)


4) 모자이크 플롯 (Mosaic Plot)

모자이크 플롯은 두개 이상의 범주형 데이터(Categorical Data)의 상관관계를 보여주고자 할 때 사용한다. 모자이크 플롯을 구성하는 각 타일의 가로 세로 길이가 각 변수의 값을 표현한다.

그림4 모자이크 플롯 예시
(이미지 출처: https://www.originlab.com/www/products/GraphGallery.aspx?GID=401)

그림 5 는 타이타닉 생존자를 선실 클래스 별, 성별에 따라 표현한 모자이크 플롯이다. 각 타일의 변의 길이가 각 변수의 값을 의미하므로, 객실 클래스 별 생존자 수는 크게 차이 나지 않지만, 각 객실 별 생존자의 남녀 비율은 차이가 크다는 것을 확인할 수 있다.


데이터 시각화, 이것만은 지키자

데이터 시각화를 할 때, 한번 더 챙겨야할 항목은 아래 네 가지이다
1) 제목
2) 범례
3) 단위
4) 색상
먼저 제목, 범례, 단위는 데이터 시각화 차트에 반드시 포함되어야 할 항목들이다. 별도로 말하기에는 너무 사소하다고 생각할 수 있는 기본적인 항목들이지만, 제대로 표기되지 않아서 명확하게 의미를 전달하지 못하는 경우를 종종 보기 때문에 한 번 짚고 넘어간다. 앞서 예시로 든 차트들도 위 세가지 항목을 모두 포함하고 있음을 알 수 있다. 마지막으로 차트의 색상 선택에도 좀 더 신중할 필요가 있다. 차트의 색상 역시 데이터를 표현하는 강력한 시각적 도구이기 때문에 각 데이터에 맞는 Color Palette 를 선택할 필요가 있다. 예를 들면 범주형 데이터 표현에는 구분이 용이한 Qualitative Palette 를 사용하고, 수치 데이터 표현에는 Sequential Palette 를 사용해서 색깔만으로도 값이 큰지 작은지 전달될 수 있도록 활용하는 것이다.



박혜미 연구원

△ 박혜미 연구원
현)SK텔레콤 데이터엔지니어
전)삼성생명 데이터베이스 관리자
전)오라클 Technical Consultant
고려대학교 컴퓨터학 학사
고려대학교 기술경영학 석사
Arizona State University Computer Science Master’s degree