전문가칼럼

DBMS, DB 구축 절차, 빅데이터 기술 칼럼, 사례연구 및 세미나 자료를 소개합니다.

생활속의 데이터 시각화 - SK텔레콤 데이터엔지니어 박혜미 연구원

전문가칼럼
작성자
dataonair
작성일
2021-08-26 14:14
조회
2149
“IT 강국”에서 “빅데이터 시대”를 살아가는 요즘 우리는 심심치 않게 “데이터 시각화”라는 단어를 접한다. 데이터 시각화? 언뜻 단어만으로 유추하기에 데이터를 시각적으로 바꾸는 행위를 의미하는 것 같은 이 단어는 구체적으로 뭘 말하며, 어디에 쓰이는 걸까? 최근 들어 왜 자주 언급되고 있을까?

역사 속의 데이터 시각화

어린시절 독서 좀 한다 하는 친구 집에는 종종 한 질 짜리 시리즈 위인전이 있었다. 그리고 그 위인전에 빠지지 않고 등장하는 인물 중에는 나이팅게일이 있었다. 나이팅게일 하면 어떤 단어가 떠오르는가? 백의의 천사. 나이팅게일 선서. 독신여성?

그러나 나이팅게일의 업적 중에 간호사로서의 명성에 가려져 그 의미에도 불구하고 일반인에게 덜 알려진 내용이 있었으니, 그건 나이팅게일이 통계학자였다는 사실이다. 우리가 흔히 알고있는 것처럼 나이팅게일은 1853년 발발한 크림 전쟁에서 군 간호사로 크게 활약했다. 이 때 나이팅게일은 야전병원에서 근무하면서 전쟁에서 당한 부상으로 죽는 군인보다 상처 부위의 2차 감염이나 전염병 등의 위생 문제로 사망하는 군인이 더 많다는 사실에 주목했고, 추후 군 위생 개선을 위한 정부 지원을 얻어내 영국군의 부상자 사망률을 42퍼센트에서 2퍼센트까지 떨어트리는 신기에 가까운 업적을 남겼다.
통계학자로서의 나이팅게일의 진면모가 드러나는 부분은 사망 원인을 파악하고 정부를 설득시켜 지원을 얻어냈던 나이팅게일의 방식이다. 나이팅게일은 그 당시 새로운 기법이었던 파이 차트를 사용하여 위생 문제가 군인 사망의 주 원인이라는 그녀의 통찰을 데이터 기반으로 표현했고 이 그래프가 포함된 리포트를 통해 정부 지원을 이끌어냈다.


그림 1.나이팅게일 이 작성한 사망 원인에 따른 월별 사망자 수 다이어그램
△ 그림 1. 나이팅게일이 작성한 사망원인에 따른 월별 사망자 수 다이어그램
(이미지 출처: https://en.wikipedia.org/wiki/Florence_Nightingale)


그림1은 나이팅게일이 작성한 크림 전쟁 사망자 원인 분석 다이어그램이다.
다이어그램의 파란색 파이의 넓이는 질병으로 인한 사망자수, 붉은색 파이의 넓이는 부상으로 인한 사망자 수, 검은색 파이의 넓이는 기타 원인으로 인한 사망자 수를 의미하는데, 질병으로 인한 사망자 비율이 압도적으로 높다는 것을 한눈에 확인할 수 있다. 또한 오른쪽은 1855년, 왼쪽은 1856년의 사망자 수를 보여주고 있는데, 나이팅게일이 야전병원에서 일을 시작한 1855년에 비해 1856년 모든 파이의 사이즈가 작아진 것으로 사망자 수가 급격하게 줄어들었음을 알 수 있다. 이 다이어그램은 복잡한 숫자로 가득한 통계 리포트를 읽고 싶어하지 않았던 관료들을 설득시키는데 핵심적인 역할을 했다.
실제로, 나이팅게일은 이런 역량을 인정받아 1858년 영국 왕립통계학회의 최초 여성 회원으로 선출되기도 했고, 지금까지도 데이터 시각화의 선구자로서 인정받고 있다.

생활 속의 데이터 시각화



크림 전쟁으로부터 150년이 훌쩍 지난 지금 데이터 시각화는 여전히 유효한 기술일까?답부터 말하자면 그렇다. 주위를 둘러보면 신문 지면의 기사마다 등장하는 그래프, 일기예보, 교통정보, 심지어 상업광고에도 뭔가를 전달하거나 설득하고자 하는 데이터 시각화가 포함되어 있음을 쉽게 발견할 수 있다.그렇다면 데이터 시각화란 한세기 넘게 사용되어온 낡은 기술의 익숙지 않은 이름 정도일 뿐일까?

이번 질문에 대한 답은 “아니다” 이다. 서두에서 말했듯 우리는 빅데이터 시대를 살고 있다. 넘쳐나는 가지각색의 데이터 속에 살고있으며, 데이터 기반의 “근거있는” 주장을 하지 않으면 실없는 사람 취급 받기 십상인 시대에 살고 있다는 뜻이다. 데이터 시각화의 대상이 많아졌고 따라서 필요한 기술이 다양해졌고 요구되는 덕목은 더 많아졌다. 한가지 예로 데이터 시각화를 통해 데이터에 스토리를 담고자 하는 시도들이 빈번해졌다.


그림 2. 2021년 3월 국가별 백신 접종률
△ 그림 2. 2021년 3월 국가별 백신 접종률
(이미지 출처: https://ourworldindata.org/covid-vaccinations)


그림 3. 2021년 7월 국가별 백신 접종률
△ 그림 3. 2021년 7월 국가별 백신 접종률
(이미지 출처: https://ourworldindata.org/covid-vaccinations)


그림 2와 그림 3은 ourworldindata.org에서 제공하는 올해 3월과 7월 국가별 백신 접종률을 보여주는 Choropleth Map이다. 그래프 하단의 스크롤을 좌우로 움직이면 시점을 바꿔가면서 백신 접종 추이를 확인할 수 있는데, 3월에 북미와 유럽 일부 국가에서 백신 접종이 시작된 후 점차 확대되어 7월 현재 일부 아프리카 지역을 제외하고 전 세계적으로 백신 접종이 시행되고 있음을 확인할 수 있다.


또 다른 최근 동향은 단순히 분석한 결과를 효과적으로 전달 (Presentation) 하기 위해서 데이터 시각화를 활용하는 것이 아니라, 이 데이터로 무엇을 할 수 있는지 인싸이트를 찾아내기 위한 분석 기법 (Exploratory Data Analysis, EDA) 으로서 데이터 시각화를 적극적으로 활용한다는 점이다. 쉽게 말하면 내가 가지고 있는 데이터를 여러 형태로 시각화 해보면서 데이터의 성격과 활용 방법을 파악하는 것이다.
예를 들어, 연평균 미세먼지 데이터를 가지고 있다고 해보자. EDA에서 자주 사용되는 간단한 몇가지 시각화 기법만으로도 데이터의 성격을 금방 파악할 수 있다.


그림 4. 미세먼지 농도 분포
△ 그림 4. 미세먼지 농도 분포
(이미지 출처: https://bookdown.org/rdpeng/exdata/)



그림4의 히스토그램을 통해 관측 지역의 미세먼지 농도는 보통 5~15 µg/ m³ 사이이며, 보통 9~12 µg/ m³ 정도인 지역이 많다는 것을 알 수 있다.


그림 5. 동부 vs. 서부 미세먼지 농도 비교
△ 그림 5. 동부 vs. 서부 미세먼지 농도 비교
(이미지 출처: https://bookdown.org/rdpeng/exdata/)



그림5의 Box Plot은 서부보다 동부의 미세먼지 농도가 더 높다는 사실을 보여준다.


그림 6. 위도별 미세먼지 농도 분포
△ 그림 6. 위도별 미세먼지 농도 분포
(이미지 출처: https://bookdown.org/rdpeng/exdata/)

그림 6 Scatter Plot의 빨간 동그라미는 서부를 검정 동그라미는 동부를 나타내며, 위도 별 미세먼지 농도를 보여준다. 그림5를 통해 평균적으로 동부의 미세먼지 농도가 더 높다는 사실을 알았지만, 미세먼지 농도가 가장 나쁜 (15 µg/ m³ 이상) 지역은 오히려 서부의 위도 35도 지역에 집중되어 있다는 사실을 알 수 있다.

미세먼지 관련 상품 마케팅을 기획중이라면 혹은 두 지역을 비교해서 미세먼지 농도에 영향을 주는 요인을 찾고 싶다면, 어떤 지역을 타겟팅 해야할지 어떤 지역들을 비교해야 효과적일지 시각화를 통해서 인싸이트를 얻었는가? 매니저를 좀 더 쉽게 설득할 수 있겠는가?


알아두면 아는 척할 수 있는 데이터 시각화 상식 요약

  • 데이터 시각화는 다양한 그래프를 통해서 정보를 효과적으로 전달하거나 상대방을 설득하기 위한 도구이다. 혹은 EDA를 위한 분석 기법으로 활용된다.
  • 최근에 등장한 개념은 아니지만 최근에 더 다양하게 활용되고 있다.
  • 흔히 오해하듯, 데이터 시각화는 디자인이나 미적인 영역은 아니다. 정보를 정확하게 전달하는 것이 데이터 시각화의 본질이다.
    (물론 아름다우면 더 좋다.)
박혜미 연구원










△ 박혜미 연구원
현)SK텔레콤 데이터엔지니어
전)삼성생명 데이터베이스 관리자
전)오라클 Technical Consultant
고려대학교 컴퓨터학 학사
고려대학교 기술경영학 석사
Arizona State University Computer Science Master’s degree








출처 : 한국데이터산업진흥원

제공 : 데이터 온에어 Dataonair.or.kr