전문가칼럼
DBMS, DB 구축 절차, 빅데이터 기술 칼럼, 사례연구 및 세미나 자료를 소개합니다.
생활속의 데이터 시각화 - SK텔레콤 데이터엔지니어 박혜미 연구원
역사 속의 데이터 시각화
통계학자로서의 나이팅게일의 진면모가 드러나는 부분은 사망 원인을 파악하고 정부를 설득시켜 지원을 얻어냈던 나이팅게일의 방식이다. 나이팅게일은 그 당시 새로운 기법이었던 파이 차트를 사용하여 위생 문제가 군인 사망의 주 원인이라는 그녀의 통찰을 데이터 기반으로 표현했고 이 그래프가 포함된 리포트를 통해 정부 지원을 이끌어냈다.
△ 그림 1. 나이팅게일이 작성한 사망원인에 따른 월별 사망자 수 다이어그램
(이미지 출처: https://en.wikipedia.org/wiki/Florence_Nightingale)
다이어그램의 파란색 파이의 넓이는 질병으로 인한 사망자수, 붉은색 파이의 넓이는 부상으로 인한 사망자 수, 검은색 파이의 넓이는 기타 원인으로 인한 사망자 수를 의미하는데, 질병으로 인한 사망자 비율이 압도적으로 높다는 것을 한눈에 확인할 수 있다. 또한 오른쪽은 1855년, 왼쪽은 1856년의 사망자 수를 보여주고 있는데, 나이팅게일이 야전병원에서 일을 시작한 1855년에 비해 1856년 모든 파이의 사이즈가 작아진 것으로 사망자 수가 급격하게 줄어들었음을 알 수 있다. 이 다이어그램은 복잡한 숫자로 가득한 통계 리포트를 읽고 싶어하지 않았던 관료들을 설득시키는데 핵심적인 역할을 했다.
실제로, 나이팅게일은 이런 역량을 인정받아 1858년 영국 왕립통계학회의 최초 여성 회원으로 선출되기도 했고, 지금까지도 데이터 시각화의 선구자로서 인정받고 있다.
생활 속의 데이터 시각화
크림 전쟁으로부터 150년이 훌쩍 지난 지금 데이터 시각화는 여전히 유효한 기술일까?답부터 말하자면 그렇다. 주위를 둘러보면 신문 지면의 기사마다 등장하는 그래프, 일기예보, 교통정보, 심지어 상업광고에도 뭔가를 전달하거나 설득하고자 하는 데이터 시각화가 포함되어 있음을 쉽게 발견할 수 있다.그렇다면 데이터 시각화란 한세기 넘게 사용되어온 낡은 기술의 익숙지 않은 이름 정도일 뿐일까?
이번 질문에 대한 답은 “아니다” 이다. 서두에서 말했듯 우리는 빅데이터 시대를 살고 있다. 넘쳐나는 가지각색의 데이터 속에 살고있으며, 데이터 기반의 “근거있는” 주장을 하지 않으면 실없는 사람 취급 받기 십상인 시대에 살고 있다는 뜻이다. 데이터 시각화의 대상이 많아졌고 따라서 필요한 기술이 다양해졌고 요구되는 덕목은 더 많아졌다. 한가지 예로 데이터 시각화를 통해 데이터에 스토리를 담고자 하는 시도들이 빈번해졌다.
△ 그림 2. 2021년 3월 국가별 백신 접종률
(이미지 출처: https://ourworldindata.org/covid-vaccinations)
△ 그림 3. 2021년 7월 국가별 백신 접종률
(이미지 출처: https://ourworldindata.org/covid-vaccinations)
예를 들어, 연평균 미세먼지 데이터를 가지고 있다고 해보자. EDA에서 자주 사용되는 간단한 몇가지 시각화 기법만으로도 데이터의 성격을 금방 파악할 수 있다.
△ 그림 4. 미세먼지 농도 분포
(이미지 출처: https://bookdown.org/rdpeng/exdata/)
그림4의 히스토그램을 통해 관측 지역의 미세먼지 농도는 보통 5~15 µg/ m³ 사이이며, 보통 9~12 µg/ m³ 정도인 지역이 많다는 것을 알 수 있다.
△ 그림 5. 동부 vs. 서부 미세먼지 농도 비교
(이미지 출처: https://bookdown.org/rdpeng/exdata/)
그림5의 Box Plot은 서부보다 동부의 미세먼지 농도가 더 높다는 사실을 보여준다.
△ 그림 6. 위도별 미세먼지 농도 분포
(이미지 출처: https://bookdown.org/rdpeng/exdata/)
알아두면 아는 척할 수 있는 데이터 시각화 상식 요약
(물론 아름다우면 더 좋다.)
현)SK텔레콤 데이터엔지니어
전)삼성생명 데이터베이스 관리자
전)오라클 Technical Consultant
고려대학교 컴퓨터학 학사
고려대학교 기술경영학 석사
Arizona State University Computer Science Master’s degree
출처 : 한국데이터산업진흥원
제공 : 데이터 온에어 Dataonair.or.kr