데이터 인사이트

데이터 지식공유
나만 알기는 아까운 데이터 지식 함께나눠요.

[데이터 시각화 스토리] 데이터, Story로 디자인하다.

작성자
관리자
작성일
2020-09-16 13:42
조회
96

데이터코리아 개발 현장을 찾아서(하)

 지난 회에 이어 이번 6회까지 데이터코리아 개발기는 계속됩니다. 서비스 런칭을 앞둔 데이터코리아는 어떤 모습일까요? 서비스 오픈을 앞두고 막바지 작업에 바쁜 데이터코리아 시각화 서비스 개발자들을 만나 보았습니다.

사람은 이야기를 좋아합니다. 책, 영화, TV, 웹툰, SNS 등 수많은 미디어 또는 채널에서 우리는 날마다 많은 이야기를 접합니다. 이제 데이터도 또 하나의 이야기로서 그 대열에 합류하고 있습니다. 지난 회에 이어 이번에는 데이터코리아 개발기를 스토리 구현 관점에서 소개합니다.

이 내용은 데이터코리아 개발자들과 인터뷰를 하여 도출한 내용입니다. 데이터코리아 시스템 개발 총괄 책임자인 라온비트 박진수 대표, 프레임워크 분석과 데이터 처리∙정제 담당자인 박범서 책임, API와 데이터 매핑 담당자인 한재식 책임, 이소연 연구원이 참여했습니다.

 

빅데이터 처리와 데이터 정제

 

 데이터코리아에서 보여줄 데이터를 처리∙분석하는 작업은 겉으로 드러나진 않지만 많은 인내력을 요구하는 작업입니다. 데이터 분석을 해본 분들은 전체 분석 프로세스에서 데이터 전처리가 70~80%의 시간과 에너지를 차지한다고 합니다. 실제 분석 결과물을 도출하기 위해 80%의 일이 뒤에서 이뤄지는 거죠.

데이터코리아에서 확보한 2016년에서 2018년 6월까지의 통신사의 유동인구 데이터와 신용카드 데이터는 수 테라바이트(TB) 분량이었습니다. 이 크기의 데이터에서 원하는 값을 실시간으로 도출하기는 어렵습니다. 중간 처리과정을 거칠 수밖에 없지요.

데이터코리아 개발자들은 스파크(Apache Spark) 분산 처리 프레임워크를 이용해 테라바이트급 데이터를 정제해 ‘데이터마트’를 구성했습니다. 시각화할 데이터를 MySQL에서 쉽게 불러오도록 중간 단계를 거친 것입니다. 프레임워크 개발을 주로 담당하는 박범서 책임은 “하루 분량의 유동인구 데이터를 스파크에서 분석∙처리하는 데도 고성능 서버 기준으로 5분 정도 걸렸다”고 말합니다.

 


 △ 데이터코리아 인터뷰 영상(클릭)

 

어려운 걸 쉽게 소개할 수 있는 것이 실력

 박진수 데이터코리아 시스템 개발 총괄자는 “데이터 프리존에서 생성한 공공 데이터는 일반적으로 다뤄왔던 크기인데 비해, 통신사의 데이터는 용량이 방대해 대용량 데이터 처리 노하우가 필요했다”고 말합니다. 데이터코리아가 본격적으로 서비스를 오픈하면, 데이터 업데이트도 중요한 이슈가 되는데요. 데이터의 자동 업데이트는 향후 예정된 기능 가운데 하나입니다.

박진수 개발 총괄자는 또 “어려운 내용을 쉽게 설명하는 게 더 어렵다는 걸 실감할 수밖에 없었다”는 말로 이번 데이터코리아 서비스의 특징을 소개합니다. 지금까지의 기업이나 기관에서 이뤄지는 데이터 시각화는 고객 요구사항에 맞춰서 진행해온 반면, 데이터코리아 서비스는 불특정 다수가 이용하므로, 누구나 쉽게 이해할 수 있도록 하려면 수많은 고민이 따를 수밖에 없다는 것이죠.

 


 △박진수 개발 총괄 책임(라온비트 대표)                                           △ 박범서 책임

 

    △ 한재식 책임                                                                           △ 이소연 연구원

 

데이터의 스토리화

 데이터코리아 서비스의 대표적인 특징 가운데 하나가 ‘데이터의 스토리화’입니다. 스토리라면 시각화한 데이터에 대한 일종의 설명인데, 이는 데이터코리아 개발자들에게는 새로운 도전이었습니다. 당연한 얘기지만 용어 표준화, 접근방법 등 데이터를 소개하는 데 따른 기준도 필요했습니다.

데이터코리아는 5개 카테고리(Social & Culture / Geography / Degrees / Jobs / Industries)를 중심으로 서비스가 이뤄집니다. 이용자가 특정 카테고리를 선택하면, 데이터를 해당 카테고리 중심으로 접근해 보여주게 됩니다.

 


[그림 1] 데이터코리아의 5개 카테고리(주황색 선 부분)

 

 [Jobs] 카테고리에서 직업 데이터를 찾다 보면 [Industries] 카테고리의 데이터를 만날 수밖에 없는 구조인데요. ‘Mondrian REST API’ 알고리즘을 사용해 5개 카테고리가 촘촘하게 연동되도록 구현했습니다. Mondrian REST API는 DataUSA에서 적용한 알고리즘인데 국내에는 아직 널리 소개되지 않은 상태라고 합니다.

Mondrian REST API는 6개의 측면에서 바라볼 수 있는 육면체 큐브에 비유할 수 있습니다. 이에 대해 API와 데이터 매핑을 담당하는 한재식 책임은 “스토리 기반의 데이터 시각화를 1차원적으로 개발하는 것은 어렵지 않지만, 이 작업은 다차원적으로 접근해야 하기 때문에 코드를 맞추는 것이 어려웠다”고 말합니다.

 


[그림 2] 서울시의 ‘경제’ 카테고리를 선택했을 때 보여주는 화면. 막대 그래프가 의미하는 바를 설명하는 스토리를 좌측에 추가하여 해당 데이터에 대한 사용자들의 이해를 돕는다.

 


[그림 3] ‘view data’를 선택하여 실제 수치 데이터를 확인하고 내려 받을 수 있다.

 

표준화와 데이터세트 공개를 위한 대비

 데이터 서비스에서 표준화는 매우 중요한 지점이죠. 데이터 스토리를 읽는 사용자 입장에서 보면 단순한 텍스트일 수 있지만, 이를 일관되게 구현해야 하는 개발자 입장에서는 여러 측면을 고려할 수밖에 없었다고 합니다. 용어는 폭넓은 의미로 사용되는 것보다 구체적인 의미를 갖는 것을 기준으로 했고, 데이터코리아 전용 용어사전을 만들어 일관성을 유지했다고 합니다. 새로운 용어가 나올 때마다 용어사전을 업데이트하면서 진행하게 됩니다.

또한 통계 데이터는 전문용어들이 많이 나올 수밖에 없습니다. 나중에 용어가 변경되면 일괄적으로 바꿀 수 있는 대책을 세워놓고, 지금은 통계 데이터에 나오는 용어를 그대로 사용하고 있다고 하네요. 개발자들은 용어의 혼란을 피하기 위해 테이블의 컬럼명으로 소통했다고 합니다.

외부 검색 노출에 대비도 했는데요. 얼마 전에 구글에서 공개한 ‘데이터세트 서치(Dataset Search)’에 맞춰 개발함으로써 데이터세트 검색에 포함되도록 했다고 합니다. 데이터세트 서치는 다양한 방식으로 기록된 데이터세트를 체계적으로 분류해 일반 검색 엔진보다 쉽게 특정 데이터를 검색하고 데이터의 내용을 간편하게 확인할 수 있는 서비스입니다. 여기에는 데이터 생성자와 분석방법, 게시 기간, 데이터 사용조건 등이 기록되므로 데이터 제공자 입장에서는 많은 시간을 아낄 수 있다고 합니다.

 

스토리 작성 과정에서 시각화 결과물을 바꾸다

 

 해당 시각화 결과의 핵심 사항이 무엇이며, 어느 지점을 중점적으로 소개해야 할지 결정하는 과정도 매우 중요한 지점입니다. 시각화 결과물이 다양한 관점에서 보여질 수 있으므로 기준이 꼭 필요하겠지요. 스토리 작성 과정에서 시각화 결과물을 바꿔야 하는 순간도 있었습니다.

스토리 작성을 담당했던 이소연 연구원은 “그래프가 말하는 바를 분명히 나타내려면 그래프에 비율 등 추가적인 요소가 있으면 좋겠다는 생각이 들 때가 있어요. 그때마다 시각화 담당자에게 그런 부분이 추가되도록 요청했습니다.” 하고 말합니다.

박진수 총괄자는 “국내외 전문가들의 자문과 검증을 받는다고 하지만, 데이터를 스토리화한다는 것, 그것도 한국을 대표할 만한 서비스의 스토리화라는 것이 부담이 됐다”고 합니다.

 


[그림 4] 시각화한 결과물을 SVG, PDF, PNG 포맷으로 내려 받을 수 있다. ‘Share/Embed’를 선택해 시각화 결과를 웹사이트나 블로그 등에 추가할 수도 있다.

 

시각화 처리 속도 개선 및 대상 지역 확대

 

  데이터코리아 서비스는 통신사 유동인구 데이터를 주로 활용하게 될 ‘Social & Culture’ 카테고리에서 정체성이 분명해질 것으로 전망됩니다. 현재 통신사에서 지역축제 및 상권분석 등 유동인구 기반의 데이터 분석 서비스를 유료로 공급중인데요. 데이터코리아는 공익 측면에서 통신사 데이터 기반의 데이터 서비스를 계속 확대해 나갈 계획이라고 합니다.

훌륭한 서비스라도 그 처리 속도가 느리다면, 이용자 입장에서는 불편할 수밖에 없습니다. 실시간 시각화임을 고려하더라도 속도를 끌어올리는 것도 데이터코리아에서 계속 도전해야 할 과제 가운데 하나입니다.

당초 지난해 9월 말에 DataUSA의 차세대 버전이 나온다고 알려졌는데 2018년 10월 20일 기준으로는 아직 공개되지 않은 상태입니다. 처리 속도를 높이고 사이트 레이아웃을 새롭게 바꾼 형태로 나올 것이라는 전망인데요. 업그레이드된 DataUSA 코드는 데이터코리아에도 적용될 것이라고 합니다.

더불어 현재 서울과 부산 지역에 한정해 보여주는 민간 데이터 서비스를 대구, 인천, 광주 등의 도시로 확대한다는 목표도 세웠습니다.

 

시간이 흐를수록 유익한 서비스를 위하여

 

 데이터코리아가 발전하기 위해서는 기초 데이터가 탄탄해야 한다는 조건이 따릅니다. 그 가운데 하나가 바로 ‘제공하는 데이터 서비스의 영속성’인데요. 시시각각 발생하는 데이터를 쌓을수록 이후에 사회 변화를 데이터로 잘 보여줄 수 있게 됩니다. 이 상황에서 공급처로부터 데이터 공급이 중단되거나, 공급처가 바뀌면 데이터코리아에게는 큰 문제가 될 수 있겠지요. 이 문제는 어느 데이터 서비스에서나 마찬가지인 이슈이기도 합니다. 이 문제를 DataUSA는 일종의 대체 데이터를 제시하는 방법으로 풀어나가고 있다고 합니다. 데이터코리아는 어떤 식으로 대처할 것인지 준비해야 할 필요가 있겠네요.

 

이로써 2회에 걸쳐 데이터코리아 개발기를 마칩니다. 다음 회에는 미국 현지에서 전할 계획인데요.  미국 MIT미디어랩 및 보스턴의 BRDC(Boston Census Research Data Center) 방문기로 여러분을 찾아뵙겠습니다.

(다음 회에 계속)

 
데이터 프리존은 비식별화 된 공공·민간 데이터를 연계·분석할 수 있는 이용 환경을 구축·운영하고이를 통해 도출된 분석 결과를 국민 누구나 이용 할 수 있도록 ‘데이터 코리아’를 통해 시각화 하여 제공합니다.