데이터 인사이트

데이터 지식공유
나만 알기는 아까운 데이터 지식 함께나눠요.

[데이터 시각화 스토리] 데이터로 인간과 사회의 미래를 디자인하다.

작성자
관리자
작성일
2020-09-16 13:08
조회
107

데이터코리아 개발 현장을 찾아서(상)

 

 지금까지 5회에 걸쳐 DataUSA 소개를 했는데요. ‘그렇다면 ‘데이터코리아(DataKorea)’는 언제 소개될까?’ 하고 많이 기다리지 않았을까 합니다. 드디어 데이터코리아에 대한 소식을 전할 차례입니다. 서비스 런칭을 앞둔 데이터코리아는 어떤 모습일까요? 서비스 오픈을 앞두고 막바지 작업에 바쁜 데이터코리아 시각화 서비스 개발자들을 만나 보았습니다.

 

관심과 흥미 갖고 데이터 즐겨보세요

 

 과학기술정보통신부와 한국데이터진흥원은 더 유용하고 쉬운 데이터 서비스를 바라는 대중의 요구에 부응하기 위해 'DataKorea(이하 데이터코리아)'를 준비중입니다. 데이터코리아는 데이터 프리존 사업의 일환으로 추진되고 있는데요. 데이터 프리존에서 제공되는 데이터를 활용해 누구나 흥미롭게 이용할 수 있는 데이터 시각화 서비스가 바로 데이터코리아랍니다. 올해 12월 중에 공개될 예정인데요. 대중들로부터 데이터에 대한 관심과 흥미를 끌어내 데이터가 더 폭넓게 활용되고 유통될 수 있도록 안내해야 하는 막중한 책임을 진 서비스이기도 하고요.

데이터코리아는 세계적인 데이터 시각화 서비스의 동향을 반영해 개발되고 있습니다. 그 가운데 대표적인 서비스가 미국의 DataUSA이죠. DataUSA에 대해서는 이미 몇 회에 걸쳐 알아보았으니 여기서는 처음 접하는 독자들을 위해 간단히 소개할게요.

DataUSA는 미국 인구 센서스국∙노동부∙상무부∙교육부 등의 데이터세트를 결합해 3만 6000개 이상의 지역, 300개의 산업, 500개의 직종, 2300개의 대학 전공에 대한 데이터를 1만 개 이상의 그림과 관련 스토리를 결합해 제공하는 초대형 시각화 서비스랍니다. DataUSA의 가능성이 확인되면서 칠레의 DataChile(datachile.io), 브라질의 DataViva(dataviva.info) 등 DataUSA와 비슷한 서비스들이 남미를 비롯해 서아시아와 아프리카 지역에서 속속 등장하고 있지요.

DataUSA 서비스 프레임워크는 오픈소스로 공개돼 있어서 누구나 깃허브에서 내려 받아 사용할 수 있어요. 데이터코리아도 공개된 DataUSA 프레임워크를 활용해 개발되고 있답니다. DataUSA(datausa.io) 사이트에 한 번이라도 들어가 본 분이라면, 그 규모에 압도돼 도대체 어디서부터 이용해야 할지 모르겠다고 말하기도 합니다. ‘1만 개가 넘는 시각화 결과물을 스토리와 결합해 보여주는 서비스의 기반’이라는 표현만으로 DataUSA 데이터 시각화 프레임워크의 위상을 소개하기에는 부족할 것입니다.

데이터코리아는 DataUSA 프레임워크에 데이터만 얹어서 구현하는 서비스는 결코 아닙니다. 물론 데이터만 바꿔서 서비스하기도 쉽지 않은 일이죠. 한국의 데이터 분류체계와 코드체계 등이 미국의 경우와 많이 다르기 때문입니다. 데이터 확보는 물론, 표준화와 코드체계 정립 등을 모두 새롭게 해야 하는 험난한 과정을 거칠 수밖에 없습니다.

 


 △ 개발중인 데이터코리아 서비스 화면

 

데이터 시각화 서비스의 기준, 우리가 세운다’

 데이터코리아는 이 모든 것을 떠나서 DataUSA와 분명하게 차이가 나는 지점이 있습니다. 벌써 뛰어난 기억력을 가진 독자라면 답을 떠올렸을 수도 있겠네요. MIT미디어랩 히달고 교수 인터뷰에서 단서가 될 만한 내용을 살짝 소개했지요. ‘데이터코리아는 공공 데이터 중심의 DataUSA와 다르게, 데이터 프리존에서 제공되는 공개된 데이터뿐 아니라 민간 데이터까지 포괄한 데이터 시각화 서비스’라는 사실이 바로 그것입니다.

민간 데이터는 기간통신사인 SKT에서 공급한 유동인구 데이터와 신용카드 거래 데이터를 의미합니다. 통신사 데이터는 그 가치를 이미 인정받고 있으므로 데이터코리아 서비스에서 어떻게 구현될지 많은 기대를 모으고 있고요. 민간 데이터까지 수용한다는 점 때문에 데이터코리아 개발 자문을 하는 미국 MIT미디어랩의 컬렉티브러닝 그룹에서도 큰 관심을 갖고 지켜보고 있답니다.

MIT미디어랩에서 데이터코리아 개발 소식을 SNS로 공개하자 매우 많은 조회수를 기록하기도 했습니다. 사이트 오픈에 앞서 국내 데이터 서비스가 이 정도로 관심을 받기는 처음이 아닌가 합니다. 그런 관심을 반영하듯 데이터코리아는 한글은 물론 영어로 동시에 개발되고 있습니다.

이번 6회 소식은 데이터코리아 개발자들과 인터뷰를 하여 도출했습니다. 데이터코리아 시스템 개발 총괄 책임자인 라온비트 박진수 대표, 프레임워크 분석과 데이터 처리∙정제 담당자인 박범서 책임, API와 데이터 매핑 담당자인 한재식 책임, 이소연 연구원이 참여했습니다.


  △ 박범서 책임                                        △박진수 개발 총괄 책임(라온비트 대표)



                               △ 한재식 책임                                                  △ 이소연 연구원

 

도전! 메타 프로그램 소스코드 분석

 

데이터코리아 시각화 서비스 개발자들은 2018년 6월부터 깃허브에 공개된 DataUSA 프레임워크 오픈소스 분석에 들어갔습니다. 마음을 단단하게 먹고 시작한 일이었죠.

 


△ 데이터코리아 인터뷰 영상(클릭)

 

 DataUSA 프레임워크는 크게 △비주얼라이제이션 △API △컨피규레이션이라는 세 부분으로 구성돼 있습니다. 비주얼라이제이션은 실제 데이터를 보여주는 프론트엔드 기능으로, 페이지 레이아웃과 데이터 차트를 비롯한 데이터 시각화를 담당하는 부분입니다. API는 데이터를 원천 소스로부터 읽어 들여 비주얼라이제이션 영역으로 보내주는 기능을 담당합니다. 마지막으로 컨피규레이션은 DataUSA가 동작하도록 하는 모든 기능을 제어하는 부분입니다. 여기서 DB 연결 속성과 같은 단순 설정 외에도 페이지 레이아웃 변경, 호출 API 변경, 대상 데이터셋 변경 등을 설정함으로써 전체 시각화 표현을 변경할 수 있습니다. 메타 프로그래밍 방식으로 개발돼 있어 기존 소스코드를 많이 수정하지 않고도 새로운 데이터와의 유연한 결합을 가능하게 돼 있습니다.

이처럼 DataUSA 프레임워크는 데이터, 시각화, 설정 부분을 분리함으로써 기존 프레임워크 소스를 많이 수정하지 않고도 새로운 데이터와의 유연한 결합이 가능하도록 설계돼 있어요. 하지만 많은 오픈소스가 그러듯이 프레임워크 사용에 대한 구체적인 가이드 문서가 없었습니다. 결국 소스코드를 직접 분석해 구조와 사용법을 파악해야 했습니다. 데이터코리아를 개발자 분들에게는 하나의 도전일 수밖에 없었죠.

데이터코리아 개발에서 주로 프레임워크 부문을 담당하는 박범서 책임은 “일반 프로그래밍은 로직을 보고 흐름을 파악할 수 있지만, DataUSA는 특정 설정 값을 변경하면 프로그램 전체에 반영되는 방식이라서 전체 구조를 파악하는 데 많은 시간이 필요했다”고 말합니다. 유연한 확장성을 가진 구조이지만, 설정값에 대한 별다른 설명이 없어서 소스코드를 통해 구조를 파악해야 했기 때문에 그만큼 많은 시간이 소요됐다는 말이지요.

주로 프론트엔드 측 개발을 담당하는 이소연 연구원은 “코드 미로에 빠져들어가 출구를 찾지 못했던 경험이 몇 번 있었다. 심지어 특정 기능 하나를 찾기 위해 몇 시간씩 헤매기도 했다. 전체 구조를 봐야 하는 박범서 책임 등의 조언이 이정표가 되어 길을 찾을 수 있었다”고 개발 소감을 말합니다.

 

유동인구 및 신용카드 매출 데이터로 연출한 시각화, 기대하세요

 

 개발자들은 쉽고 재미있는 시각화 서비스를 개발한다는 설렘 뒤에 제한된 기간에 완성해야 하는 책임감을 동시에 느껴야 했습니다. 기간을 아끼지 위해 DataUSA 소스 분석과 함께 데이터코리아 사이트 기획까지 동시에 들어갔습니다. DataUSA는 본보기일 뿐 보여줄 데이터는 전혀 다른 것이므로 데이터 측면에서 많은 선택과 결정이 필요했습니다. 특히 ‘사회문화’ 카테고리에서 주로 제공될 지도 기반의 데이터 시각화는 데이터코리아만의 특성이 강하게 드러날 지점인데요. 새로운 시도인 만큼 선택과 검증의 연속일 수밖에 없었습니다.

이에 대해 박진수 총괄 책임자는 “데이터코리아는 단순히 지도 기반의 데이터 시각화 를 만드는 것이 아니라, 스토리와 결합한 다양한 사회∙문화 관련 주제들을 다이내믹한 데이터 서비스로 구현하는 것”이라며, ”사회적 이슈에 따른 유동인구 변화(러시아월드컵 등), 젠트리피케이션 지역 변화 등을 더 쉽게 보여주기 위해 다이내믹한 표현기법을 적용하고 있다”고 말합니다.

데이터코리아 시각화 서비스는 데이터 프리존에서 제공한 통계 데이터뿐 아니라, 통신사의 유동인구 데이터와 신용카드 매출 데이터를 적극 활용하고 있다고 했지요. 이는 지도 기반의 서비스라기보다 가장 효율적인 정보 전달 도구 중 하나로 지도 기반의 시각화를 선택했다고 보는 게 더 적절합니다. 2018년에 개발될 서비스에 적용되는 통신사 데이터와 신용카드 매출 데이터는 서울과 부산지역의 것으로 한정되는데요. 향후 대구 인천 광주 대전 등 주요 도시로 확대할 계획이랍니다.

지도에서 구현한 일별 유동인구 데이터 시각화는 50미터 단위 셀을 기준으로 요일, 성별, 연령별로 얼마나 많은 사람이 이동했는지 알아보기 쉽게 시각화하는 것을 골자로 합니다. 유동인구 데이터는 신용카드 매출 데이터와 결합돼 가족들이 자주 가는 장소 등 일반인들이 관심을 가질 만한 시각화 서비스로 재탄생하게 됩니다. 더불어 블록 코드로 신용카드 매출액을 집계해 구간별 분포를 표현하고, 100분율로 지역별 차이를 보여주게 됩니다.

데이터코리아의 지도 기반 시각화는 개발 완료 후, 사이트 오픈과 함께 오픈소스로 공개될 예정입니다. DataUSA가 GPL(이 라이선스 코드의 일부라도 사용한 프로그램은 GPL 라이선스를 갖게 되고, 어떠한 제약사항도 없지만 반드시 전체 소스코드를 무료로 공개해야 함) 기반의 오픈소스이므로 데이터코리아의 소스 역시 전체가 공개될 예정입니다. 이 오픈소스가 기점이 되어 데이터코리아 방식의 새로운 시각화 서비스가 많이 등장하기를 기대해 봅니다.

 

데이터 서비스 신뢰도를 확보하라!

 

 새로운 서비스를 만들려면 많은 어려움을 헤쳐 나가야 하고, 숨어 있는 복병을 만나더라도 뒤로 물러서지 않고 견뎌야 할 때가 있지요. 데이터코리아 개발자들에게도 당연히 그런 과정은 예외가 아니었답니다.

데이터코리아 서비스의 특징을 더 강화하기 위해 민간 데이터를 최대한 활용하려 했는데요. 처음에는 포탈이나 인기 앱에서 만날 수 있는 추천 서비스까지 염두에 뒀죠. ‘가족들과 식사하기 좋은 곳’ 같은 선택형 메뉴가 하나의 예입니다. 이 아이디어를 자문 파트너인 MIT미디어랩 컬렉티브 러닝그룹에 제시했을 때, 매우 우려 섞인 반응이 나왔습니다. 서비스 제공자 입장에서 가치 판단을 최소화해야 데이터 서비스로서 신뢰를 유지할 수 있다는 조언을 받았어요. 즉 ‘가장 많이 찾는 맛집’ 등 가치 판단이 들어가는 주제를 선정하면, 기존 전문화한 추천 애플리케이션과 비슷해지면서 신뢰성 확보에서 문제가 발생할 수 있다는 거죠. 이에 따라 제시형(추천형) 주제보다는 모두가 공감할 만한 주제를 내세워 시각화 서비스를 구현하기로 방향을 잡았습니다.

개발과 관련해서는 해야 할 얘기가 너무 많은데요. 이번 회에는 주로 프레임워크 분석과 한국의 상황을 반영한 접근 등 데이터코리아의 시작 단계에서 이슈가 됐던 사항들을 알아보았네요. 다음 회에는 데이터코리아의 핵심인 데이터 자원을 어디서 확보했고 어떻게 정제했는지 그 방법과 향후 과제를 중심으로 여러분을 찾아 뵙겠습니다. 테라바이트급 통신사 데이터를 정제∙분석해 시각화용 데이터로 내놓는 과정에 대한 소개가 나갑니다.

 

대용량 데이터와 함께 뜨거운 여름을 보냈던 이야기로 여러분을 찾아 뵙겠습니다. (다음 회에 계속)

 
데이터 프리존은 비식별화 된 공공·민간 데이터를 연계·분석할 수 있는 이용 환경을 구축·운영하고이를 통해 도출된 분석 결과를 국민 누구나 이용 할 수 있도록 ‘데이터 코리아’를 통해 시각화 하여 제공합니다.