데이터 인사이트

데이터 지식공유
나만 알기는 아까운 데이터 지식 함께나눠요.

[데이터 시각화 스토리] DataUSA 개발의 주역, 히달고 교수를 만나다.(하편)

작성자
관리자
작성일
2020-09-16 09:18
조회
70

세계는 지금, 왜 Data Visualization에 집중하나?(하편)

 
  • “DataKorea, 데이터 기반의 스토리텔링 플랫폼 되길”
  • “많은 데이터보다 시선 사로잡는 데이터로 고민해야”
  • Data Visualization, 수치에 그칠 수 있는 데이터에 가치를 부여하는 일
 

 지난 2회 ‘데이터, 시대와 사회의 스토리가 되다’를 소개하며 DataUSA에 대해 본격적으로 알아볼 것을 약속했습니다. 이 차원에서 DataUSA 개발의 주역, 미국 MIT미디어랩의 히달고 교수를 만나서 DataUSA를 만들게 된 배경을 들어보았습니다.

 


△ 히달고 교수(미국 MIT미디어랩 컬렉티브러닝 그룹)

 

 DataUSA, DataViva(브라질)를 비롯해 세계적으로 자국을 대표할 만한 데이터 시각화 프로젝트가 속속 등장하고 있습니다. 데이터 시각화 분야에서 선도적인 모습을 보여준 DataUSA. 이 사이트를 기획∙개발한 미국 MIT미디어랩의 히달고(Cesar A. Hidalgo) 교수가 지난 2018년 7월 5일 한국을 방문했습니다. 히달고 교수는 ‘수치에 그칠 수 있는 데이터에 의미를 부여하는 일이 바로 데이터 시각화’라고 강조했습니다. 세계는 지금 왜 ‘데이터 시각화’에 주목하고 있는지 그 이유를 히달고 교수와 인터뷰를 통해 알아 보겠습니다.

 

▷ “세계는 지금, 왜 Data Visualization에 집중하나?’ 상편으로 이동

 

Q. DataUSA에 앞서 브라질 정부의 DataViVa 프로젝트를 수행한 것으로 압니다. 어떤 계기로 DataViva 프로젝트를 진행하게 됐나요.

A. 개인적으로 대학원 과정에서 의료 데이터 시각화를 연구했는데, 이 때 1억 3000만 환자의 의료 데이터를 분석했습니다. 다들 인지하는 것처럼 의료 데이터는 매우 민감합니다. 이를 시각화해 탐색해 보면서 연구 보고서나 학술 논문을 발표하는 용도로 활용하는 데 그쳐서는 안 되겠다는 생각이 들더군요. ‘연구 과정과 결과에 대한 스토리를 논문∙보고서로 제시하는 것만으로는 가치가 창출될 수 없겠구나!’ 하는 한계점을 느낀 거죠.

그 뒤에 MIT미디어랩의 컬렉티브러닝그룹에서 국제 무역과 관련한 시각화 프로젝트(OEC 프로젝트, atlas.media.mit.edu/en)를 진행할 때, 국가별 정치 구도가 어떻게 형성돼 바뀌고 진보하는지에 대해서도 알아보는 시간을 가졌습니다. 이 과정에서 브라질 미나스제라이스주 정부에서 근무하던 분이 이 프로젝트에 관심을 보여왔어요. 그래서 미나스제라이스 지역의 산업 구조를 알아보는 시간을 가졌는데, 그게 DataViVa(dataviva.info)의 근간이 됐습니다.

 


△ 칠레의 데이터 시각화 프로젝트인 DataChile (es.datachile.io)

 

 DataViva는 국가 차원에서는 이뤄진 최초의 데이터 시각화 프로젝트였다고 봅니다. 그만큼 많은 예산이 투입됐고 큰 노력이 들어갔습니다. 1차로 2013년에 노동∙금융 데이터를 통합해 DataViVa를 구축했습니다. 2015년에는 다시 여러 분야의 데이터를 추가해 업그레이드 사이트를 오픈했고요.

DataViVa를 구축∙운영하며 쌓았던 지식과 그때 함께했던 멤버들이 DataUSA, DataAfrica, DataChile, DataSaudiaravia 프로젝트를 진행했습니다. 이 작업에 함께 한 알렉시몬(Alec Siemon)이라는 석사 과정 학생 등이 주축이 되어 DataWheel이라는 회사를 창업했습니다.

데이터를 모으고 분석하고 시각화하는 과정이 곧 지식을 쌓는 과정인데, 이 과정에서 비용이 꽤 발생했어요. 하지만 상품을 개발해 상용화함으로써 수익을 창출할 수 있었습니다.

 



“DataKorea의 민간데이터까지 통합하겠다는 시도가 신선합니다.

하지만 스토리의 중요성을 덜 반영한 점과 기존 한국의 포털 사이트처럼 이용자들이 무언가를 직접 선택하면서 이용하도록 한 콘셉트를 재검토해 봐야 하지 않을까 합니다.”

 

Q. 선행 사례가 없어서 DataViva 구축 시 어려움이 많았을 거 같습니다.

A. 적절한 답이 될지는 모르겠습니다만, 개인적으로 어떤 새로운 영역에 접근할 때 ‘기준이나 규제가 있어야 한다’는 접근법을 좋아하지 않습니다. 어떤 일을 하기 위한 기술이 주어지면, 우리가 그것을 어떻게 활용할 것인지에 따라 필요한 가이드라인이 충분히 만들어질 수 있습니다. 그런데도 일을 하기도 전에 규제와 기준부터 만들어 놓으면, 앞뒤가 바뀐 격이 되고 맙니다.

 제가 어렸을 때는 ‘워크맨’ 같은 휴대용 오디오 재생기로 음악을 듣고, VHS 비디오 재생기로 영화를 봤습니다. 당시에 그 제품들이 플랫폼이었지요. 이런 플랫폼들이 어떻게 활용되고 콘텐츠가 어떻게 유통되는지에 따라 가이드라인이 만들어지면 됩니다.

 데이터 시각화 플랫폼 역시 데이터 포맷을 어떻게 세울지를 중심으로 그 플랫폼(DataViVa)을 설계하면 된다고 봅니다. 설계도 하기 전에 데이터 접근 기준을 먼저 규정해 놓으면 여러 제한사항이 생기고 맙니다. 그러므로 데이터 유통자들과 창작자들이 플랫폼을 어떻게 활용하는지 그 추이를 지켜본 다음에 기준과 규제를 만드는 것이 좋다고 생각합니다. 결국 DataViVa 같은 플랫폼은 ‘데이터가 어떻게 제시되면 모두에게 도움이 되겠다’는 목표 또는 결과를 중심으로 생각해서 만든 사례하고 하겠습니다.


△ Hidalgo 교수 인터뷰 영상(클릭)

 

Q. DataKorea의 접근방식을 보고 어떤 생각이 들었나요.

A. 일단 접근 프로세스가 매우 창의적이라고 생각합니다. 공공데이터는 물론, 통신사 유동인구 데이터와 신용카드사의 구매 데이터처럼 매력적인 민간데이터까지 포괄한 데이터세트를 가지고 출발할 수 있다는 것만으로도 (DataKorea가) 얼마나 많은 고민을 했는지 알 수 있었습니다.

그냥 공공데이터만 갖고 접근할 수도 있었을 텐데, 선행 사례에서 벗어나 민간데이터까지 통합하겠다는 시도가 놀랍습니다. 이것이 DataKorea의 결과가 기대되는 지점입니다. 하지만 기존 한국의 포털 사이트처럼, 이용자들이 무언가를 직접 선택해 가면서 보도록 한 설계와 스토리를 앞세우지 않는 콘셉트 등이 아쉽게 느껴집니다.

 앞서 강조했지만, 스토리는 이용자들의 주목을 끄는 기본적이고도 핵심적인 요건이라는 점을 생각할 필요가 있습니다. 저는 세계 무역 시각화 프로젝트인 OEC(atlas.media.mit.edu/en) 등을 진행하면서 한국과 관련한 사항을 나름대로 이해할 수 있었습니다. 한국은 매우 창의적이며, 공공 부문과 민간 부문이 협업을 잘 해온 대표적인 국가였습니다. DataKorea도 세계가 주목할 만한 결과를 도출하여 모두를 놀라게 할 거라고 봅니다.


△ MIT미디어랩에서 진행한 세계 무역거래 시각화 프로젝트인 OEC 플랫폼(atlas.media.mit.edu)

 

Q. DataKorea 프로젝트는 과학기술정보통신부에서 주관하므로 부처 특성상 공공데이터를 포함해 민간데이터의 유통 활성화와 데이터 산업 활성화에 관심이 높습니다. 그래서 DataKorea에서 공공데이터뿐 아니라 민간데이터를 적극 수용하는 쪽으로 접근하고 있습니다. DataKorea가 데이터 유통 활성화의 모델이 될 수 있도록 조언을 바랍니다.

A. 당연한 얘기일 수도 있습니다만, 단기적 효과는 데이터 유통 활성화에 포커스를 맞춰야 하지 싶습니다. 장기적으로는 사람들이 데이터를 보고 이해할 수 있는 데이터 리터러시를 제고하는 것까지 목표에 둬야 할 것입니다.

DataKorea에서 이미 확보한 신용카드 구매 데이터나 통신사의 유동인구 데이터가 지금은 매우 매력적인 것임에 틀림 없지만, 30년 뒤에는 그 데이터로 만든 사이트는 낡은 것이 되고 말 겁니다. 그러므로 이 프로젝트가 ‘민간데이터를 접목하여 정책이나 비즈니스에 도움이 되는 데이터 시각화 플랫폼’이라는 콘셉트보다는, 우선 ‘데이터 통합과 시각화 문화를 이끄는 주춧돌을 세운다’는 데에 의미부여를 하면 어떨까 합니다.


△ 한국데이터진흥원과 MIT미디어랩 컬렉티브러닝 그룹이 개발 방향에 대해 의견을 주고받는 시간을 가졌다.

 

Q. 데이터 시각화 프로젝트 자문을 하면서 역점을 두는 바는 무엇입니까.

A. 창의성이 요구되는 데이터 시각화 프로젝트에 대해 ‘이렇게 해야 한다’고 단정하는 것은 조금은 위험하다고 생각합니다. 학생들을 지도할 때도 미리 어떻게 하도록 방법을 알려주는 것을 피하고 있습니다. 교육의 목적은 학생들을 배우게 하는 데 있지요. 배움에 있어 어려운 문제는 ‘학생들 자신이 무엇을 모르는지를 모른다’는 점입니다. 이런 상태에서 교수가 답을 먼저 내놓게 되면, 학생들은 ‘뭐 저런 당연한 얘기를 하고 있지!’ 하고 생각하기 쉽습니다. 그래서 어떤 자료를 제시하여 읽어보게 하여 학생 스스로 답을 찾도록 합니다. 답을 찾아내지 못할 때 해결책을 제시하면, 그 해결책을 가치 있게 생각할 수밖에 없습니다. 결국 실패를 통해 집중하게 하고 제가 제시하는 해결책을 학생들이 이해할 수 있게 합니다. 프로젝트 자문 또한 배움의 경우에서 크게 벗어나지 않을 거라고 생각합니다.

 

여러분, DataUSA 개발의 주역인 히달고 교수 인터뷰 어땠나요?

 

접근 방식이 다소 낯설기도 하지만, 분산된 데이터를 한 곳에 모아 시각화 플랫폼인 DataUSA를 도출했다는 점은 놀랍습니다. 히달고 교수와의 인터뷰 결과를 2회에 걸쳐 제시함으로써 DataUSA의 탄생 배경을 알아보았습니다. 다음 4회에서는 어떤 데이터를 어떻게 구성해 DataUSA를 개발했는지와 그 효과, 그리고 어떻게 활용할 수 있는지를 알아보겠습니다.

 
데이터 프리존은 비식별화 된 공공·민간 데이터를 연계·분석할 수 있는 이용 환경을 구축·운영하고이를 통해 도출된 분석 결과를 국민 누구나 이용 할 수 있도록 ‘데이터 코리아’를 통해 시각화 하여 제공합니다.