데이터 인사이트

데이터 지식공유
나만 알기는 아까운 데이터 지식 함께나눠요.

[데이터 시각화 스토리]데이터가 이야기로 바뀔 때 ‘DataUSA의 숨겨진 비밀을 찾아서’

작성자
관리자
작성일
2020-09-16 09:48
조회
65
 

• 사람은 ‘숫자 아닌 이야기로 세상을 이해한다’

• 스토리를 결합한 강력한 시각화 엔진의 본보기

• DataUSA, 미국의 공공데이터를 보여주는 가장 크고 포괄적인 웹사이트

 

 지금까지 3회에 걸쳐 개발자 인터뷰와 영상 등으로 DataUSA를 알아보았습니다. 그럼 DataUSA는어떤 데이터로 어떻게 구성해 만들었을까요? 그리고 어떻게 활용하면 좋을까요? 벌써 자세히 알아본 독자들도 계시지 않을까 합니다. DataUSA도 하나의 커다란 소프트웨어이므로 나름대로의 규칙이 분명히 있을 겁니다. 이번 회에는 DataUSA의 데이터 소스와 시각화 구현방법, 적용 알고리즘, 활용 예 등을 중심으로 하나씩 알아보겠습니다.

DataUSA는 데이터 수집 또는 처리보다 활용에 포커스를 맞춘 사이트입니다. 데이터 분석에 익숙하지않은, 그것도 숫자에 익숙하지 않은 사람도 친숙하게 다가갈 수 있는 서비스가 바로 DataUSA입니다. 이 철학은 DataUSA 개발의 주역인 MIT미디어랩의 히달고 교수의 말에서 찾을 수 있습니다.

“사람은 숫자가 아닌 이야기로 세상을 이해한다.“ _히달고 MIT미디어랩 교수

DataUSA는 방대하지만 그 구조를 알고 나면 ‘아 이렇게도 만들 수 있구나’ 하는 생각이 듭니다. 지금부터 하나씩 알아보겠습니다. 물론 이 글이 DataUSA의 모든 것을 소개하지는 못합니다. 대신 이 사이트의 기획∙개발자 인터뷰와 국내 데이터 분석 전문가들의 조언을 토대로 이해하기 쉽게 소개하겠습니다. DataUSA를 제대로 이해하려면, 직접 한번 사용해 보는 것만큼 좋은 방법은 없습니다.

 

어떤 소스 데이터를 활용하나?

 

 「뉴욕타임즈」 등의 언론 보도를 보면 ‘DataUSA는 미국의 정부 및 공공데이터를 보여주는 가장 크고 포괄적인 웹사이트이자 시각화 엔진’이라고 합니다. 미국 인구 센서스국∙노동부∙상무부∙교육부 등의 데이터세트를 결합해 3만 6000개 이상의 지역, 300개의 산업, 500개의 직종, 2300개의 대학 전공에 대한 데이터를 시각화해 제공합니다.

DataUSA에서 소개하고 있는 원천 데이터세트 공급처는 [표 1]과 같습니다. 데이터를 직접 가져오기도 하고 API 형태로 불러오기도 한답니다.

 

[표 1] DataUSA에서 사용하는 공공데이터세트와 공급처
데이터세트 데이터 설명 공급처
ACS 인구 통계 데이터 미국 인구센서스국
PUMP 주택 데이터 미국 인구센서스국
BEA 경제분석국의 산업 데이터 미국 상무부
BLS 직원 수와 급여 데이터 미국 노동부
CBP 급여 및 연봉 데이터 미국 인구센서스국
CHR 건강 및 안전 관련 데이터 미국 위스콘신대학
Health Atlas 건강지도 데이터 미국 다트머스의료정책∙임상진료연구소
IPEDS 미국의 대학 교육 통합 데이터 미국 교육부(국가교육통계센터)
Default Rate 대학별 직접대출 프로그램 대출자 비율 데이터 미국 교육부
O*Net 특정 직업에 필요한 기술 설명 데이터 미국 노동부
FAF 지역 간 운송화물 데이터 미국 연방도로청∙운수통계국 공동
출처: datausa.io(2018.08.20. 접속)

 

PostgreSQL과 D3 JS 라이브러리로 구현

 

DataUSA는 오픈소스 DBMS인 PostgreSQL을 사용하고 있습니다. 미국의 주요 데이터 보유 기관으로부터 원천 데이터를 수집∙저장∙색인해 API로 변환하는 데이터 전처리 작업의 단순화를 위해 ‘데이터 수집 라이브러리’를 구축했다고 합니다. 이로써 데이터 전처리에 드는 시간과 비용, 노력을 크게 줄였겠지요.

시스템 측면에서 DataUSA의 핵심은 △이용자의 쿼리를 해석해 관련 데이터를 화면에 뿌려주는 계층과 △이용자의 특정 쿼리에 응답할 데이터가 없을 경우 대체 데이터세트 제공 계층이라고 합니다.

 


[그림 1] DataUSA의 데이터 기반 스토리 생성 다이어그램(출처 : MIT미디어랩, 2018.08.20)

 

 모든 데이터를 제공할 수 없으므로, 보여줄 데이터가 없으면 대체 정보를 제시함으로써 단절감을 줄여 주는 것이지요.

DataUSA의 데이터 시각화는 D3plus 자바스크립트(js) 라이브러리를 기반으로 100만 개 이상의 그래프를 실시간으로 생성합니다. 참고로 D3.js는 데이터 기반의 텍스트를 처리할 수 있는 자바스크립트 라이브러리죠. HTML, SVG(Scalable Vector Graphics), CSS를 사용해 웹브라우저에서 데이터를 실시간으로 시각화해 줍니다.

DataUSA는 시각화한 데이터를 소개하는 텍스트, 즉 스토리 생성 기능과 캡션 변환 기능도 제공하는데요. 데이터에 대한 소개는 철저하게 해당 데이터를 중심으로 이뤄지고 있습니다. 바로 이 스토리가 매우 중요한 역할을 합니다.

눈치 빠른 독자께서는 벌써 ‘아 그거야!’ 하고 답을 찾았을 수도 있을 거 같습니다. 바로 검색 최적화(Search Engine Optimization, SEO)를 위해서랍니다. 텍스트를 함께 제시하면 그래프만 제시했을 때보다 자연어 검색 노출 시 훨씬 유리하겠지요.

 
[미니 인터뷰] 개발자가 본 DataUSA

“씨줄과 날줄을 닮은 알고리즘으로 구현한 강력한 시각화 엔진”



△박범서(라온비트 책임연구원)

처음에는 이게 뭐지? 했는데 알아볼수록 잘 만들었다는 생각을 할 수박에 없었습니다. DataUSA는 일종의 시각화 엔진이라고 볼 수 있어요. 시각화할 데이터를 취합하고 정제하는 노하우가 매우 뛰어나다고 생각합니다. DataUSA는 시각화를 위한 데이터 전처리를 매우 현실적으로 접근하는 모습이었습니다.

DataUSA의 소스는 깃허브에 공개된 오픈소스로 프로젝트이기도 합니다. 하지만 이 소스는 말그대로 프레임워크 소스라는 점에 유의해야 합니다. 보여주는 데이터가 포함되지 않고 자세한 설명이 없어서 테스트해 보는 데 꽤 많은 시간이 필요했습니다. 그럼에도 데이터 시각화나 데이터 서비스에 관심을 갖고 있다면, 꼭 한번 봐야 할 게 DataUSA가 아닌가 합니다.

DataUSA에서 강조하는 스토리텔링은 ‘Mondrian rest API’ 알라고리즘을 기초로 합니다. 일종의 스토리 구성 알고리즘인데요. 핵심 카테고리와 하위 섹션을 구분해 다양한 이야기를 만들어 냅니다. 예를 들어 ‘직업’으로 검색하다 보면, 나중에 ‘경제’ 카테고리와 만나게 됩니다. 역으로 경제를 검색하다가 직업 데이터를 볼 수 있다는 말이 됩니다. 일종의 씨줄과 날줄식으로 이야기를 엮는 알고리즘이라는 생각이 들었습니다.

DataUSA는 오픈소스이므로 이를 내려 받아 원하는 데이터를 추가해 자신만의 애플리케이션으로 재탄생시킬 수 있습니다. 직접 도전하는 사람들이 늘어났으면 합니다.
 

생각하는 방식대로 시각화하는 ‘멘털 모델’ 적용

그럼 하나씩 검색해 보면서 어떻게 활용할 수 있는지 알아볼까요?

 

 [그림 1]과 같이 DataUSA 검색 창에서 "LA"를 입력하면, 드롭다운 메뉴에서 LA와 관련된 미국의 주나 도시 등을 선택할 수 있습니다. 캘리포니아(CA)의 LA를 선택하면 인구(398만 명), 중간연령(35.6세), 가계 평균소득(54,432달러), 빈곤률(19.5%), 취업자 수(199만 명), 부동산가치 중위값(593,500달러) 등 6개의 기본 통계 데이터가 나타납니다.

DataUSA는 멘털 모델을 기반으로 이용자 서비스를 구현했다고 합니다. 개발자인 히달고 박사가 말하는 멘텔 모델이란 ‘특정 사안에 대해 사람들이 일반적으로 생각하는 방식으로 데이터를 구성하고 시각화’하는 것입니다. 즉 LA라는 도시를 검색하는 사람들이 일반적으로 궁금해할 만한 요소 몇 가지를 먼저 제시하는 것입니다. [그림 2]에서 보듯이 인구, 중간연령, 가계 평균소득, 빈곤률, 취업자 수, 부동산가치 중위값이라는 6개의 기본 통계자료가 이 도시를 소개해줄 기본 요소라는 거죠.

 


[그림 2] DataUSA에서 ‘LA’를 검색한 화면

 

 그 아래 [About]을 선택해 볼까요? 인구와 연령 등 앞서 소개한 6개 통계 데이터를 근거로 LA에 대해 소개하고 있습니다. LA에 대한 일반적인 소개 자료는 인터넷에 너무나 많습니다. DataUSA가 소개하는 LA 소개는 통계 데이터에 특화한 것이 특징이겠죠. 따라서 데이터가 업데이트되면, 소개말도 자동으로 업데이트된다고 볼 수 있습니다.

[About] 우측의 [ECONOMY]를 한번 클릭해볼까요?

이제부터 본격적으로 시각화 서비스가 펼쳐지는 군요. LA의 가구당 평균소득, 성별 임금, 인종에 따른 임금, 지역별 소득에 대한 그래프가 실시간 생성되는 것을 볼 수 있습니다. 미리 만들어 둔 이미지 기반의 그래프가 아님을 알 수 있습니다.

연도 또는 성별로 구분해 자세히 분석할 수 있으며, 필요 시 데이터를 내려 받거나 이미지 파일이나 PDF 파일로 저장하고 웹사이트나 블로그 등에 쉽게 붙여 넣을 수도 있네요. 그래프에 대한 데이터 출처를 제시함으로써 데이터 신뢰성을 높인 모습도 확인됩니다. 이 정도라면, 사회학자나 정책 결정자가 근거 자료로서 충분히 활용할 만하다고 할 수 있을 것입니다.

 


[그림 3] 그래프에 대한 원본 데이터 출처 제시

 

 그럼 [OCCUPATIONS] 그래프를 보면서 더 자세히 알아볼까요?

[그림 3]은 LA의 직업별 인구 구성 그래프인데요. 영업직과 더불어 관리직(Administrative) 종사자들이 가장 많네요. 이 ‘직업’ 그래프는 미국 센서국의 1년 추정치 데이터를 사용했군요. 그래프에서 가장 분포도가 높은 직업 영역인 관리직을 선택해 연도별로 보거나 별도 보기로 분리해 자세히 살펴볼 수 있군요.

여기서 잠깐, 국내 데이터 시각화 서비스와도 비교해볼 필요가 있지 싶습니다. 국내에도 우수한 시각화 서비스가 많지요. 구현 방식에서의 차이라면, DataUSA는 처음부터 이용자에게 뭘 선택하도록 하는 것을 최소화하고 관심을 가질 만한 토픽을 먼저 제시한다는 것입니다. 즉 DataUSA에서 특정 키워드를 검색하면 관련정보를 지속적으로 제시하는 반면, 국내 시각화 사이트들은 미리 제시해 놓은 주제만 보여주는 경우가 많다는 것입니다.

DataUSA에서 특정 대학이나 직업을 키워드로 검색하면, 기본 데이터를 보여준 후 하위 카테고리에서 원하는 주제를 선택하도록 합니다. 예를 들어 ‘화학공학자’를 선택하면, 총 인력 수와 평균 연령, 일자리 증가율, 평균연봉, 남성평균 급여 등을 제시하면서 이를 토대로 화학공학자에 소개 문구를 보여줍니다.

그 아래에 고용, 일자리 분포도, 교육, 기술 등의 카테고리로 분류해 세부 정보를 찾아볼 수 있도록 하기 때문에 매우 흥미롭게 서비스를 이용할 수 있습니다.

 


[그림 4] ‘화학공학자’에 대한 세부 검색

 

 ‘교육’ 분야를 선택해 보겠습니다. 학위별로 전공 순위까지 보여주네요. [그림 4]와 같이 박사 학위를 받은 화학공학자 가운데 ‘천연자원 및 환경보존’ 전공자가 3위를 차지했네요. 고급 화학공학자들은 찬연자원 분야가 각광 받고 있다고 볼 수 있겠군요.

뭐든 비교해 보면 조금 더 자세히 알 수 있죠. [그림 5]와 같이 ‘comparison’ 메뉴를 선택해서 다른 직종과 비교해 볼 수도 있네요.

‘전기∙전자공학자’와 바로 비교해 보겠습니다.

 

[그림 4]에 나와 있듯이 미국에서는 임금과 일자리 확대율을 기준으로 보면, 화학공학자를 선택하는 것이 더 유리하겠네요. 물론 다양한 변수가 있으니 더 자세하게 한번 알아 봐야겠지요. 그래프 옆 시각화한 원본 데이터를 보고, CSV 포맷으로 내려 받을 수도 있습니다(그림 6).


[그림 5] 비교 검색

 


[그림 6] ‘데이터 보기’에서 시각화한 소스 데이터 보기와 내려 받기

 

그럼 지금까지 글과 그림으로 본 내용을 동영상으로 한번 볼까요?


△ DataUSA 이용 영상(클릭)

 

데이터 USA를 어떻게 구성됐고, 어떻게 서비스하는지를 알아봤는데요. Datausa.io에 들어가 직접 한번 사용해 보고 싶지 않으세요.

 

DataUSA는 공공데이터 서비스 분야에서 새로운 시도를 한 사이트임에 분명합니다. DataUSA를 벤치마크한 세계 각국의 사이트들(데이터 칠레, 데이터 아프리카 등)이 속속 등장하는 것만으로도 이미 변화가 시작됐다고 할 수 있습니다.

그럼 이런 시각화 사이트들은 어느 분야에 어떻게 활용할 수 있을까요? 활용하기에 따라 무궁무진할 텐데요. 한번 알아보죠.

 

논문보고서사례집의 대안으로서 데이터 서비스

DataUSA는 아직 데이터에 대해 익숙하지 않는 일반인보다는 설문조사나 보고서를 자주 참고하는오피니언 리더(OL)들을 주 대상으로 개발했다고 합니다. 즉 언론인, 경영자, 정책 입안자 등이 데이터를 분석해 보면서 통찰력을 얻도록 하겠다는 것입니다. 추후 업그레이드하면서 일반인에게도 더 친숙한 서비스로 거듭나겠지요.

그럼 예상할 수 있는 활용 사례 하나를 들어보겠습니다.

앞에서는 미래의 자신의 전공 분야를 궁금해 하는 대학생의 사례를 들었는데요. 이번에는 도시계획 분야에서 일하는 공무원의 경우를 예로 들어보죠. 기획을 세워야 하는 공무원이라면, 각종 사례집이나 논문, 보고서를 많이 참고하겠지요. 미국의 한 카운티 공무원이라면, 더 현실적이고 구체적인 도시계획을 세울 때 DataUSA를 참고할 수 있겠네요. 요즘 토픽 가운데 하나일 수 있는 시민 안전과 도시 미관의 상관관계를 알아본다고 하죠.

지금까지의 경우에는 주로 논문을 참고하지 않았을까 합니다. DataUSA같은 사이트를 알고 있다면, 실제 해당 공무원이 근무하는 도시를 검색하여 비교해 보면 지금보다 훨씬 생생한 근거자료를 확보할 수 있을 것입니다.

 


[그림 7] 데이터 기반 도시의 안전에 대해 소개하고 있는 히달고 교수

 

실제로 히달고 교수가 했던 강연 중에도 데이터를 도시계획에 얼마나 유용하게 적용할 수 있는지를 강조했습니다. 그 중 일부를 소개하면 다음과 같았습니다.

“(우리는) 도시에 대한 데이터를 수집하기 위한 툴도 제작했습니다. 특히 우리가 관심을 갖는 부분은 ‘실제 도시 환경과 그곳 시민들이 도시환경을 어떻게 느끼냐?’였습니다. 이 주제에 대해 관심을 가진 이유는 오랫동안 건축 또는 도시 이론에서는 ‘환경이 사람들에게 큰 영향을 끼친다’였기 때문이었는데요.”

히달고 교수는 DataUSA를 만들 때 사용자 경험(UX)을 놓고 매우 고심했음을 강조했습니다. 이것이 DataUSA 서비스와 기본 공공 또는 민간 부문의 개방형 데이터 서비스와 차별화되는 지점이라고 했습니다. 이 차원에서 DataUSA 개발∙기획 시에 경제학자∙데이터 과학자∙정책 결정자∙기업체 임원∙일반 시민들의 의견을 취합하는 프로세스를 거쳤다고 합니다. 이를 취합해 위치, 산업, 직업에 대해 이야기 형태의 서비스를 제시할 수 있었다는 것입니다.

 

흥미롭지 않나요?

이 내용을 담은 약 25분 분량의 강연 영상을 다음 회 스토리로 포스팅할 예정이니 기대해 주세요. (다음 회에 계속)

 
데이터 프리존은 비식별화 된 공공·민간 데이터를 연계·분석할 수 있는 이용 환경을 구축·운영하고이를 통해 도출된 분석 결과를 국민 누구나 이용 할 수 있도록 ‘데이터 코리아’를 통해 시각화 하여 제공합니다.