데이터 인사이트

데이터 지식공유
나만 알기는 아까운 데이터 지식 함께나눠요.

CKAN 알아보기 3부 (CKAN은 기술보다 활용, OKI 한국 운영위원 인터뷰(하)

작성자
관리자
작성일
2020-09-10 14:20
조회
59

[CKAN 알아보기 3부]

“CKAN은 기술보다 활용에 초점을 맞춰야”

 

CKAN 연재에 들어가며

  축적된 데이터가 자기 자신보다 자기를 더 잘안다! 누가 무엇을 좋아하고 싫어하는지를 정확히 알아서 도움을 주고, 사람보다 더 스마트한 판단을 하게 해주는 원재료로서 데이터의 가치가 어느 때보다 각광받고 있다.

‘하둡(Hadoop)’으로 대표되는 데이터 분석 플랫폼 기술과 별도로, 공공데이터를 포함한 오픈데이터를 효과적으로 공개・공유하는 데이터 포털 플랫폼으로 CKAN(Comprehensive Knowledge Archive Network)이 떠오르고 있다.  

 CKAN은 지난 2010년 영국 정부의 공공데이터 플랫폼으로 채택된 이래 미국·캐나다·호주·스위스 등의 정부 공공데이터 플랫폼으로 채택되면서 데이터 플랫폼 분야의 하둡으로서 영향력을 확대하고 있다.

이에 데이터스토어 사무국에서는 CKAN에 대한 소개와 OKI(Open Knowledge International)의 한국 모임(OK Korea) 운영위원 인터뷰를 3회에 걸쳐 소개한다. 이번 회에는 OK Korea의 운영위원(core team member)인 김선호 씨와의 인터뷰 하편을 소개한다.

 

[연재 순서]

1회: 질문과 답으로 알아본 오픈소스 데이터 포털 플랫폼, CKAN

2회: CKAN은 기술보다 활용, OKI의 한국 모임 운영위원 인터뷰(상)

3회: CKAN은 기술보다 활용, OKI의 한국 모임 운영위원 인터뷰(하)

 

[소개문]

 

 CKAN의 탄생지인 영국을 포함한 유럽연합(EU) 국가들과 미국, 캐나다 등 세계의 정부 및 지방자치단체에서 오픈데이터 운영 플랫폼으로 CKAN을 속속 도입하고 있다. CKAN을 탄생시킨 OKI(Open Knowledge International)의 한국 모임인 OK Korea 운영위원으로 활동하는 김선호 씨와 CKAN과 OKI에 대해 이야기를 나눴다. 김선호 씨는 솔트룩스 재직 시절 CKAN 기반 오픈데이터 플랫폼 추진 담당자였으며, CKAN 기반의 ‘서울 열린데이터 광장’ 공공데이터 플랫폼 프로젝트에 참여한 바 있다.

 


▲ 김선호 OKI 운영위원

 

인터뷰 상편으로 이동하기 

 

정부 차원에서 CKAN에 접근하다 보면, 그 정신이 흔들릴 가능성도 있을 거 같다.

 전 세계적으로 공공데이터 플랫폼으로 CKAN이 속속 선택을 받고 있으므로 외면하기 어려운 흐름을 이해해야 한다. 그럼에도 CKAN의 저변에 깔린 OKI의 정신이 흔들리면 안 된다고 본다.

 

 

OKI 정신은 무엇이라고 보는가.

 불특정 다수 세계 IT 전문가들이 데이터를 효율적으로 공유해 더 좋은 무엇인가를 도출해내자는 정신 정도로 말할 수 있다. 하지만 개인적으로 봤을 때, 한국은 개발자들을 포함한 일반인 중심의 공공데이터를 포함한 오픈데이터에 대한 공감대가 덜 형성된 모습이다. 따라서 정부가 앞장서서 오픈데이터를 내놔야 할 수밖에 없다. 하지만 정부가 내놓은 오픈데이터, 즉 공공데이터의 재활용성은 떨어질 수밖에 없다. 그럼에도 이런 시행착오를 겪으면서 한국의 정부나 지자체들은 오픈데이터에 대한 인식을 전환할 수 있었다. 잘 해야겠다는 생각으로 ‘공공데이터포털(https://www.data.go.kr/)’에서도 CKAN의 카탈로그 기능을 수용하는 등 더 발전시키기 위해 노력하고 있다. 한국에서는 오픈데이터를 공공데이터뿐 아니라 민간데이터, 즉 빅데이터까지 포괄해서 접근하고 있다. 그때문인지 과학기술정보통신부는 오픈데이터를 빅데이터의 일부로 보고 있는 모습이다.

 

 

오픈데이터를 빅데이터라고 단정할 수 있나.

 엄밀하게 보면, 오픈데이터를 빅데이터와 동일선에 놓기는 어렵다. 오픈데이터는 (빅데이터 처리 기술이 아닌) 기존 데이터 처리 기술로도 얼마든지 접근할 수 있다. 오픈데이터는 데이터를 잘 정제하여 제대로 공유해 ‘데이터의 효과’를 끌어낸다는 정신을 기저에 깔고 있다. ‘어떤 데이터가 됐든 한 곳에서 찾아볼 수 있게 하자’는 게 오픈데이터의 관점이다. 데이터를 다루는 사람들의 필요에 따라 출발한 것이 오픈데이터 운동이고, CKAN은 이런 오픈데이터를 제대로 다루기 위한 플랫폼이다.

 

[그림 1] 데이터의 유형


(출처: Joel Gurin, Open Data Now, https://theodi.org/lunchtime-lectures/friday-lunchtime-lecture-the-value-of-open-data-to-business-the-open-data-500-study)

 

 

CKAN을 콘텐츠 관리 시스템인 워드프레스와 비교해 설명하면.

 CKAN에 테마를 입히면 기능은 동일하지만 UI의 외관이 달라진다는 점에서는 (워드프레스와) 비슷하다. 해외 사례(유럽, 미국)를 보면 자체적으로 CKAN 테마를 개발하여 사용하기도 한다. 하지만 CKAN 표준 모델을 통해 데이터 파일을 공유하고, 워드프레스 같은 CMS를 결합하여 데이터에 스토리를 입히는 등 어떻게 운영・관리할지를 고민하는 게 더 중요한 부분이다.

 

워드프레스와 CKAN의 결합이라면 뭔가 대중적인 느낌이 든다.

 재미있는 스토리는 누구나 흥미로워한다. 스토리와 결합해 데이터를 외부에 공개하여 데이터를 다루는 기술 전문가뿐 아니라, 일반인도 데이터 문화를 향유할 수 있다. 이러한 목적으로 워드프레스를 CKAN과 결합하여 사용하는 것도 가능하다.

 

CKAN이 메타데이터 레벨에서 데이터를 공유하는 이유는 무엇인가.

 앞서 소개했듯이 CKAN 자체의 기술적 난이도는 그리 높지 않다. 메타 데이터만 가져와서 데이터를 쉽게 검색되도록 하여 오픈데이터를 쉽게 찾을 수 있도록 하는 것이 목적이며, 데이터세트의 내용과는 무관하게 DCAT(데이터세트의 웹 상호운용성을 촉진하기 위한 W3C의 RDF 기반 표준) 기반의 메타데이터를 활용하여 오픈데이터를 공유하는 체계를 갖추고 있다. 데이터세트 자체의 품질은 공개자가 관리해야 한다. A라는 사람이 자신의 데이터와 B측 데이터를 함께 활용하고 싶을 때는 포털의 데이터를 가져와 재가공해야 한다. 다른 사이트의 데이터를 어떻게 하면 재가공을 최소화하여 자신의 데이터와 연결할 수 있느냐가 핵심이다. HWP 같은 특정 문서파일을 그대로 공유하는 것은 이런 관점에서 보면 활용성이 크게 떨어진다. 궁극적으로는 오픈데이터를 RDF(Resource Description Framework) 기반 표준을 따라 데이터를 공유 및 연계할 수 있는 모델이 바람직하다. 하지만 RDF는 URI(Uniform Resource Identifier)라는 문법 체계가 있는데, 데이터 발행자자 RDF를 이해하여 이에 맞게 데이터를 생성하는 것은 쉽지 않은 일이므로, 오히려 오픈데이터 활용의 확산에 걸림돌이 될 수 있다.

 

OKI와 어떻게 인연을 맺게 되었나.

 2000년대 초, 학부 재학 시절에 시맨틱웹이 인기를 끌고 있었다. 그때 지도교수께서 서울대 김홍기 교수와 시맨틱웹에 대해 연구를 하고 계셨다. 김홍기 교수님은 시맨틱웹 초창기 때 매우 열심히 활동하셨던 분이다. 현재 OKI(Open Knowledge International Korea)를 이끌고 있는 한국과학기술정보원(KISTI)의 김학래 연구원이 김홍기 교수님 연구실에서 박사 과정을 밟고 있을 때였다. 대학 졸업 후 솔트룩스에 입사하여 활동하던 중 데이터사이언스학회에서 김학래 박사와 10년 만에 우연히 만나면서 OKI 회원으로서 활동하게 됐다. 이때가 2011~2012년 즈음이다.

 

OKI코리아 회원은 어느 정도인가.

 현재 운영진은 3명으로 구성되어 있으며, 크고 작은 활동 때 자원하는 인원을 합치면 10명 정도되는 것 같다.

 

국내 연구소에서 CKAN을 적용하려는 시도가 있었나.

 CKAN은 로컬화와 성능 최적화 등 해결 또는 튜닝이 필요한 부분들이 존재하는데, KISTI(한국과학기술정보연구원)에서 CKAN을 도입하려다 이들과 관련한 정책적 입장 때문에 성사시키지 못했던 것으로 알고 있다. STARS에 CKAN을 결합하려던 시도였다.

 

지자체에서 로컬 데이터 관리 플랫폼으로 CKAN을 활용하다가 정부의 공공데이터포털에 공개할 수도 있지 않을까.

 영국의 경우 지자체별로 CKAN을 운영하더라도 공개된 데이터의 메타 데이터를 data.gov.uk에 연계하여 공유하는 정책을 갖고 있어서, data.gov.uk에서 지자체의 오픈 데이터도 찾아볼 수 있다. 실제 데이터세트는 해당 지자체의 CKAN으로 이동하여 획득할 수 있는 구조다. 그러나 국내의 경우는 지자체마다 별도의 플랫폼을 구축하여 사용하고 있기 때문에 이러한 연계가 쉽지 않다.

 

유럽연합이 공공데이터를 전반적으로 잘 관리하는 모습이다. 영국이 중심이 돼 유럽 국가로 널리 알린 때문인가.

 그렇다. 팀버너스리가 영국의 오픈데이터 관련 정책 수립을 주도하면서 CKAN을 적극적으로 도입했고, 다른 유럽 국가들도 오픈소스 커뮤니티의 정신을 배경으로 탄생한 CKAN의 취지와 활용성을 인정하여 CKAN 대열에 합류한 것으로 알고 있다. ‘European Data Portal(http://data.europa.eu/)’도 이러한 협력 아래 탄생할 수 있었다고 본다. 한국에서는 지자체, 유관 부서 등의 정책적 문제로 인해 성사되기 쉽지 않은 방식인 것이 아쉽다.

 



 

 

영국을 비롯한 유럽국가들의 오픈데이터 공개 문화를 보고 느낀 점은.

 한국에서 데이터를 공개할 때는 단순히 타인에게 내 데이터를 제공하는 것이라 생각하기 쉽다. 하지만 영국을 포함한 유럽은 좀 더 넓은 관점에서 바라본다. 데이터 공유는 나를 위한 공개 관점에서 접근하고 있었다. 데이터를 공유해 내가 혜택을 볼 수 있고, 더 나아가 오픈데이터를 공유함으로써 오픈데이터 생태계 조성이 가능하다고 보는 것이다. 이미 IT 업계에서 오픈소스 정책은 매우 성공적인 접근 방법임이 드러났다. 글로벌 IT 기업들에서 자체 개발한 소프트웨어를 공개해 내부 인력을 적게 투입하면서 기술의 부족한 점을 빠르게 개선하기도 한다. 기술 공개는 해당 업체의 뛰어난 기술력을 널리 알리는 수단이 되기도 한다. 긍정적 선순환 구조다. 한국에서도 인식의 개선으로 데이터 공유가 유익한 일이자 혜택으로 이어지는 사례가 속속 나올 필요가 있다.

 

 

국내에도 오픈데이터와 관련한 좋은 모델이 있지 않나.

 공공데이터포털 외에 민간 사례로서는 SKT가 ‘빅데이터 허브’에 통신 데이터와 기업 데이터를 융합한 데이터를 공개하여 오픈데이터 생태계 조성에 나선 것을 좋은 사례로 볼 수 있을 것 같다.