데이터 인터뷰

DB 노하우, 데이터직무, 다양한 인터뷰를 만나보세요.

“데이터 기반 연구시대의 도래,과학연구 분야에서도 이슈는 데이터!” - 김선태 박사, 한국과학기술정보연구원 과학데이터전략연구실

DATA 인터뷰
작성자
dataonair
작성일
2016-05-16 00:00
조회
4147




“데이터 기반 연구시대의 도래,과학연구 분야에서도 이슈는 데이터!”

- 제 4세대 연구패러다임의 도래로 데이터가 연구의 중심도구로 ‘각광‘
- 연구 데이터의 체계적인 수집-관리-공유를 위해 미국-영국-호주 ‘잰걸음’
- DB 엔지니어에게는 데이터 과학자로서의 역할 변화를 도모할 기회의 도래

연구(research) 영역에서도 데이터의 중요성이 어느 때보다 강조되고 있다. 연구 기획-수행-종료에 이르기까지 일련의 연구 과정에서 산출되는 수많은 데이터를 체계적으로 관리해 연구의 신뢰도 확보와 재활용을 통한 연구 생산성을 높이기 위한 시도다. 특히 한 번 생성한 데이터를 재생산하기 어려운 분야에서는 연구 데이터의 가치가 더욱 높아지기 때문에 미국, 영국, 호주, 캐나다, 독일 등을 중심으로 국가 차원에서 연구 데이터를 정책적으로 관리하려는 추세다. 한국과학기술정보연구원(KISTI)의 과학데이터전략연구실에서 일하는 김선태 박사를 만나 연구 데이터의 현주소에 대해 얘기를 나눴다.

in_011.jpg

▲ 김선태 박사, 한국과학기술정보연구원 과학데이터전략연구실

연구 데이터란 무엇인가?

연구자가 연구 과정에서 생산하는 모든 데이터를 말한다. 일부에서는 연구 데이터 대신에 과학 데이터라는 용어를 사용하기도 한다. 흔히 연구 데이터라고 하면, 연구 결과에 대한 보고서나 논문 등을 먼저 떠올리기 쉽다. 이 또한 연구 데이터다. 통상 이러한 문헌 위주의 연구 데이터를 연구 레코드(research records)라고 구분해 부르기도 한다. 논문, 보고서, 특허 등과 같은 연구 데이터의 디지털 생태계는 잘 조성되어 있다. 연구자가 작성한 논문이 출판된 후에 과학논문 전문 검색엔진은 물론, 네이버나 구글 등에서도 잘 검색되는 것을 보면 알 수 있다. 또 다른 연구 데이터로는 연구자들이 관측, 관찰, 실험, 조사, 분석 등의 과정을 거치며 생산한 원시 데이터(raw data)가 있다. 여기서는 이 원시 데이터 측면에서 연구 데이터를 소개하고 싶다.

연구 데이터가 중시된 배경은 무엇인가?

크게 두 가지 측면에서 이야기될 수 있다. 하나는 ‘연구 패러다임 변화’이며 다른 하나는 ‘공공재로서의 연구 데이터 보존 및 활용’이다.

먼저 연구패러다임의 변화 측면부터 보면, 몇 해 전부터 제 4세대 연구패러다임이 도래했다고들 한다. 아주 오래 전의 1세대 연구는 경험이 연구의 중심도구로 사용되었다. 2세대 연구는 이론이 중심도구였으며, 3세대 연구는 컴퓨팅 파워가 연구의 중심도구로 사용되었다. 제 4세대 연구패러다임에서는 데이터가 연구의 중심도구로 사용된다. 제 4세대 데이터 중심 연구는 수많은 실험-관측-측정 장비로부터 쏟아져 나오는 방대한 양의 데이터를 중심으로 새로운 과학적 발견을 추구하는 연구다. 황사나 기후 변화와 같은 범지구적 문제, 해양 오염이나 생태계 변화 등의 환경 문제는 한 분야의 데이터뿐 아니라 기상, 해양, 천문, 지리정보, 생태 등 다양한 분야의 데이터를 융합-분석해야 해결할 수 있다. 그래서 연구 데이터가 부각되고 있다.

두 번째 ‘공공재로서의 연구 데이터 보존 및 활용’ 측면이다. 공적 자금이 투입-수행된 연구에서 연구 데이터가 생산되었을 경우, 이를 공공 자산으로 인식하고 이에 대한 보존과 접근을 활성화하기 위해 여러 국가들이 노력하고 있다. 이러한 일련의 변화에서 연구 데이터가 관심을 받게 됐다. 이 외에도 연구 데이터가 주목 받는 이유는 많다. 연구결과 검증 측면도 그 중 하나다. 연구 과정에서 생성한 데이터를 연구 결과의 타당성을 증명하는 자료로 활용할 수 있다. 더불어 요즘 들어 (데이터의) 재활용 측면에서도 연구 데이터의 가치가 높게 평가 받고 있다. 자연과학 또는 공학 분야에서 생산되는 데이터는 많은 시간과 노력, 비용을 요구한다. 이런 데이터를 해당 연구에서만 활용하는 것이 아니라 이와 관련성이 높은 연구에 재활용하거나 1차 데이터를 재분석해 새로운 통찰을 얻고 새로운 연구가 가능하기 때문에 연구 데이터가 주목을 받고 있다.

연구분야에서 오래 전부터 융합연구가 강조되고 있다. 연구 데이터와 융합연구, 연구 데이터와 데이터 기반 연구는 어떤 관련이 있는가?

협업연구, 협력연구, 융합연구를 비슷한 말로 본다면, 데이터가 융합연구의 기반이 될 수 있다. 서로 다른 영역의 연구자들 간에 융합연구를 할 때, 어떤 도구보다 데이터를 놓고 함께 얘기하면 가장 빨리 소통될 수 있다고 생각한다. 다시 말해, 시계열적으로 분석되는 서로 다른 분야의 연구 데이터를 함께 분석할 경우 새로운 발견이 가능할 것이다. 예를 들어, 한 지역에서 지하수에 대한 연구를 수행하는 연구자와 동일 지역의 대기오염을 연구하는 연구자, 동일 지역의 인구이동에 대해 연구하는 연구자가 서로의 데이터를 놓고 이야기를 한다면 재미있는 연구결과가 도출될 수 있을 것이다.

데이터 기반 첨단 연구는 연구자가 실제 실험을 통하지 않고 데이터와 수리적 모델, 그리고 시뮬레이션을 통해 다양한 시도를 할 수 있는 특징이 있다. 이를 통해 더 저렴하고, 안전하게 다양한 실험 및 연구를 진행할 수 있고, 다양한 시도를 통해 창의적인 발견의 가능성도 올라간다. 이러한 이유로 세계적인 연구 추세인 Dry Lab 구현이 가능하다. Dry Lab이란 연구자가 실제 실험환경이 아닌, 가상의 실험환경에서 연구한다는 의미에서 부르는 용어다. 반면 실제 실험환경은 수많은 실험 장비와 시료를 포함하므로 Wet Lab 또는 in Vitro Lab이라고 한다. Dry Lab은 컴퓨터에서 신뢰성 있는 데이터를 기반으로 다양한 실험을 한다는 점에서 in Silico Lab이라고 부르기도 한다. Dry Lab에서의 수행되는 연구의 핵심도구가 바로 연구 데이터다.

연구 데이터도 빅데이터 현상과 궤를 같이 한다고 볼 수 있나?

빅데이터라는 용어가 일반적인 용어로 사용되기 이전부터, 연구 데이터는 큰 이슈였다. 1995년에 미국의 NASA에서 비행 시뮬레이션을 하던 연구자들이 규모가 큰 데이터를 이용해 연구를 진행하면서 직면한 문제를 ‘빅데이터’ 문제라고 처음 거론했다. 당시의 연구장비 및 네트워크가 큰 용량의 데이터를 다루기에 부족했기 때문이다.

한편 하드웨어 및 소프트웨어, 네트워크 기술, 건축 기술 등의 발달로 양질의 데이터와 대용량의 데이터가 실시간으로 생산-축적되고 있다. 이렇듯 빅데이터가 생산될 수 있는 환경이 조성됨에 따라 자연스럽게 빅데이터 관련 이슈가 나왔으며, 연구 데이터도 이러한 변화에 따라 더 주목을 받고 있다. 예를 들어, 과거에는 실 데이터가 부족했으므로 시뮬레이션 과정을 거쳐 데이터를 생산하고 이를 기반으로 예측을 했다. 하지만 이제는 실시간으로 생산되는 방대한 데이터를 이용하여 분석과 가시화가 가능하게 되었다. 데이터는 사실을 담고 있다. 사실에 기반한 현상 판단과 예측을 위해 방대한 양의 연구 데이터가 사용되는 것이다. 빅데이터라는 용어는 또 다른 키워드의 등장에 따라 사라질지 모르지만, 빅데이터와 연구 데이터의 본질적인 특성과 이와 관련된 다양한 이슈는 지속될 것이라고 본다. 오늘의 빅데이터가 영원한 빅데이터일 수 없더라도 미래의 그날에도 빅데이터는 존재하기 때문이다. 연구 데이터 또한 마찬가지다. 1995년 미국 NASA 연구자들이 이야기한 연구 데이터 이슈는 오늘날도 그대로 유효하다. 다만 연구 데이터 이슈는 지속적으로 추가될 수 있다. 연구 데이터의 보존과 접근, 재활용을 위한 국가 차원의 정책적 접근 이슈가 주목을 받는 것은 이러한 일련의 변화를 그 바탕에 깔고 있다.

연구 데이터를 관리하고 재사용하기 위해서 국가 차원의 정책적 접근이 왜 필요한가, 연구 데이터 수집과 공유가 그만큼 복잡하기 때문인가?

측정-분석-실험을 통해 생성되는 연구 데이터는 천문학적인 비용과 노력이 수반되는 소중한 자원이다. 그럼에도 연구 후 소멸되거나 개별 연구자 또는 연구실 단위로 관리되고 있다. 따라서 이의 보존, 공유, 재활용을 통해 국가 자원을 효율적으로 활용할 필요가 있다. 잘 알겠지만, 연구에 필요한 연구 데이터의 관리 주체가 여러 부처 산하 기관에 분산돼 있고, 상호 협력체제가 구축되지 않아 데이터 기반의 연구를 위한 다양한 노력이 필요하다.

국가 연구개발(R&D) 예산이 투입-진행되는 연구에서 많은 데이터가 생산되고 있다. 이러한 데이터는 국가의 자산이자 기관의 자산이라는 인식 확산과 함께 데이터를 공공재로 보고 공공의 접근을 활성화하기 위한 노력이 미국, 영국, 호주 등 여러 선진국에서 이미 이루어지고 있다. 데이터를 체계적으로 관리하고 공공 접근을 통한 데이터를 재활용하기 위해서는 연구 데이터의 수집, 관리, 활용을 위한 법과 제도, 플랫폼 등 데이터 거버넌스가 필요하다. 이에 따른 정책적 접근도 필요하다.

한편 연구 데이터의 관리 및 재사용 부분에 있어서, 일부에서는 연구 데이터의 저작권 침해 등을 우려해 제출을 꺼려하는 경우도 있다. 특히 데이터는 이를 생산한 특정 개인 연구자의 소유라는 인식이 팽배하기 때문에 연구자가 납득할 수 있는 방안을 제시할 필요성이 있다.

기업이나 연구소에서 연구 데이터와 관련된 정책 활동을 하는 직원이 염두에 둬야 할 점이 있다면 무엇인가?

데이터 관리 부서의 의지보다는 실제 데이터를 생산해 내는 부서의 의지가 중요하다. 특정 부서 중심이라면 보텀업 방식의 접근으로 볼 수 있다. 하지만 새로운 것을 받아들일 때는 의사결정자, 즉 기관이나 기업 대표자의 데이터 수집-공유를 통한 데이터 기반 연구에 대한 적극적인 마인드가 매우 중요하다. 지난해 미국에서 열렸던 ‘데이터 거버넌스 세미나’에 참석하였는데 GM이나 월마트, 항공사 등에 소속된 데이터 담당자들이 나와서 발표하고 있었다. 이들 또한 데이터 수집-공유 체계를 구축하기에 어려움을 겪고 있기는 마찬가지였다. 그래서 (연구) 데이터 관리 담당자들은 엘리베이터 미팅용 자료를 머릿속에 넣고 다녀야 한다는 말이 참석자들로부터 공감을 얻었다. 조직의 의사결정권자를 엘리베이터에서 만나면, 짧은 시간에 타당한 이유를 설명할 수 있어야 하고, 직원 또는 연구원들의 참여를 독려하는 메시지를 전달할 수 있어야 한다는 의미에서 한 말이었다.

연구 데이터 관련 선진국들의 움직임 가운데 소개할 만한 것이 있다면.

지난 2011년, 호주 ANDS를 방문하기에 앞서 ANDS의 웹 사이트를 봤을 때는 매우 체계적이라고 느꼈다. 하지만 직접 가봤더니 그곳 또한 여러 문제점을 안고 있었다. 국가 차원에서 설립한 기관임에도 참여자, 즉 국비 연구기관들의 적극적인 데이터 제출이 이뤄지지 않아 어려움을 겪고 있었다. 하지만 올해(2016) 일본 도쿄에서 개최된 RDA(Research Data Alliance) 행사에서 ANDS 관계자를 다시 만나서 그들의 ‘23-Things’ 발표를 들었을 때, 초기 시행착오 과정을 극복하고 체계를 갖춘 것을 알 수 있었다. 결국 연구 데이터의 수집과 공유는 단계적으로 하나씩 해결해 나아가야 하는 영역이라는 생각을 하였다. 미국의 경우는 연구 기금을 지원하는 에이전시들이 데이터로의 공공접근을 보장하기 위한 다양한 계획을 준비 중에 있다. 특히 미국과 영국 등은 연구 과정에서 생산된 연구 데이터를 저장, 관리, 접근하기 위한 계획서(Data Management plan, DMP) 관련 운동을 지속적으로 확대해 나가고 있다. 이에 따른 연구 데이터 관리(Research Data Management, RDM), 연구 데이터 서비스(Research Data Service, RDS)가 새로운 서비스로 자리를 잡아가고 있다.

DB 전문가들이 연구 데이터 분야에서 어떤 역할을 할 수 있나?

DB 전문가들은 연구 데이터와 관련하여 리포지터리의 변화에 대해 주목할 필요가 있다. 기관에서 생산되는 연구 데이터를 수집, 저장, 관리, 서비스하는 플랫폼을 리포지터리라 한다. 이러한 리포지터리가 데이터 리포지터리로 확대되고 있다. 이는 리포지터리가 관리하는 콘텐트의 확장을 의미한다. 단순한 연구 레코드에서 다양한 형태와 특징을 가진 연구 데이터들이 관리 대상으로 확대됨을 의미한다. DB 전문가들은 다양한 형태의 연구 데이터를 최적의 저장소에 적재하고 효율적으로 활용될 수 있는 방법을 찾아야 할 것이다. 예를 들어, 과학기술분야에서 생산되는 연구 데이터 중 다차원 배열 데이터를 어떻게 하면 효율적으로 저장하고 빠른 검색, 부분 검색이 가능하도록 할 것인지 고민해야 하는 역할이 요구될 것이다. DB 엔지니어에게 기능적으로 새롭게 요구되는 역할일 수 있다. 한편으로 적재되는 모든 데이터를 무한정 저장해 둘 수는 없다. 따라서 데이터 저장 정책, 보존 정책, 제공 정책과 관련된 의사결정 조직에서의 활동이 요구될 것이다. 2005년 미국 과학재단에서 발행한 보고서에 따르면 이러한 역할을 하는 DB 전문가도 요즘 화두가 되고 있는 데이터 과학자로 분류되고 있다. 데이터 시대, 진정한 데이터 과학자로서의 역할 변화를 도모할 기회가 조용히 찾아오고 있다.

출처 : 한국데이터베이스진흥원

제공 : 데이터 전문가 지식포털 DBguide.net