데이터이야기

DB 노하우, 데이터직무, 다양한 인터뷰를 만나보세요.

신현묵이 생각하는 데이터 분석이란

데이터 이야기
작성자
dataonair
작성일
2014-05-28 00:00
조회
6218


신현묵이 생각하는 데이터 분석이란



'의료정보와 데이터'에 대한 이야기를 하기 전에 필자가 생각하는 '데이터'에 대한 이야기를 먼저 이야기 하는것이 앞으로 컬럼의 내용들이 언급되는 것에 대해서 중요한 배경이 될 것이라고 생각하여 먼저 '데이터'에 대해서 이야기를 컬럼 시작전에 이야기를 하려 한다. 필자는 나름 의료IT분야에서 다양한 경험들을 얻어왔고, 실제 유의미한 데이터들이 의료현장에서 어떻게 사용되는지에 대해서 관심이 많았고, 지금도 그 것들의 관계에 대해서 많은 고민을 하고 있다. 필자는 원래 소프트웨어 개발자였지만, 수천년간 의료정보를 다루어 오는 방식이 소프트웨어 개발자들에게 새로운 시야를 제공할 것이라는 관심을 가지고, 의료정보를 다루는 의료진들과 데이터를 다루는 과학자들, 그리고. 그것들의 정보를 연결시켜주는 소프트웨어 개발자들 사이에서 많은 것들을 경험하였다. 작게 내린 결론중의 하나는 굳이 헬스케어 분야가 아니라고 하더라도, 우리는 데이터를 다루기 위한 다양한 방법들을 고안해 왔다는 것을 먼저 이야기하자.

그리고, 데이터의 관점으로 세상을 바라본다면, 세상은 데이터로 이루어져있고, 수 많은 방법으로 이것을 표한하고 쉽게 이야기하려한다는 것을 잘 알고 있다. 그래서 사람들은 '숫자'와 '문자'로 이루어진 무수한 데이터들과 이야기를 나누고, 그것들의 의미를 파악하려 한다. 과연, 이러한 것들에 대해서 현재 이야기하고 있는 '빅데이터'와 '데이터사이언티스트'라는 의미는 우리가 제대로 의미를 파악하고 있는 것일까 주변의 전문가라고 불리우는 사람들에게 '데이터에서 빅데이터와 데이터사이언티스트란'란 어떤 의미를 가지는가에 대해서 물어본다면, 아직까지는 정확하게 그 의미를 설명하는 사람이 많지 않다. 특히나, 자신들의 생각으로 의미를 이야기하는 것이 아니라, 다른 사람의 이야기를 인용하거나 다른 사람들의 생각을 그대로 이야기하는 사람들을 더 많이 만날 수 있다. 필자 역시 그런 편이고, 완전한 Insight를 가지고 있다고 이야기할 수 없다. 다만, 20년정도 정보와 데이터를 다루면서 터득한 나름대로의 경험을 지식화하는 정도가 되었다고 할 수 있다.

대표적으로 현재 가장 큰 화두로 이야기 되고 있는 IoT에 대해서도 정확하게 이야기를 하는 사람이 없다. 필자는 IoT를 다음과 같이 정의한다.

센서를 장착한 디바이스는 '데이터'만을 제공한다. 하지만, IoT는 센서를 장착한 디바이스에서 '유의미한 정보'를 제공할 수 있다. 그 유의미한 '정보'들은 해당 분야의 지식과 결합하여 해석될 수 있고, 그 해석하는 방법을 웹서비스나 클라우드와 같은 서비스들과 결합하여 제공이 가능해야 한다. 그래서, 그 정보를 해석하는 방법들이 규칙화되어지고, 상호운용이 가능한 형태의 '유의미한 정보'의 형태여야 한다. 단지, 센서를 통해서 특정 수치들이 제공되는 것은 그냥, '센서를 장착한 디바이스'일 뿐이다.

그렇다면, 유의미한 정보와 단순한 '데이터'의 차이점은 무엇일까 필자는 이렇게 설명하겠다. 가령, 독자가 스마트시계를 장착하고 있고, 그 시계에서 '움직임 거리'를 추적하여 웹이나 소셜에 그 정보를 제공할 수 있다면, 그것은 '단순한 거리 정보'를 추출할 수 있는 센서장비라고 이야기할 수 있다. 하지만, 이 정보를 만들어낸 사용자들이 그 전날에 움직였던 움직임 정보보다 좀더 활발하게 움직이고 움직임이나 방향성 지표들의 비교자료를 통해서, 좀더 운동을 하는 방향으로 지향하고 있다면, 당신은 보다 활동성을 높여서 건강해지기 위한 방향으로 진행하고 있기 때문에, 해당 사용자에게 좀더 욕구를 자극할 수 있는 즐거운 운동 방법에 대해서 제공이 가능하다면, 그것은 IoT에 해당한다.

또한, 이 정보들은 다른 분석이 가능한 서비스들에게 사용이 가능해야 한다. 서비스와 서비스간에 연동되는 것이 독점적이라면 그것은 IoT가 될 수 없다. 당연히 보안문제가 해결된 상태에서 사용자의 유의미한 정보들은 다른 서비스들에게 유의미한 정보의 상태로 제공되고, 그것을 다른 지식체계와 결합하여 또 다른 지표로서 제공이 가능한 것이 IoT의 핵심이다.

IoT는 '단순한 생체 정보를 제공하는 생체센서 시계'가 아니라, '다른 지식 체계와 소통할 수 있는 유의미한 매타정보를 제공할 수 있으며, 필요한 서비스들과 연동이 자유로운 서비스를 IoT라고 이야기할 수 있다'. 이것이 필자가 생각하는 IoT의 개념이다.

하지만, 여기서 중요한 원칙이 하나 있다. 어떤 데이터 이든 데이터는 100% 분석할 수 없다는 것이 우리가 알고 있는 데이터 분석의 원칙이다. 단순한 숫자와 숫자들의 이해관계를 모두 이해한다는 것은 불가능하다. 그래서, 대부분의 지식체계들은 지표를 만드는 것을 중요하게 여긴다. 그리고, 그것들을 숫자로 표현한다. 그리고, 그 중요한 숫자들을 체크하고, 기록하고 점검한다. 대표적인 의료정보가 활용되는 것도 이러한 '숫자'와 '지표'들의 나열들이다. 의료진들에게 이러한 지표와 숫자들은 중요한 판단 근거로 사용되고, 의료진들의 지식체계와 결합하여 환자의 상태를 판단하게 된다. 매우 당연한 것이지만, 그 지식체계를 만드는 것은 의료진들의 몫이고, 데이터를 다루는 전문가의 입장에서는 그 정보들을 어떻게 전달되게 하고, 어떤 방식으로 표현되는 것이 '더욱더 유의미하게 판단 될 수 있는가'에 대해서 고민하는 것이다.



필자는 이러한 사람들을 '데이터 사이언티스트'라고 정의한다. 데이터 사이언티스트들은 데이터를 다루는 비법을 알고 있는 사람들이다. 실제, 미국의 의료기관에서는 이러한 데이터 사이언티스트들이 실제 업무영역에 등장하였으며, 환자들이 의료기관에서 받는 서비스를 통해서 유의미한 몸상태로 변화되는 것에 대해서 수치적이고 데이터적으로 이를 증명하는 일을 하고 있다. 이들이 하는 일들은 크게 두가지의 기본원칙에 집중한다. 하나는 사람들은 간단하고 핵심적인 판단 기준이 되는 숫자를 찾는다는 것이고 둘은 숫자가 데이터의 의미를 가질 수 있다는 것을 알고 있다는 점이다. 데이터사이언티스트들은 언제나 중요한 의미의 숫자를 찾고, 이 숫자에게 큰 의미를 부여한다. 그리고, 그러한 숫자와 정보들을 찾기 위해서 많은 비용투자를 아끼지 않는다. 의료기관에서 빅데이터에 대한 관심은 '신의 영역으로 생각되어지는 진료'의 확률을 높이기 위해서 의료기관에서 발생되는 모든 데이터를 다루기 위한 체계로의 관점으로 변화되고 있다.

사람들의 차이점을 의료진들의 직관에 의존하는 것이 아니라, 그 사람 사람들의 생체정보들을 모두 추적하고 개인적인 차이를 검토하는 서비스들의 탄생이 예고되고 있다. DNA를 검토하는 것이외에도 생체역학적인 정보들의 무수한 아날로그 정보들도 추적되고 있고, 그 사람의 ECG에서 제공되는 각자의 수치적인 정보들과 일상생활과 병원과 같은 두려운 의료기관에서의 미세한 차이점을 찾아내는 정보들까지 현재의 무수한 활동량계 센서들과 결합하여 개인의 생체정보들을 의료진들에게 명쾌하게 보여주는 방법들이 시도되고 있다. 역사상 이렇게 많은 개인생체정보들을 의료진들이 관찰하고 기록하고, 판단해본적이 없다. 아마도, 소수의 부자들만이 자신들의 주치의와 병원의 엘리트 의료진들에게 동시에 협진을 받고 관찰을 받는 것을 이제는 일반적인 환자들까지도 제공이 가능한 의료서비스의 체계로 넘어가고 있는 것이다.

상당 부분 기존의 의료진들에게 제공되는 정보들의 표현방식과 접근방법이 그 동안의 의료정보체계와는 많이 다를 것이다.

이미, 미국에서는 구글 글래스와 같은 도구들을 의대에서 교육하기 시작했다. 매우 당연한 환자와의 친밀한 서비스를 제공하기 위한 전통적인 'eye contact'뿐만 아니라, 해당 정보들을 매우 세밀하게 제공해주는 방법과 수많은 새로운 인포그래픽과 표현방법들, 엄청나게 만들어지는 생체신호들과 임상정보들을 배치하는 방법들에 대해서 새로운 미지의 영역들이 앞으로 광대하게 열려진것이다. 의료정보를 다루는 데이터 사이언티스트들은 언제나 기본에 충실하다. 그리고, 의료진들이 제대로 그러한 정보들을 관찰하고 직관할 수 있도록 유도한다.

매우 당연하지만, 숫자가 직접적이고 행동개선을 유도할를 알려주는 것이고, 이를 기반으로 원인을 분석한다는 것을 염두에 두고 있다. 언제나 의료진들이 환자를 생각하면서 연상되는 수많은 숫자들의 나열과 지표들의 나열들 속에서 훌룡한 숫자를 만들고, 가설을 만들고 검증을 하려 하는 것을 도울 것이다. 수치(rate)인지 비율(ratio)인지 고민하고 이것을 어떻게 색이나 형태로 표현할 것인지 고민한다.

분명하게 설명할 수 있는 정보의 형태와 데이터의 형태들을 어떻게 설명할 것인가 분명한 것은 '숫자'는 현재의 상황을 이야기한다. 그리고, 이러한 숫자들이 왜 그런가에 대해서는 유추할 수 있도록 도움을 줄 것이다. 앞으로 해당 컬럼은 앞으로 이야기할 내용들을 조금은 재미있게 언급하여 이야기하려 한다. 앞으로 의료정보에서 생각하는 데이터의 의미와 변화되어야 하는 개념들에 대해서 재미있는 이야기가 될 수 있도록 기대해주기를 바란다.



출처 : 한국데이터베이스진흥원

제공 : DB포탈사이트 DBguide.net