데이터이야기

DB 노하우, 데이터직무, 다양한 인터뷰를 만나보세요.

빅데이터 관점에서 의료정보의 규모와 관계

데이터 이야기
작성자
dataonair
작성일
2016-11-14 00:00
조회
4015


빅데이터 관점에서 의료정보의 규모와 관계


바로 전의 컬럼에서는 데이터를 통하여 삶의 질을 바꾸는 것에 대한 내용으로 진행했다. 90년대에 정착된 근거기반의학(EBM- Evidence-Based Medicine)을 수행하기 위한 데이터 수집에 대해서 앞으로의 많은 변화가 예측된다. 의학은 그동안 만나지 못했던 많은 양의 데이터를 접하고 해당 데이터들을 모델화 하고 실험을 진행하며, 검증과 통계학과 과학적 방법론을 새롭게 도출할 것이다.

이번 컬럼에서는 빅데이터 기반의 데이터 관점의 수집되는 데이터의 형태에 대해서 좀더 알아보겠다. 과연 새롭게 의학이 만나게될 데이터는 어느 정도 규모의 데이터들일까 이런 큰틀에서 가장 크게 움직임을 보이는 회사는 바로 IBM이다.

빅데이터 관점의 의료정보의 규모와 관계에 대해서 알아보려면, IBM의 행보를 주목하고 관련된 자료들을 조사해보는 것이 매우 유용한다.

바로 아래의 그림은 IBM에서 발표한 자료이다.

dbin_543.jpg

위의 자료는 IBM이 2014년에 발표된 ‘IBM Health and Social Programs Summit’에서 인간이 만들어낸 데이터의 전체적으로 생산되는 유추데이터들을 정리해놓은 것이다. 해당 자료를 참조하여 데이터의 구성을 살펴보면, 인간이 만들어내는 데이터를 의료 데이터, 유전체 데이터, 그 외에 생체 시그널의 활동 데이터의 3가지로 구분하고 있다.

이렇게 구분된 3가지 형태의 데이터를 중심으로 일생동안 만들어내는 이 세 종류의 데이터의 크기를 정리한 것이다.

현재까지 알려진, 혹은 일부 추가되는 의료데이터가 0.4TB 정도가 된다고 예측되고, 유전체 데이터가 6TB로 정리된다.. 외부적 요인에 대한 데이터의 추정치는 생체 시그널에 대한 데이터량이 가장 크게 측정된다. 이 데이터는 일평생 추적한다면 1100TB의 데이터량으로 추측되고 있다.

또한, 이 데이터는 우리의 건강 정보에 미치는 영향도를 정리한다면 의료데이터의 영향도는10%, 유전체데이터는 30%, 생체 시그널을 통한 식습관과 운동습관등의 데이터는 60%정도의 영향도가 있다고 조사가 되었다고 한다.

IBM은 이렇게 유추되는 개인의 빅데이터 정보들을 기반으로 하여 1000TB 규모의 데이터를 정의하고 운용할 수 있는 환경을 구축해야 한다고 이야기한다.

또한, IBM은 왓슨에게 정제되어 있는 의학모델로써 1500만 페이지 분량의 의료 논문에 대한데이터와 200여개의 의학서적을 트레이닝 하였으며, 300여개의 의료저널을 온톨로지 기반으로 학습하는 작업을 진행했다.

IBM은 왓슨의 머신러닝들을 효과적으로 결합하여 연구를 진행하고 있다. 또한, 추가적으로 IBM은 2016년 2월에 건강정보 데이터 업체인 트루벤 헬스 애널리틱스를 26억달러( 2조원 )에 인수하였다. 현재 1년 사이에 헬스케어 분야에서만 주요 업체들을 4번의 인수를 통해서 인수했으며, 인수금액은 40억달러에 달한다.

현재 IBM왓슨 헬스 분야의 직원은 5,000여명에 이르고, 3억명 분의 환자정보를 보유하고 있는 것으로 평가되고 있다.

IBM의 데이터를 기반으로 기대되고 있는 것은 의료업계에서 주목하고 있는 애널리틱스 3.0고 관련된 내용들이다. 5가지로 정리되는 애널리틱스 3.0의 내용중에 ‘처방전’과 관련된 접근법에 대해서는 다음과 같이 정리할 수 있다.

하나. 기존의 데이터 관리 및 분석 기능에 이 데이터를 활용한다.
둘. 대량의 비정형 데이터인 진료 노트정보 등의 수집에 필요한 제품과 서비스의 구조 변경등의 혁신이 필요하며, 해당 데이터들을 통합한다.
셋. 필요하다면, 의료정보에 하둡과 NoSQL을 도입하여 비정형 데이터들을 관리 운용해야 한다.
넷. 애널리틱스에 대한 업무 프로세스를 확장하고, 해당 시스템을 도입하여 치료 현장에서 활용이 가능할 수 있도록 구성해야 한다.
다섯. 의사나 약사등의 의학적인 자격이 있는 인물들을 최고 애널리틱스 책임자를 임명해야 한다. 이는, 수집된 데이터들이 의미가 있는 형태로 정제가 될 수 있는 인사이트가 있는 인물이 이 프로젝트를 지휘해야한다.

대븐포트는 “이들의 활동을 통해서 의료기관들은 ‘애널리틱스 성숙도’를 높이고, 내부적으로 관련 지식을 축적하는 단계를 높여서, 내부적인 성숙도를 갖추어야 한다고 이야기한다’. 또한, 이런 행위들은 기반으로 인사이트를 도출하여 이해당사자들 중에 임원 및 이사진들에게 애널리틱스의 잠재력을 충분하게 설득 가능하다고 이야기하고 있다.

IBM만의 움직임이 아니라, 의료데이터의 빅데이터 관점은 이제 시작하는 단계를 넘어섰으며, 주요 의료기관의 역량을 극대화하는 것에 큰 의미를 가진다고 설명할 수 있다.

의료에서의 관점에서의 의료정보는 이제 일상생활들의 정보에 관심을 집중적으로 가지고 있으며, 이에 대한 충분한 모델과 검토, 분석 작업들을 충실하게 이해할 수 있는 담당자와 애널리틱스 책임자들을 필요로 하고 있다.

이는 데이터사시언티스트라고 불리우기도 하고, 애닐러틱스 책임자라고 불리우기도 한다. 이런 관계는 향후 의학의 변화에 중요한 역할을 할 것으로 기대한다.



출처 : 한국데이터진흥원

제공 : 데이터 전문가 지식포털 DBguide.net