데이터이야기

DB 노하우, 데이터직무, 다양한 인터뷰를 만나보세요.

의과학에서 통계학을 넘어선 데이터량

데이터 이야기
작성자
dataonair
작성일
2017-08-02 00:00
조회
6431


의과학에서 통계학을 넘어선 데이터량



풍부한 임상경험을 기반으로 복잡한 의료의 현장에서 새로운 모델과 방법등을 고민하고 의학적인 통찰력을 도출하는데 가장 중요한 역할을 하는 의사의 자리를 위협하는 것이 과연 인공지능일까하는 물음에 대해서 다음과 같은 재미있는 결론들이 도출되고 있다. 매우 복잡한 의료 데이터를 분석한 다음에 의학적 의미가 있는 통찰력으로 새로운 의미를 도출하는 것은 ‘인공지능’이 아니어도 가능하다는 것이다.

좀더 쉽게 이야기한다면, 질병의 발병을 예측하거나 환자별 특성을 고려한 개인화된 맞춤 치료를 설계하고, 새로운 약을 만들기 위한 방향성을 제시하는 것과, 의료기관에서 동일 병명으로 재입원하는 환자들의 숫자를 줄이기 위한 노력으로 전체적인 비용을 낮추는 목적등의 작업을 하는 것은 현재의 데이터를 다루는 기술로도 충분하다는 것이다.

데이터를 기반으로 특정 질환을 예측하거나, 데이터를 중심으로 환자와 질환관계를 도출하는 것은 기존의 통계학을 기반으로한 의사들의 연구를 통해서 이루어지는 것이 정설이었다. 특정 질환의 위험성이 높은 사람들을 가려내는 연구들을 장기간 진행하고, 그것에 대한 가이드라인을 만들어서 실제 임상현장에서 활용을 하는 방법으로 진행된다.

대부분이 기존 의학기술을 기반으로한 연구와 경험을 바탕으로 통계적 기반으로 뽑은 수치들을 사용한다. 그런데, 현대의 데이터기술들은 이런 기존의 경험 기반의 기준들이 정말 최선의 방법이고, 최고의 예측이 가능한 모델인지에 대해서 의문을 표시하기 시작했다. 생각보다 허약한 사례들과 데이터들이 부족하지만, 인간 의과학자들의 개입으로 변수가 조정되고, 경험치에 의해서 결과가 만들어진 현재의 모델들에 대해서 지적하기 시작했다.

분명한 것은 의료기술이나 현재의 모델들은 분명 오차율이 존재하는 통계학적 방법을 사용하고 있다. 그리고, 그 것들은 그 오차율에 해당 되는 사람들에게 불행을 초래하기도 한다. 가장 최근의 연구 결과들을 보면 매우 흥미로운 사례들을 찾을 수 있다.

의료계에서 만들어진 표준 가이드라인과 데이터를 기반으로 분석된 가이드라인의 어느 방향이 더 올바른 모델을 만들어 내느냐에 대한 연구결과이다.
http://journals.plos.org/plosone/articleid=10.1371/journal.pone.0174944

기존의 ACC/AHA 가이드라인에 대한 위험요소에 대해서 데이터 기반으로 추출한 위험요소에 대해서 연구한 결과를 발표했다. ACC/AHA는 미국 심장병 학회(American College of Cardiology)와 미국 심장 협회(American Heart Association)이 만든 ACC/AHA 가이드라인이다. 심혈관계 질환의 위험성이 높은 사람들을 가려내기 위한 표준 가이드라인이라고 생각하면 된다. 이 자료를 보면, 378,256명의 전자의무기록의 데이터인 임상자료들을 기반으로 4가지의 기계학습 알고리즘을 사용하여 심혈관 질환의 발병과 관련되어진 패턴을 분석한 것이다. 흥미로운 것은 이 방법으로 만들어진 가이드라인이 2005년 까지 사용되던 가이드라인과는 상당히 다른 방향성을 수립한 것이다.

해당 기계학습을 통한 데이터 분석에 의하면 심혈관 질병의 주요 위험요소라고 판단되어진 것들 것 기존의 표준 가이드라인에는 포함되어있지 않았던 것들이 다수 들어났다. 기존의 가이드라인에서 중요하게 생각한 10가지와는 다르게 인종적인 차이(ethnicity)와 정신질환에 대한 부분을 중요하게 여기며, 경구용 스테로이드(oral corticosteroid)의 복용이 심혈관계 질환의 주된 위험 요소라고 모델이 정의된 것이다. 이와 관련된 내용들은 기존 인간들이 만들어낸 가이드라인과는 사뭇 다른 형태였다.

더 충격적인 것은 기존에 사용중이던 ACC/AHA 가이드라인에서는 당뇨병이 실혈관 질병에 주된 원인이라고 이야기되었지만, 데이터 중심으로 기계학습이된 상황에서 도출된 가이드라인에서는 당뇨병을 주된 위험요소라고 이야기하지 않는다는 것이다. 복잡한 이야기는 하지 않겠지만,

http://journals.plos.org/plosone/articleid=10.1371/journal.pone.0174944

해당 저널에서 이야기한 내용들을 정리하면 다음과 같다.

데이터 기반한 분석이 기존 의료계에서 사용되던 가이드라인보다 매우 효과적이라는 것을 데이터로 증명되었다는 점이다. 예측비율은 높고, 실수하는 비율은 더 낮았다. 단지 데이터만 놓고 결과를 이야기한다면, 데이터중심의 가이드라인을 만들어서 진료를 했더라면 더 많은 환자에게 좋은 조치를 했을 것이라는 점이다. 분명한 것은 과거의 데이터를 다루는 능력은 인간을 뛰어넘을 방법이 없었다. 사람의 힘과 경험, 그리고. 협업을 통하고, 통계학이라는 방법을 기반으로 모델을 만들고 가설을 수립하고, 증명과 정리를 통해서 많은 과학이 발전하게 된 것은 너무도 당연한 것이었다. 하지만, 엄청나게 많은 데이터가 축적되고 있는 현재의 시점에서는 사람의 힘만으로는 이러한 방대한 데이터들을 다룰 수 없다는 것이다. 그리고, 더 많은 데이터들은 더 좋은 결론과 결과를 만들어내는 것이 매우 당연하기 때문에 데이터들은 더 많이 모여야하고, 더 많은 데이터로 더 좋은 결과를 만들어 내야 한다.

분명한 것은 의료현장에서는 모든 데이터들을 모아서 분석할 수 있으며, 더 수학적인 의미있는 모델을 만들어 낼 수 있는 것이다. 이렇게 만들어진 결과들은 과거의 의과학 전문가들의 경험 기반의 의미보다 더 나은 결과를 지향한다는 것을 알 수 있는 것이다. 기존의 이론들을 현재의 데이터 중심으로 재해석을 하거나, 재정의를 하려는 움직임이 매우 활발하게 움직이고 있다. 데이터를 다루는 것이 더 쉬워졌으며, 데이터를 다루는 것이 비용도 얼마 들지 않은 시대로 돌입한 것이다. 국내 의과학계에서도 데이터 기반의 분석과 데이터 중심으로 기존의 가이드라인에 대해서 다시한번 검증을 하고, 재정의를 하는 혁신적인 시대로 돌입하는 것이 더 의미있지 않은가 하다. 하지만, 현실의 의료현장을 돌아다보면, 아직도 과학적인 논문이 제대로 나오고 있지 않는 한의학과의 갈등과 원격의료는 가능하지만 원격처방이 불가능하다는 약학계의 반대, 저비용의 의료수가등의 복지와 산업이라는 말도 안되는 방향성까지, 매우 암담한 현실의 상황을 한국은 맞이 하고 있다.

우리는 과연 어떤 투자와 어떤 방향을 가져야 할까 데이터 중심의 의료현장과 데이터 중심의 분석을 중요하게 여기는 환경으로 변화되기를 기원한다. 분명한 것은 국내 의학계도 변하고 있으며, 의대본과생들이 SQL과 R을 공부하는 것은 매우 고무적인 일들이다. 데이터는 이제 의과학자에게는 너무도 당연한 기본이 되어버렸다.



출처 : 한국데이터진흥원

제공 : 데이터 전문가 지식포털 DBguide.net