데이터이야기

DB 노하우, 데이터직무, 다양한 인터뷰를 만나보세요.

디지털헬스와 인공지능, 그리고. 데이터의 의미, #1

데이터 이야기

작성자

dataonair

작성일

2016-05-16 00:00

조회

4061

디지털헬스와 인공지능, 그리고. 데이터의 의미, #1

디지털헬스와 인공지능의 관심이 높아졌다. 하지만, 이 역시 ‘데이터’의 구성형태에 따라서 그 성패가 결정된다고 할 것이다. 이 부분에 대해서 몇번의 컬럼으로 정리해보도록 하겠다.

머신러닝에 가장 좋은 사례가 되는 것이 how-old.net이라고 불리우는 MS에서 공개한 얼굴인식을 통해서 성별과 나이를 판단하는 서비스이다. 물론, 이러한 서비스를 현재 만들어내는 것은 그리 어려운 것도 아니다. 적당한 시간과 개발인력만 투입된다면 어느 곳에서든 만들어 낼 수 있는 서비스이다.

하지만, 이 서비스는 MS내부의 해커툰에서 몇 명의 개발자가 단 하루의 협업 결과로 만들어진 결과물이다. MS의 관련 API와 클라우드 서비스의 밑바탕과 데이터를 다루는 근간이 명확하게 구성되어 있기 때문에 가능한 일이다. 알파고의 충격으로 가장 크게 의료기관에서 관심을 보이게 된 것은 기존에 구축되어진 의료정보들의 데이터형태와 질의 문제에 대해서 주목하게 됐다. 과연, 어느정도 정제와 추출작업을 진행해야 인공지능 의사의 트레이닝이 가능한 것인가에 대해서 관심을 가지게 된것이다. 과연 현재 의료기관에 축적되어진 의료정보 데이터들이 머신러닝에 적합한가에 대해서 내부 검토작업들을 활발하게 진행한 곳도 있고, 현재 진행중인곳들도 있다. 그렇다면, 왜 그런 형태를 가지고 가야하는지 간단하게 머신러닝에 대해서 알아보자.

먼저 기본적으로 machine learning에서 불리는 regression과 classification에 대한 의미를 알아야 설명이 진행될 수 있을 것 같다. 그 이야기를 하기 위해서 ML에 대해서 간단하게 나마 설명을 한다. machine learning( 이하 ML )은 소프트웨어이지만 개발자가 정해진 규칙에 따라서 동작하는 것이 아니라 규칙을 학습을 통해서 추가하는 자가발전이 가능한 것을 의미한다.

Arthur Samuel(1959)가 정의한 자기가 알아서 로직이 추가되는 것이 가능한 기법은 소프트웨어 개발자가 정해진 규칙을 일일이 만들어 추가하는 것이 매우 복잡해지는 상황을 생각한 것이다. 대표적으로 다음과 같이 예를 들 수 있다. 정의하기 어려운 것, 스팸 필터의 경우에 룰들이 추가되고 작동하는 것이 너무 많은 상태가 될 때에 어떤 자료와 현상에서 배우기 위한 개념을 의미한다. 이 기법들은 일반적인 소프트웨어 개발에서도 매우 흥미롭게 사용될 수 있는 개념들이다. ML기법을 사용한다는 것은 프로그램인데 개발자가 일일이 정한 것이 아니라, 데이터를 보고 학습해서 룰을 도출하는 것을 의미한다.

그런데 이럴 때에 머신러닝의 학습은 데이터는 미리 주어져야 하고, 이 데이터를 통해서 ML은 학습하면서 모델을 만들게 된다. 이때 데이터의 형태에 따라서 Supervised와 Unsupervised의 형태로 구분한다. Supervised learning 은 레이블을 정해진 상태로 학습하는 것을 의미하며. 대표적으로 Predicting exam score와 같이 문제와 데이터를 기준으로 학습하는 것들을 의미하고 있다. 이 방식은 트레이닝 셋에 대한 기준들이 명확하기 때문에 학습이 명확하다. 그래서, 대부분 이 기법을 사용하는 것이 일반적인 ML에 해당한다.

대표적인 Supervised learining은 이미지의 형태를 사람, 동물 등에 대해서 구분이 확실한 것에 대해서 정리된 트레이닝 셋을 통해서 학습시키는 방법이다. 결과가 조금은 더욱더 명확한 경우에 찾을 수 있다. 하지만, 뉴스나 워드에 대한 것들은 유사한 그룹핑만 가능하지, 레이블의 정의가 어려운 경우가 있다. 이때에는 Unsupervised 방법을 사용해야 한다. 스스로 데이터를 학습해야 하는 것이다. 그룹핑만 가능한 경우의 ML이지만 아직 이 기법들은 더 연구가 많이 진행되어야 한다. 그래서, 대부분의 머신러닝은 Supervised learning에 해당한다고 생각하면 된다.

대표적으로 교수님들이 리포트를 보고 시험평가에 대한 것도 가능할 것이다. 트레이닝 데이터셋을 명쾌하게 정의할 수 있으면 가능하다. ( 논문 표절과 같은 것도 충분하게 가능하다고 생각한다. ) Supervised learning의 핵심은 Training data set을 어떻게 만드느냐가 핵심이다. Training data set은 ML의 모델을 기반으로 답이 정해져 있는 것, 레이블이 정의되어 있는 값들에 대해서 모델을 만들어 내는 것이다. 이렇게 결론적으로 트레이닝 데이터 셋을 어떻게 만들고 구성하느냐가 핵심이 되고, 해당 팀이나 기업의 경쟁력에 해당된다.

우리가 쇼크로 바라본 알파고의 경우에도 동일하다. 기존의 기보를 통해서 학습이 가능한 데이터셋을 만들어낸 것이다. 그리고, 엄청난 클라우딩 컴퓨팅 능력으로 이 ML을 사용했다. 그 이외에도 시험의 성적을 예측하는 시스템을 만들어 내는 것의 경우에는 성적의 경우가 정해진 범위가 넓어지는 경우에 예측하는 것이 regression이라고 하고, 문제를 단순화하고 성공/패스 정도로 구분하는 것은 classification이라고 한다. 특히, 두 개 중의 하나를 고르는 것이므로 binary classification이라고 정의한다. 그 밖에 그레이드 grade ( A, B, C, D and F )로도 구분하는 경우에는 multi-label classification이라고 한다.

어떤 결과를 도출해야 하느냐에 따라서 사용되는 기법들이 달라진다. 그러한 결과 도출에 따라서 트레이닝 데이터의 형태를 잘 만들어내는 것이 필요하다.

헬스케어의 영역에서도 트레이닝 데이터셋을 충분하게 구성할 수 있는 준비가 되어 있기 때문에 문제의 위험 상황이거나 grade를 나누는 것에 대해서 가능성을 충분하게 가지고 있다. 가볍게는 증상에 대한 이야기를 듣고, 과를 선정하거나 의료진을 정의하는 것도 가능하며, 가장 많이 투자되고 있는 의료영상판독 분야도 이러한 관점에서 접근 중이다.

충분한 트레이닝 데이터셋을 만들 수 있는 증상과 진단에 대해서는 ML기법은 널리 사용될 수 있다. 결국, 어느 정도로 디지털화되어진 EMR(Electronic Medical Record)의 자료를 가지고 있으며, 주변의 데이터들과의 연관된 정보들을 구성하고 있느냐가 핵심이 된다. machine learning을 도입해서 인공지능 의사의 역할을 부여하려 한다면, 그 근간인 전자 의무기록을 어떤 식으로 구성해야 하고, 프로토콜과 모델에 대해서 의료기관이 정의하고 있어야 한다. 이러한, 기존의 자료들에 대한 검증작업과 분석, 정비작업이 선행되어야 하는 것이 국내 헬스케어 환경에서 중요한 화두가 될 것 같다.

이러한 관점은 보험회사나 의료기관이나 비슷한 관점을 가지고 있다. ML을 중첩적으로 사용하면서 헬스케어의 중요한 판단을 위한 기능적인 요소로써 충분하게 의미가 있다는 것을 체크하는 것 정도가 의미 있다 하겠다. 다만, 아쉬운 것은 국내의 대형의료기관의 의료정보들 대부분이 machine learning에 적합한 트레이닝데이터셋을 추출하기에는 표준화되어있다거나, 정제되어있는 데이터가 아니라는 것이다. 대부분 해당 데이터셋을 구축하기 위해서는 대부분의 의료정보를 다시 만들어야할 정도이다.

출처 : 한국데이터베이스진흥원

제공 : 데이터 전문가 지식포털 DBguide.net

« 알파고가 우리에게 남긴 교훈

단무지 시즌 IV: 단무지의 DB 운영 이야기 : 데이터 아키텍트 단무지, 아수라장에 홀로 떨어지다!!! »

목록보기