데이터 인터뷰

DB 노하우, 데이터직무, 다양한 인터뷰를 만나보세요.

“기계학습으로 의료 이미지 자동판별의 가능성을 확인하다” - 장인수 한국생명공학연구원 국가생명연구자원정보센터 연구원

DATA 인터뷰
작성자
dataonair
작성일
2017-12-20 00:00
조회
2390




생물정보학 연구원의 데이터 분석 도전기

“기계학습으로 의료 이미지 자동판별의 가능성을 확인하다”

- MRI 의료 이미지를 기계학습으로 판별·예측 가능성 확인
- 분석 목표를 정하여 멘토 지도 받으면 놀라운 결과 도출 가능
- 빅데이터 아카데미에서 집체교육 과정 적응하려면 사전학습 필수

개원한 지 올해로 5년째인 빅데이터 아카데미는 분석/기술/기획 전문가 과정을 시작으로 의료/금융/유통 융합 전문가 과정까지 개설되면서 국내 데이터 분석 전문가 양성의 요람으로 확고하게 자리 잡았다. 의사, 이코노미스트 등 각 분야 전문가들이 대거 참여해 수준 높은 프로젝트와 결과를 도출하면서 양과 질 측면에서 고른 발전을 가져온 것으로 평가 받고 있다.

지난 11월 17일에 열린 분석 전문가 과정 20기의 수료식은 오랜 경력의 분석가들도 놀랄 만한 수료 프로젝트들이 집중적으로 발표되면서 관심을 끌었다. 경합 끝에 ‘딥러닝을 이용한 유방암 메디컬 이미지 판별/예측 모형 구축 및 분석’ 조가 최우수 상을 수상했다.

이 조의 수료 프로젝트는 ‘의료 이미지를 기계학습으로 판별/예측’한 분석이었다. 데이터 분석 입문자들이 시도하기에 결코 쉽지 않은 주제를 참신하게 접근했다고 평가 받았다. 협업 프로젝트의 장점을 활용해 의료 분야와 이미지 분석에 대한 지식이 없던 조원들이 의료 이미지를 머신러닝 기법으로 접근한 한 것이다. 신뢰의 분위기 속에 협업했을 때 생각하지 못했던 우수한 결과를 끌어낼 수 있음을 확인시켜주는 사례였다. 이 프로젝트를 주도했던 장인수 한국생명공학연구원 연구원을 만나 빅데이터 아카데미에서 분석 경험에 대해 얘기를 나눴다.

in_079.jpg

▲ 장인수 한국생명공학연구원 국가생명연구자원정보센터 연구원

어떤 일을 하고 있고, 빅데이터 아카데미 분석 전문가 과정에 지원한 배경은.

생물정보학 분야에서 일하고 있다. 생물정보학은 다양한 생명 현상을 컴퓨터로 해석하고 이해하는 학문 분야로, 의료 분야와 밀접하게 연관돼 있다. 시나브로 전 세계적으로 생명 현상을 연구하면서 수많은 데이터를 쏟아내고 있다. 이를 분석하고 해석할 사람이 많이 필요해졌다는 뜻이다. 현재 이슈가 되고 있는 딥러닝 기계학습이 궁금해 여러 과정을 검토한 결과 빅데이터 아카데미 분석 전문가 과정을 선택했다. 교육 과정에서 이론만이 아닌 현장 전문가들로부터 조언을 받고 실제 데이터를 분석·운영해 볼 수 있는 기회를 갖고 싶었다. 수강 전 생각했던 것처럼, 이론 교육도 도움이 됐지만 수료 프로젝트 과정 중에 익히고 배운 내용이 실제 현장에서 큰 힘이 될 거 같다.

수료 프로젝트의 주제가 참신했다는 평가를 받았다. 주제를 소개하면.

딥러닝 기법을 적용하여 더 빠르고 정확하게 유방암 여부를 판별할 수 있는 모형을 구축하는 프로젝트였다. 미국 TCIA(The Cancer Image Archive)에서 임상정보(clinical info.)를 삭제한 유방암 MRI(magnetic resonance imaging)와 일반 검사 이미지인 MG(mammography)를 공개하고 있어서 이를 원천 데이터로 활용했다.

의료 융합 전문가 과정에서나 접근할 주제처럼 보인다. 조원 중에 의료 전문가가 있었나.

앞서 소개했듯이 조장인 내가 생명정보 분야에서 일하는 관계로 의료와 관련돼 있을 뿐 의료 전문가는 없었다. 이미지 분석 경험자도 없었다. 분석 측면에서 필요한 의료기술을 주변에서 도움을 받았고, 이미지 기계학습은 멘토의 도움을 받았다.

주제가 생소해서 위험 요소가 많았을 텐데, 유방암 발병 여부 분석을 프로젝트 주제로 선정한 배경이 있었을 거 같다.

개인적으로는 암이라는 질병이 어떻게 발병하고 어떤 원리로 작동하는지에 관심을 갖고 있었다. 주변의 지인들, 개인적으로 가깝게는 어머니께서 유방암을 앓고 계셔 개인적인 관심도 있었다. 데이터를 이용해 암을 조기에 진단할 수 있는 통계 모형을 개발하고 싶었다. 이런 관심을 조원들과 주제 선정 과정에서부터 공유했다. 조원 모두가 사회에 기여할 수 있는 주제, 정말 도전할 만한 가치가 있는 주제를 선정하길 원했으므로 본 주제를 정할 수 있었다. 게다가 우리 프로젝트 주제가 신선했다는 평가는 대부분의 사람이 관심을 갖는 주제였기 때문이지 않나 싶다.

프로젝트 과정에서 가장 어려웠던 순간과 그 해결 방법은.

가장 어려웠던 부분은 조원들이 서울, 대전, 안산, 부천에서 거주해 직접 만날 기회가 부족했다는 점이다. 지식을 공유하고 이해를 도와야 모든 조원이 프로젝트에 더 관심을 갖고 진행할 수 있었을 텐데, 자주 모이기 힘들었던 점이 아쉬웠다. 이런 아쉬움을 완벽하게 해결하지 못했지만 네이버 ‘밴드’를 이용해 지식을 공유하고 중간 결과와 해석을 공유했다. 조원 모두가 이미지 분석 경험과 의료 이미지 데이터 해석 경험이 없었던 것도 어려움으로 작용했다. 의료 이미지 데이터의 특성을 파악하기 위한 별도 스터디도 해야 했다. 조원 모두 데이터 분석에 관심이 많았고, 낯선 도메인의 업무를 해야 하는 상황에 미리 대비하는 마음으로 했기에 가능한 일이었다.

협업을 잘했던 팀이라고 들었다. 그 비결이 궁금하다.

다른 기수, 다른 조도 마찬가지겠지만 공교롭게도 조원 5명 모두 다른 업무 지식을 갖고 있었다. 모두 관심 주제가 다들 텐데 관심 없는 주제가 선정됐더라도 배우고자 하는, 새로운 내용을 하나라도 더 해보자는 긍정과 열정을 갖고 적극 참여했다. 조장인 내가 주중에 서울에 올 일이 있어서 ‘그동안의 결과를 공유하자’고 긴급 연락을 했을 때 이미 일정이 있었던 1명을 제외한 4명이 모두 참석했다. 관심과 열정이 없었다면 이렇게 협업이 잘 되진 않았을 것이다.

in_080.jpg

▲ 잔잔한 긴장 속에서 4주간 준비한 조별 수료 프로젝트를 발표했다.

빅데이터 아카데미 수강 전과 후에 달라진 점이라면.

지금까지 통계 분석을 해왔지만, 내가 알고 있는 지식이 얕고 공부해야 할 내용이 여전히 많음을 느낄 수 있었다. 데이터를 보는 시각도 달라졌다. 집체교육 중에 한 강사께서 "데이터를 이해하기 위해 탐사적 자료 분석을 한 달 정도 수행한다"는 이야기를 듣고 충격적으로 받아들였다. 현재 내가 알고 있는 데이터라고 쉽게 넘어간 부분은 없나, 데이터를 이해하기 위해 좀 더 노력한다면 뭔가 더 많은 내용을 알아낼 수 있지 않을까? 하는 생각을 했다. 또한 현재 인공지능·딥러닝 분야가 이슈가 되고 있지만 합성곱 신경망(convolutional neural network) 및 강화학습(reinforcement learning) 등 많은 분야가 학습의 의욕을 높이는 계기가 됐다.

프로젝트 주제를 심화하면 현업에 적용할 수 있어 보인다. 조원들과 계속 협업할 계획인가.

지속적 현업을 놓고 조원들과 의견을 나눈 적은 없다. 학술적이든 상업적이든 인공지능, 특히 의료분야의 인공지능 분야의 연구가 많이 진행되고 있다. 지금 의료 분야에서 진행중인 전문 연구와 비교해 우리 프로젝트가 어느 정도 수준인지는 가늠하기 힘들다. 이번에 적용한 딥러닝 방법도 사실 2012년도에 발표된 Inception V3 모델??으로도 매우 뒤쳐진 거다. 물론 시작은 늦었지만 이번 교육을 통해 최신 기술과 지식을 습득하는 데 도움이 됐다. 이런 주제에 대한 개인적인 관심이 높으므로 계속 발전시켜 현장에 적용하고 싶다.

수료 프로젝트를 진행할 후배 기수들에게 조언한다면.

가정 먼저 집체교육에 대해 말하고 싶다. 하루 8시간씩 2주 간 진행되는 집체교육 기간이 결코 길지 않다. 그래서 사전 학습과 교육이 매우 중요하다. 우리 조원 모두 ‘사전 지식이 없는 상태에서의 교육은 정말 쉽지 않다’는 것에 공감했다. 통계를 기반으로 한 분석 전문가 과정 20기 커리큘럼은 통계적인 지식을 많이 요구 했다. 따라서 교육 전 온라인 사전 교육 및 인터넷 자료를 활용해 사전 지식을 쌓고 빅데이터 아카데미에 참가한다면 더 큰 만족도를 느낄 수 있을 것이다. 두 번째로는 단순히 수료를 위해서가 아닌 자기 자신의 능력 향상을 위해 프로젝트에 참여하라는 것이다. 집체교육 2주, 프로젝트 4주는 짧다면 짧지만 결코 직장인으로서는 짧은 시간이 아니다. 하고싶은 주제가 아니더라도 적극적으로 다른 주제에서 의미를 찾고 해결 방법을 찾아가는 과정에서 배우는 것이 많을 것이다. 그 과정에서 멘토의 현장 체험과 조언을 들으면 내용이 머릿속으로 쏙쏙 들어온다. 마지막으로 교육에 목표를 갖고 참석하면 좋겠다. 커리큘럼을 보면 알겠지만 분석의 다양한 요소에 대해 배운다. 잘아는 부분도 있고 모르는 부분도 있겠지만 배워야 할 목표를 정해놓고 참석한다면 집중도와 관심도가 훨씬 올라갈 것이다.

출처 : 한국데이터진흥원

제공 : 데이터 전문가 지식포털 DBguide.net