데이터이야기

DB 노하우, 데이터직무, 다양한 인터뷰를 만나보세요.

[의료2기] 염증성 장질환 IBD 환자의 결핵 발병예측 분석

데이터 이야기
작성자
dataonair
작성일
2018-03-30 00:00
조회
3193


의료 빅데이터 융합 전문가 2기

염증성 장질환IBD 환자의 결핵 발병예측 분석



THE CHALLENGES

의료 빅데이터 전문가 집체교육을 마치고 파일럿 프로젝트가 시작됐을 때 어 떤 주제로 분석을 진행해야 할지 고민이었다. 이때 건강보험심사평가원 전체 환자 데이터가 제시돼 여기서 무엇인가를 도출해 내는 프로젝트가 시작됐다. 데이터 명세서의 변수 명을 확인하면서 환자가 병원에 갔을 때 어떤 정보가 기 록되고, 그 정보를 어떻게 이용할 수 있을지를 팀원들과 의논했다. 주제 선정은 현직 의사로 활동하는 곽민섭 조원이 많은 도움을 주었다. 곽민섭 조원은 이전 부터 국가에서 제공하는 공공데이터에 관심이 많아서 제공 받은 데이터세트에 서 어떤 결과물을 도출할 수 있을지 정확하게 짚어 주었다. 논의 결과 염증성 장질환 환자 분석을 프로젝트 최종 주제로 선정했다.

데이터 분석으로 염증성 장질환 환자들의 약물 복용에 따른 결핵 발병예 측 모형을 제작하기 위해 우리 조는 다음과 같은 3가지 목표를 정했다. 첫째로 염증성 장질환 환자의 정확한 추출이 가능한 ‘염증성 장질환의 조작적 정의’를 완성한다. 둘째, 약제에 의한 ‘결핵 발병빈도를 파악하고 위험 인자를 확인한 다. 마지막으로 염증성 장질환 환자에서 결핵 발병 예방을 위한 ‘새로운 약물 치료 지침’을 구축한다. 염증성 장질환 환자들의 약물 복용에 따른 결핵 발병 예측 모형을 제작하기 위해 우리 조는 다음과 같은 3가지 목표를 정했다. 첫째, 염증성 장질환 환자의 정확한 추출이 가능한 ‘염증성 장질환의 조작적 정의’를 완성한다. 둘째, 약제에 의한 ‘결핵 발병빈도를 파악하고 위험 인자를 확인한 다. 마지막으로 염증성 장질환 환자에서 결핵 발병 예방을 위한 ‘새로운 약물 치료 지침’을 구축한다.



column_img_3322.jpg

THE APPROACH

사용 데이터

건강보험심사평가원으로부터 전체 환자의 2010~2014년 데이터세트(NPS) 와 A대학병원으로부터 조작적 정의 유효성검사(Validation)로 무작위 추출 (Random Sample)한 환자 데이터를 확보했다. 분석할 데이터가 코호트(cohort) 가 아닌, 1년 단위로 끊어져 있었으므로 1년 안에 발생할 수 있는 질병인 결핵 을 반응 변수로 선정했다.



column_img_3323.jpg

염증성 장질환·결핵 환자의 정의

데이터 분석 전에 가장 중요한 부분은 환자의 조작적 정의 를 구축하는 것이다. 데이터에는 환자가 특정 질환을 앓고 있다는 기록은 나와 있지 않았다. 이에 따라 여러 변수를 이용해 해당 환자가 특정 질병을 가진 환자라고 정의를 해 주어야 한다.

명세서에 나온 다양한 정보를 이용해 염증성 장질환 환자를 정의했다. 이때 정의한 조작적 정의가 얼마나 정확 한지 확인하기 위해 A대학병원의 환자 정보를 이용해 민 감도와 ‘병에 걸리지 않았는데 병에 걸렸다고 진단’하는 오진율(False Positive Rate, FPR)을 계산했다. 다양한 조작 적 정의 중에 검증 데이터세트에서 민감도와 발병으로 오 진하는 FPR을 가장 크게 하는 조작적 정의를 사용했다. 또한 결핵 환자의 정 의도 필요했다. 약제 조건에서 최소한 결핵약을 두 가지 이상 처방 받거나 400 table의 상병 코드가 결핵인 경우 결핵 환자로 정의했다.



데이터 탐색

유병률 확인
유병률(Prevalence)은 정의한 염증성 장질환 환자에서 총 환자 수를 나누고 10만 명을 곱한 값으로, 10만 명당 환자 수를 의미한다. [그림 2]는 다양한 조 작적 정의를 사용해 연도마다 IBD 환자의 유병률을 CD(Crohn Disease)와 UC(Ulcerative Colitis)를 나누어 정리한 것이다. 매해 환자 수가 증가 추세임을 확인할 수 있다. 기존 연구 결과에 나온 유병률 결과와도 비슷한 수치임을 확 인했다.

column_img_3324.jpg

파생변수 생성
약제 때문에 발생한 결핵을 확인하고 싶었으므로 최초 결핵 판정 시점과 최초 약 복용 시점 정보가 필요했다. 명세서에 나온 정보를 바탕으로 환자마다 시점 에 대한 변수를 추출했다. 약제도 Mesalazine, 면역 억제제, 항TNF 제제라는 3개 카테코리로 구분해 얼마나 복용했는지 파생 변수를 생성했다.

약제 복용 패턴 확인
약제 복용 패턴을 보니 항TNF 제제만 복용한 사람의 빈도가 매우 낮았다. 이 는 한국 의료 보험법상 다른 두 제제를 사용해야 그 이후에 항TNF 제제 처방 이 나오기 때문으로 분석됐다. 다양한 약제 사용 패턴들을 비교하기 위해 새로 운 그룹으로 재배분했다. 그룹1(G1)은 Mesalazine만 복용한 환자, 그룹2는 항 TNF 제제를 사용하지 않고 면역 억제제를 사용한 환자, 그룹3은 항TNF 제제 를 사용한 환자다. 약제 복용 패턴과 성별 나이를 고려해 결핵 발생 여부를 예 측하려고 한다.



데이터 분석

약제 최초 복용 시점과 결핵 판정 시점의 차이를 이용해 생존 분석을 진행했다. 건강보험심사평가원 데이터는 연 도별로 데이터가 끊겨 있어서 약제 최초 복용 시점과 결핵 판정 시점의 차이가 매해 0~400일 사이 값을 갖는다. 연 도별로 분석하지 않고 각 연도를 합쳐서 데이터를 분석했 다. 결핵 판정을 받지 않은 경우는 데이터가 중도 절단됐 다고 처리했다. Cox-PH(Cox Proportional Hazard) 모형 을 사용하여 방문 환자의 순간 위험율을 계산하였다. 결핵 판정 기준(Criteria)을 정할 수 있다면, 결핵 판정으로 예측 된 환자에게 검사를 지도할 수 있다.



column_img_3325.jpg

THE OUTCOME

다양한 조작적 정의 중 K code와 약제 조건을 사용하여 IBD 환자를 정의한 경우, 밸리데이션 결과 민감도(sensitivity)가 0.99 이상, 양성예측도(Positive Predictive Value)가 0.93으로 가장 큰 값이 나왔다. 따라서 여러 조건 중에 K code와 약제 조건을 사용해 염증성 장질환(IBD) 환자를 정의했다.

약제 최초 복용 시점과 결핵 판정 시점의 차이를 시간으로 하여 카플란마 이어 커브(Kaplan?Meier Curve)를 그려서 그룹 간 생존 커브(Survival Curve)가 다름을 확인할 수 있었다 로그순위시험(Log Rank Test) 결과로 그룹1과 그룹2, 그룹1과 그룹3 간에 유의한 차 이를 확인할 수 있었다.

변수가 결핵 발생 여부에 어떻게 영향을 주 는지 확인하기 위해 Cox?PH 모형을 적합했 다(fitting). 하지만 Cox?PH 모형은 시간에 따 라서 HR(Hazard Ratio)이 일정하다는 가정이 필요하다. 성별에 따라 HR이 일정하지 않아 성 별을 층화 변수로 보아 Stratified Cox Regression을 재적합(Re-fitting)했 다. 그 결과 G1(그룹1, 이하 동일) 대비 G2 HR = 2.14, G1 대비 G3 HR = 1.88, 20~40세 대비 40세 이상 HR= 0.76, 20~40세 대비 0세~19세 통해 약물 사용패턴 성별 연령군 정 보가 있으면, 순간 위험율을 계산할 수 있다. 나중에는 데이터세트를 이용해 train과 test로 나눠 오분류율을 최소화하는 결핵 판정 여부 기준(criteria) 설 정도 가능할 것으로 예상된다.

column_img_3326.jpg

column_img_3327.jpg

분석 대상 데이터가 1년치 데이터다 보니 추적할 수 있는 기간이 400일 안쪽으로 짧았다. Cohort 데이터로 실제 결핵이 발생하는 환자 수를 확보해 다시 분석해 보고 싶다. 현재 분석에는 결핵 환자 수가 상대적으로 적어 분석 의 오류(bias)가 있다. 또한 결핵 예측을 확인할 수 있는 세팅 값을 정하고 싶 다. 되도록 많은 데이터를 확보해 오분류율을 최소화할 수 있는지를 확인해 보 고 싶다.



출처 : 한국데이터진흥원

제공 : 데이터 전문가 지식포털 DBguide.net