안티캔서는 사용자 중심의 암 완치율 / 치료기간 예측 대시보드 서비스로, 암 빅데이터를 기반으로 한 ‘완치확률 & 치료기간 예측 및 환자별 최적 항암 솔루션’ 을 제공합니다.
어려운 의학용어 대신 직관적인 그래프와 수치 데이터를 제공하기 때문에 의료지식이 전무한 일반인들도 파악하기 쉽습니다.
뿐만 아니라, 환자의 개인정보 보호를 위해 블록체인과 분산형 머신러닝 기술이 합쳐진 최신 머신러닝 기법 ‘Swarm Learning’을 활용한 인공지능 기술을 도입했습니다.
오늘날 암은 한국인 사망률 1위를 차지하고 있습니다.
암을 진단받은 환자들과, 암환자들의 가족들의 가장 큰 관심사는 물론 환자가 무사히 생환할 수 있는지,
혹은 얼마나 시간이 남았는지, 와 같은 생명과 직결된 중요한 문제들입니다.
팀 사모예드(사망률 모두 예측해 드립니다)가 만든 ‘3대 암 생존여부 및 생존일수 예측 모델’은 다음과 같은 서비스를 제공합니다.
1. 환자들의 종합 검진 결과를 바탕으로 암 생환 가능성을 확률 수치로서 진단합니다.
2. 환자들의 종합 검진 결과를 바탕으로, 암으로 사망할 확률이 높은 환자의 경우, 남은 생존 시간을 예측합니다.
이와 같은 서비스는 모두 국립암센터에서 제공받은 환자들의 암 빅데이터를 바탕으로 한 딥러닝(deep learning) 인공지능 학습을 통해 제공됩니다.
AI 학습을 바탕으로 암 환자의 사망률과 생존 일수를 예측 정확도는 다음과 같습니다.
-생존률 예측 정확도 (평균) : 62.47333%
-생존 일수 예측 정확도 (평균) : 80.98%
생존률 예측 정확도는, 암 예후 인자(연령, 성별, 병기 요인, 종양의 특성 등) 만을 고려한 2020년 서울의대/국립암센터 주관 암 5년 생환률 예측 모델 최고 정확도 71.3%와 비교하여
다소 저조하지만, 주제 선정으로부터 개발 기간이 보름에 불과하였고, 학습에 사용된 데이터 역시 실제 환자의 데이터가 아닌 합성가공된 인조 데이터였음을 고려할 때 나쁘지 않은 수치입니다.
또한, 생존 일수 예측 정확도는 평균이 80퍼센트가 넘음으로써 저희 서비스를 현업에서 바로 사용할 수도 있을 만큼 우수한 성능을 발휘합니다.
아래는, 저희가 행한 데이터 가공 및 학습 알고리즘에 대한 보다 자세한 설명입니다. 관심 있으신 분은 참고해주세요.
서비스의 성능을 높이기 위해 저희 팀 사모예드는 크게 두 가지 방법론을 구상했습니다.
① 암 데이터 전처리(Feature Engineering).
- 암 데이터 전처리(Feature Engineering)은 학습에 사용할 변수들을 선별, 정제, 합성하여 학습 효율과 정확도를 높이는 작업입니다.
학습에 주로 사용된 변수는 나이, BMI(체지방지수), 병기 stage, EGFR, EGFR mutation , 조직학적 진단명, 종양 증식도, 호르몬 수용체, 유방암 ER/PR 여부 등 입니다.
- 다음은 각 데이터의 전처리 방식의 상세 설명입니다.
• 나이, Age.
5년 암 특이 생존율은 40세 미만 군이 84.1%, 40세 이상 75세 미만 군이 82.8%, 75세 이상 군이 70%로 연령군 별로 유의미한 차이를 보입니다.
따라서 Age를 75세 기준으로 범주화 할 수 있습니다.
단, 유방암의 경우 예외로 ’유방암 예후 인자로서 젊은 연령에 대한 고찰’ 연구에서 젊은 연령군에서 사망한 경우는 16.34%로서
5년 생존율은 76.8%이고, 10년 생존율은 60.9%였습니다.
이 연구뿐 아니라 대부분의 다른 연구들에서 35세를 기준으로 젊은 연령군과 고령군으로 나누고 있어 35세를 기준으로 범주화 하였습니다.
• 병기 STAGE
암의 예후는 원발 종양의 크기(T), 림프절 전이 정도(N), 다른 장기로의 전이 여부(M)으로 예측할 수 있습니다.
그러나. 어느 것 하나만 보고 해당 환자의 예후를 예측할 수는 없습니다.
즉, T, N, M을 개별로 학습시키는 것보다 3가지를 합성하여 특정 분류에 의해 분류된 결과가 사망여부와 생존율에 영향을 더 미칠 것입니다.
따라서, TNM 항목 전부를 대장암의 경우 DUKE 분류로, 나머지는 Stage 분류에 따라 합성하였습니다.
• BMI
BMI와 대장암 생존율을 분석한 한 연구에 따르면, 저체중군/정상체중군/과체중군/비만군/병적비만군의 5년 전체 생존율은
각각 54.4%, 73.8%, 78.6%, 77.2%, 53.8%로 저체중군 및 병적 비만군의 생존곡선이 비슷한 양상을 보이며,
다른 군에 비해 생존율이 유의하게 낮은 것으로 확인되었다고 합니다.
따라서 Height와 Weight를 활용하여 계산한 BMI값을 제시한 기준에 따라 범주화 시켰습니다.
• 대장암 조직학적 진단명 코드
EGFR이 발현된 종양조직은 그렇지 않은 종양조직에 비해 더 침습적이고, 더 전이를 잘해 예후가 좋지 않습니다.
조직학적 진단명별로 분류된 각 변수에 EGFR의 여부를 합성하여 준다면 보다 더 생존율과 사망여부에 영향을 미치는 변수가 될 수 있습니다.
따라서 Mucinous, signet ring cell, adenocarcinoma, squamous cell carcinoma, Neoplasm malignant 컬럼은 각각 EGFR 컬럼과 합성하였습니다.
또한 WHO에서는 종양 증식도인 유사분열수와 Ki-67 index(%)를 이용해 NET grade 1, 2, 3으로 나누고 있습니다.
분화도의 등급이 1에서 3으로 갈수록 악성도가 높아 예후가 좋지 않습니다.
따라서 carcinoide tumor와 Neuroendocrine carcinoma 컬럼을 합성하여 grade별로 나타내주었습니다.
• 대장암 EGFR, KRASMUTATION_EXON2, KRASMUTATION, NRASMUTATION, BRAF_MUTATION
EGFR이 발현되면 EGFR 표적 치료를 시행하게 되는데 이 치료의 경우 성공 확률이 높고 예후도 좋습니다.
그러나 KRAS, NRAS, BRAF의 변이를 가진 환자의 경우 EGFR 차단제에 저항성을 가져 치료의 효과가 없게 됩니다.
따라서 이 4가지 변수는 서로 상호 연관성이 있는 변수라 생각되어 합성하였습니다.
• 폐암 조직학적 진단명 코드
폐암은 비소세포암과 소세포암으로 나눌 수 있습니다.
비소세포암에 adenocarcinoma, Large cell carcinoma, Squamous cell carcinoma가 포함됩니다.
소세포암은 비소세포암에 비해 치료가 상당히 어려운 편이며 생존율도 상당이 낮습니다.
따라서 해당 컬럼은 비소세포암, 소세포암 2가지 군으로 나누어 합성한 데이터도 사용하였습니다.
• 폐암 EGFR mutation 발견 여부
폐암은 비소세포암과 소세포암으로 나눌 수 있습니다.
EGFR mutation 검사는 소세포폐암 환자에서는 권고되고 있지 않기 때문에
이를 고려하여 새로 합성된 조직학적 진단명 컬럼과 해당 컬럼을 합성하여 새로운 변수를 합성하였습니다.
• 유방암 조직학적 진단명 코드
침윤성 암종 혹은 비침윤성 암종의 여부에 따라 생존율과 사망 여부에 영향을 미칠 것입니다.
따라서, Inductal carcinoma, infiltrating duct carcinoma가 각각 비침윤성, 침윤성 암종이므로 둘을 합성하였습니다.
다른 조직학적 진단명인 Adenocarcinoma, lobular carcinoma, Metaplastic carcinoma는 TNM 중 N을 통해 침윤의 여부를 파악하고자 하였고,
이들도 침윤성일수록 예후가 좋지 않음을 나타내었습니다.
• 유방암 ER, PR
‘호르몬 수용체와 임상 병리학적 예후인자와의 관계 및 예후’ 논문을 통해 ER, PR을 단일로 봤을 때 보다
ER과 PR의 양성/음성 유무를 함께 보는 것이 생존율에 더 유의한 영향을 주는 것을 알 수 있었습니다.
따라서 ER, PR을 합성하였습니다.
② 다양한 AI 모델 동시 학습.
- 다양한 AI 모델 동시 학습은, 단 하나의 AI 모델을 사용하는 것이 아닌, 여러 종류의 AI 모델을 학습시켜 종합 판단을 내리는 것으로,
더 객관적이고 정확한 수치를 결과로 삼을 수 있어 성능을 업그레이드 할 수 있습니다.
- 저희 프로젝트는
Fully_connected Deep Neural Network(이하 DNN 모델),
Convolutional Neural Network(이하 CNN 모델),
CatBoost-XGBoost-LGBM 3종 Logistic 회귀 앙상블 예측 모델(이하 앙상블 모델)
- 3가지 AI 모델이 같은 데이터를 두고 학습에 참여합니다.
- 아래는 각각의 AI 모델 설계에 대한 기술적인 설명입니다.
• Fully-Connected Neural Network Model.
Dataset : 입력값은 다양한 종류의 환자 암 빅데이터 합성 값이다.
입력값 가운데서 실수형 숫자 데이터들은 0~1 사이로 스케일을 조정해주었고, 범주형 데이터는 모델이 잘못된 경향성을 학습하지 않도록 모두 one-hot 인코딩 시켜주었다.
결과값은 ‘각 환자의 최종 생존 여부’, 혹은 ‘사망한 환자의 경우 상위 25%의 생존일수를 넘겼는지의 여부’로, one-hot 인코딩 된 정답 데이터이다.
각 암의 Train dataset과 Validation dataset은 각각 암별 학습데이터.csv와 합성 데이터.csv를 이용해 만들었다.
모델 개괄 : tensorflow keras 라이브러리를 사용하여 구축하였다.
학습은 총 4층의 순차적인 Dense Network Layer를 거치며 진행된다. 각각의 Dense Network Layer 이후에는 Drop out Layer와 Batch Normalization Layer가 추가되어있다.
마지막 레이어는 2개의 뉴런을 가진 최종 출력 레이어이며, 각각의 뉴런에 생존 혹은 사망 여부를 예측하는 확률이 출력된다. 총 학습 파라미터는 2,765,938개이다.
활성화 함수(activation function) : 마지막 레이어를 제외한 모든 레이어는 학습 속도 문제와 Gradient Vanishing 에 대한 우려를 고려해 relu activation 함수를 사용하였다.
마지막 레이어는 생존 혹은 사망 예측 확률을 출력하기 위해 softmax activation 함수를 사용한다.
특이 사항 : 가장 뉴런의 밀집도가 높은 첫번째와 두번째 Dense layer는 가중치와 결과값에 각각 l1 regularizer, l2 regularizer를 적용하여 과적합 문제를 방지하였다.
Drop out Layer와 Batch Normalization Layer를 사용한 이유도 과적합 문제를 방지하기 위해서이다.
Loss 규정 및 학습 방법 : 이 모델의 loss는 정답 라벨(사망 혹은 생존 여부)과 최종 출력값과의 Categorical Cross entropy이며,
Adam Optimizer로 Loss를 Gradient Descent 방식으로 줄여나간다.
keras callback의 EarlyStopping 클래스를 이용하여 최대 25회의 epochs 이전에 accuracy에 진전이 없으면 과적합 방지와 학습 효율을 위해 학습을 중지하도록 정하였다.
• Convolutional Neural Network Model.
Dataset : DNN 모델의 Dataset과 동일하나, Convolution Layer에 dataset을 입력하기 위한 기술적인 이유로 입력값 차원을 조정해주었다.
모델 개괄 : tensorflow keras 라이브러리를 사용하여 구축하였다.
학습은 총 4층의 순차적인 Convolutional Layer 를 거치며 진행된다. 각각의 Convolutional Layer 이후에는 Drop out Layer와 Batch Normalization Layer가 추가되어있다.
또한 중간에 데이터의 크기를 줄이고, 과적합을 방지하기 위해 Max Pooling Layer를 삽입하였다.
마지막 Dense Layer를 거치기 전에 Global Average Pooling Layer를 삽입하였다. 마지막 레이어는 2개의 뉴런을 가진 최종 출력 레이어이며
각각의 뉴런에 생존 혹은 사망 여부를 예측하는 확률이 출력된다. 총 학습 파라미터는 2,821,026 개다.
활성화 함수(activation function) : 첫번째 레이어와 마지막 레이어를 제외한 모든 레이어는 학습 속도 문제와 Gradient Vanishing 에 대한 우려를 고려해
relu activation 함수를 사용하였다.
첫번째 레이어는 보다 다양한 feature map을 보기 위해 leaky relu activation 함수를 사용하였다.
마지막 레이어는 생존 혹은 사망 예측 확률을 출력하기 위해 softmax activation 함수를 사용한다.
Loss 규정 및 학습 방법 : DNN 모델과 같다.
• CatBoost-XGB-LGBM Logistic Regression Ensemble Model.
Dataset : DNN 모델의 Dataset과 동일하다. 단 기술적인 이유로 결과값 라벨은 원-핫 인코딩되어있지 않은 0 or 1의 값이다.
하이퍼 파라미터 : 각 CatBoost, XGBoost, LGBM Classifier의 기본값(subsampling, number of leaves, depth, boosting 방식 등등)을 사용하였다.
이때 k-fold 교차 검증의 데이터 셋의 개수는 3개로 정하였다.
- 배경
① 초창기 의료 인공지능의 선두자인 Watson for Oncology의 개선 필요
② 대장 내시경 검사의 부작용 및 오진 가능성
-> 다양한 지표에 기인해 대장암 병기를 판단하는 모델 제작을 목표로 삼았다.
- 가설 검증
① 조직학적 진단 코드값 중 1(1:예)의 개수가 많을수록 Death 비율이 높고 생존일수가 짧을 것이다.
② 조직학적 진단 코드값 중 1(1: 예)의 개수가 많을수록 암 병기값이 높을 것이다.
③ 음주와 흡연을 할수록 사망 비율이 높고 생존일수가 짧을 것이다.
- 모델 학습
① X, Y 데이터 재정의, 데이터 전처리(X 데이터 스케일 통일), 최적화 방안 통일
② 회귀모델 4가지(DecisionTreeRegressor, RandomForestRegressor, XGBRegressor, SVR) 사용.
모델 최적화 후 회귀평가지표 MAE를 도출
- 결과
① 4가지 모델 중 SVR의 성능이 가장 좋게 나타남.
② VotingRegressor를 이용해 가장 성능이 좋았던 SVR의 예측값에 더 비중을 두어 평균값을 반환하도록 설계.
- 기대효과
① 수술 진행 전, 보다 정확한 병기 판단 가능, 임상 병기의 불확실함 감소.
② 검진 시간을 단축하고, 의사의 최종 판단을 뒷받침할 수 있음.
③ 환자의 치료 방향, 예후를 예측하고 준비하는 것이 용이해짐.
- 발전 가능성
① 대장암 병기 값과 관계 있는 다양한 데이터를 확보하여 모델 학습을 하고, Voting 진행 시 상호 간 독립성이 강한 예측기를 활용한다면
더욱 강력한 대장암 병기 예측 모델을 구축할 수 있을 것.
• 배경
매년 증가하는 암환자의 수로 국민의 37.4%가 암을 경험하게 될 것이 예측되며, 치료율은 높이면서 부작용은 최소화하는 맞춤 치료와 예후관리의 필요성이 강조되고 있다.
고차원의 유전체 데이터를 이용한 치료 방침에의 활용이 기대되고 있으나, high dimension, high nonlinear한 데이터 특성 대비 유의한 정보는 부족하고 낮은 빈도로 나타나므로
임상적인 유의미성 도출과 적용이 어려운 실정이다.
• 목적
이에 본 팀은 선행 지식체계와 공개데이터를 바탕으로 pre-training한 딥러닝 모델을 국립암센터 데이터셋에 적용함으로써
한정된 임상 데이터가 연구에 더욱 풍부하게 활용될 수 있는 방안을 고안하였다.
선행 연구와 실제 임상데이터 사이의 간극을 국립암센터의 빅데이터를 활용한 모델로 극복할 수 있기를 바라며,
분자병리/임상 level을 반영한 환자군의 subtype 분류를 제안해서 맞춤형 진료를 보조하는 것을 목표로 하였다.
• 방법 및 결과
제공데이터에 대해서는 탐색적 데이터분석(Exploratory Data Analysis, EDA)를 통해 암종의 서브타입, 분자 병리 등의 현황을 파악하고
(Decision tree, Regression, XGBoost, DNN과 같은) 다양한 머신러닝, 딥러닝 분석을 통해 생존 기간 및 생존 여부 예측 모델을 구현하였으며
모델에 설명력을 부여하는 shap을 적용해 앞선 모델에 영향을 미치는 feature importance 평가 및 feature별 관계 분석을 진행하였다.
Explainable AI(XAI)를 통해서는 기존의 암의 생존율과 예후의 관계인자의 상관성이 재현되는 것을 통해 본 연구의 타당성을 보였으며
보고되지 않은 결과는 추후 새로운 연구 확대로의 가능성을 제시하였다.
그러나 한정된 데이터에서 오는 낮은 예측 성능 및 제한된 연구설계의 한계를 고찰하였으며, 이를 보완할 수 있는 확장 가능한 모델을 고안하였다.
• Advanced 모델 제안
암환자의 임상정보와 유전체 정보를 함께 제공하는 TCGA 데이터와 선행지식체계인 Protein-protein interaction(PPI)과 kegg pathway 를 활용하여
분자생물 level의 네트워크 구성을 선행학습 후 환자의 clinical feature의 layer, 투약 layer를 결합하여 Deep Neural Net 모델 구성함으로써
환자별 병태 패턴 분석 가능하게 할 것을 고안하였다.
선행지식체계의 네트워크 구성을 활용한 유전체 데이터 분석은 Graph neural net으로 디자인해 높은 성능을 확인함으로써 그 가능성을 확인하였다.
• 기대효과
본 아이디어는 genotype level과 phenotype level의 관점을 모두 반영하여 subtype을 제시하고
이와 연결되는 적합한 치료를 설명 가능하게 제시한다는 점에서 여러 연구의 실마리가 될 것으로 기대된다.
또한, 개인별 특성(Genome 단위), 현재 Status, 약물 부작용, Status 간 중요도 등을 고려한 모델 생성 및 약물간의 호환성 확인 모델은
Cost Efficiency차원에서의 drug combination candidates를 예측하게 함으로써 장기치료에 있어 치료 계획 설정시 도움이 될 수 있을 것으로 기대된다.
*참고 : Cox-PASNet: Pathway-based Sparse Deep Neural Network for Survival Analysis/ Jie Hao; Youngsoon Kim et al/2018 IEE