文章来源:谭馨,罗斌,陈宁波,王奇,江华.结直肠癌患者复发风险监测与预测的数字孪生模型:一项临床研究方案[J/CD].肿瘤代谢与营养电子杂志,2024,11(02):264-269.
文章链接:http://182.92.200.144/CN/abstract/abstract1133.shtml
专家简介
![]()
江华,主任医师,教授,硕士研究生导师。四川省医学科学院·四川省人民医院急诊医学与灾难医学研究所副所长,营养科副主任,中芬医学人工智能研究中心执行主任,电子科技大学教授,北京协和医院临床营养科客座教授,中华医学会肠外肠内营养学分会委员兼副秘书长,中国营养学会临床营养分会副主任委员,美国创伤外科学会(AAST)终身会士。研究涉及临床营养与代谢、急危重症、循证医学以及人工智能等多学科领域,是国内最早从事循证临床营养(2000 年)和大数据挖掘研究(2009年)的专家之一,发表科研论文160余篇,SCI 论文 40 篇,获得华夏医学科技奖2项,中华医学科技奖、四川省医学科技奖各1项。
摘要: 背景 结直肠癌是全球最常见的三大肿瘤种类之一,到目前为止,对肿瘤复发早期预警是提高结直肠癌患者术后生存率的重要课题。当前,结直肠癌肿瘤患者的复发预测主要依靠临床医师根据患者的临床检查、血液检验及影像检查等临床资料进行经验性判断,缺乏全面、可靠的客观依据,可能使患者错过最佳干预时机。近几年出现的新型诊断方法费用相对昂贵而难以普及;同时也是一种“事后汇报”模式,即肿瘤已在体内发展到一定程度才能检出。方法 本研究是一项基于回顾性队列数据的前瞻性研究项目,拟纳入来自电子科技大学附属医院· 四川省人民医院胃肠外科及急诊中心2013年1月至2018年10月的所有结直肠癌术后患者。根据排除纳入标准筛选患者,拟收集纳入结肠癌患者术前与术后5年内的临床数据,将数据进行清洗、预处理后分类与增强,最终采用数据驱动与机理互动的方式进行动力学建模,构建能够早期预测结直肠癌患者5年内肿瘤复发的监测与预测数字孪生模型。结论 目前研究表明,结直肠癌术后5年的复发率高达30%,目前临床急需对于结直肠癌术后复发早期预警的可靠工具,数字孪生技术能够实现多维度数据处理,建立多模块模型预测,并建立具有时间序列性的预测模型,适用于结直肠癌患者复发的预测研究。本研究拟基于数字孪生技术,建立结直肠癌患者术后5年内肿瘤复发的预测模型,以期实现对肿瘤复发的监测及早期预警,降低结直肠癌术后复发患者死亡率。
结肠癌是全球最常见的三大肿瘤种类之一,为全球第二大致死性癌种,死亡率仅次于肺癌[1]。我国结直肠癌患者总体5年生存率仅为56. 9%[2-3]。结直肠癌晚期患者常容易并发癌性肠梗阻,并且手术相关并发症发生率和死亡率、再入院率、医疗费用等均显著增加[4-5]。有研究者认为直至2030年,全球结直肠癌新发病例将超过220万,因结直肠癌死亡的人数将超过110万[6]。近年来,随着结直肠癌的手术治疗方式不断精进,结直肠癌患者预后明显改善[7-10]。然而,研究显示,结直肠癌术后的复发率与其生存率呈正相关[11-14]。且到目前为止,结直肠癌术后5年的复发率仍高达30%[15]。因此,对肿瘤复发早期预警是提高结直肠癌患者术后生存率的重要课题,也是目前亟待解决的临床医学问题之一。 当前,结直肠癌患者的复发诊断主要依靠临床医师的临床检查、血液检验包括癌胚抗原(CEA) 、糖类抗原19-9(CA19-9)及影像检查[16]。其中计算机断层扫描(CT)是当前结直肠癌患者复发监测的主要辅助手段,能够为肿瘤复发提供直接的临床证据。但CT对复发病灶的显示敏感度低,病灶动态增大或大于1~2cm时才能明确诊断,患者可能会错过最佳的干预时机。且由于检查过程中伴随辐射暴露,检查频率不宜过高,难以实时监测。近几年出现的新型诊断方法如微小残留病灶/分子残留病灶(MRD)、循环肿瘤基因(ctDNA)等[17]能够更早提示结直肠癌的复发,使患者获得提前干预的机会[18]。然而此类方法费用相对昂贵而难以普及;同时也是一种“事后汇报”模式,即肿瘤已在体内发展到一定程度以后才能检测出来。因此,目前临床仍急需可早期预警结直肠癌复发的可靠工具。 人工智能的迅猛发展已给人类社会带来了前所未有的挑战与机遇。人工智能已被证实能够用以模拟、总结临床医师的经验,从而开发临床可用的预测、诊断工具。比如,目前已有研究证明基于深度神经网络的人白蛋白动态系统模型能够用于精准地预测时间序列数据变化。Zhang L等[19]分析了61例患者的血管超声图像,采用支持向量机(SVM)算法实现了高风险冠状动脉斑块的相关诊断和预测;Gallo S等[20]采用SVM和图卷积神经网络成功对抑郁症进行诊断, 并且通过深度学习发现丘脑超连通性是抑郁症的一个显著的神经生理特征;Podnar S等[21]对15 176例神经系统疾病患者建立机器学习预测模型来诊断脑肿瘤。证明了使用机器学习算法以常规血液检查数据建模诊断脑肿瘤的可行性[22];Brinati D等[23]对279例COVID-19患者常规血液检查的数据,建立两种机器学习模型,准确率为82%~86%,灵敏度是92%~95%,在此基础上还开发了可解释的决策树模型,可以作为临床医诊断COVID-19可疑病例血液测试(甚至脱机)的简单决策辅助工具;Wu J等[24]研究发现肺癌与血常规指数之间的潜在关联,从而帮助临床医师和患者基于这些常规检查来识别肺癌。本研究团队也在2018年使用人工智能模型成功预测重症患者血清白蛋白浓度[25],并且比较了22个机器学习模型与Logistic回归对严重创伤性脑损伤患者生存预测的影响[26]。 2021年中国临床肿瘤学会(CSCO)发布的结直肠癌指南建议结直肠癌患者术后前2年每3~6个月1次随访,每年1次肠镜检查;2年后以上检查每6个月随访1次,共3年,其次还需要每年1次磁共振检查[27]。结直肠癌的复发机制涉及多器官系统的相互作用,其早期预警诊断有赖于多种方式的体格检查及辅助检查。而目前常用的机器学习模型,往往难以兼顾时间序列数据处理和多维度、多模块预测模型的建立。近年来,随着医学人工智能研究的不断升温,以人的健康为中心的数字孪生(digital twin for health)系统受到了广泛关注,连接物理人体和虚拟人体的数字孪生模型也逐渐成为了热点研究方向[28-29]。数字孪生这一概念是在2011年3月美国空军实验室(AFRL)提出的[30],是现实世界系统的虚拟体现,以历史为基础不断更新以反映现实世界系统的行为[31],同时可提供分析与预测。理想情况下,数字孪生不仅在虚拟域复制物理系统的全貌,提供实时数据反馈、回顾与分析。最终,动态虚体应该通过整合数字信息、相关领域的知识进行迭代、更新用以改进物理模型和促进持续发展。数字孪生模型可以实现对人体健康状况进行详细且持续的监测,通过输入患者的当前环境(地点、时间和活动)和历史数据来预测未来疾病发生的可能性,最终提供最佳的预防和治疗方式[32]。 此外,数字孪生技术对于多时间点、多尺度、多模态数据的处理有优势[33]。它具有融合相关领域知识的人工智能的能力。数字孪生技术的多维度数据处理,多模块模型预测,以及时间序列建模与预测的能力,适用于建立结直肠癌患者复发预测模型[34]。因此,将数字孪生技术与通过机器学习算法进行的数据挖掘结合起来,很可能成为发现特定疾病预测因子的最佳途径[35]。 本研究拟基于数字孪生技术,建立结直肠癌患者术后5年内肿瘤复发的预测模型,以期实现对肿瘤复发的监测及早期预警,降低患者死亡率。 本研究是一项基于真实世界数据的研究,拟纳入电子科技大学附属医院·四川省人民医院胃肠外科及急诊外科2013年1月至2018年10月的结直肠癌术后患者。根据纳入排除标准(图1)筛选患者,拟收集纳入结肠癌患者术前与术后5年内的临床数据(表1),将数据进行清洗、预处理、分类、增强建立用于AI模型的数据集,最终采用数据与机理并驱动的方式进行建模,构建能够早期预测结直肠癌患者5年内肿瘤复发的数字孪生模型,具体流程如图2。目前该研究通过电子科技大学附属医院·四川省人民医院伦理委员会伦理审查[批件号:伦审(研)2023年第410号],并在中国临床试验注册中心通过注册并完成备案(注册号:ChiCTR2300076203)。 本研究拟纳入2015年1月至2018年10月进行手术治疗并且术后随访超过5年的成年结直肠癌患者。纳入标准:①18岁至80岁的成年患者;②在本院确诊原发性结直肠癌,并接受手术治疗,于本院定期长期随访的患者;③随访时间超过5年的患者。排除标准:①未成年患者(<18岁)及超过80岁的老年患者;②未在本院接受结直肠癌手术的患者或未在本院定期长期随访超过5年的患者;③在随访期间使用过体外膜肺氧合(ECMO)或连续性肾脏替代治疗(CRRT)等治疗的患者。(1)主要结局:术后1、2、3、4、5年复发率;复发时间点(从手术后第1天算起)。(2)次要结局:术后1、2、3、4、5年病死率,术后5年入ICU率,术后5年再入院率。 本研究将收集患者入院第1天的临床数据作为基线数据,收集术后1~7d生化指标,术后2年内每3个月1次体格检查结果;第3~5年每6个月1次体格检查结果;如确诊或术前CEA/CA19-9异常升高,收集术后2年内每3个月1次检验结果,第3~5年每年复查的检验结果;术后4~6周腹部/盆腔CT检查作为对照,以后3年内每年复查结果;术后3年内每6个月1次复查超声结果;腔内超声检查术后每年复查1次结果;术后2年内每6个月复查胸部X线片结果;以后每年复查结果术后2年内每年结肠镜复查结果;如果2次均阴性,以后每3年复查结果;如果发现息肉每年复查结果。拟收集纳入结肠癌患者术前与术后5年内的以下临床数据。(1)基本情况指标:包括年龄、性别、术前主要诊断编号、身高、体重、体格检查(肛门指检)、病理分期分型、术前是否进行放疗/化疗、术后是否进行放疗/化疗、术前放疗/化疗治疗方案及时间、术后放疗/化疗治疗方案及时间、免疫组化、基因检测结果、手术编码等。其中,体格检查(肛门指检)将在每次随访时间进行。(2)生化指标:肿瘤标志物(CEA、CA19-9、AFP及CA125)、凝血、肝肾功能、血常规等血清学指标;大便隐血试验。这部分指标将在术前及每次随访时间进行。(3)影像学图像数据:肝脏超声检查、内镜检查、CT及PET-CT等。肝脏超声检查将在每次随访时间进行,其余各部分数据将在随访期间每年进行(如肿瘤发生转移进入临床Ⅳ期,则每半年进行)。(4)药物治疗的所有临床数据(longitudinal data)。具体临床数据收集内容见表 1。 受试者数据收集完成后首先将数据按照术前最后一次数据为基线(0点)进行数据对齐,形成具有时间序列的数据集。随后逐步完成数据清洗和数据预处理。 将上述数据以患者病案号为索引合成数据集。并按照本中心已经建立的规范进行数据预处理和清洗。 本研究中图像数据的预处理主要是指CT图像,其余影像学数据均以文字报告形式进行非结构化数据处理。 针对数据稀少的时段,本研究将利用人工智能技术中的数据增强的方法,比如,扩散法、编码解码技术等。 本研究拟基于数字孪生技术,分模块构建结直肠癌患者肿瘤进展的数字孪生体,以建立其肿瘤复发的监测和早期预测模型。数字孪生模型的建立共分为模型构建、模型融合、模型验证与校正等步骤,见图2。 在上述模型的拟合中均按照8∶2的比例分成训练集和验证集,在模型完成拟合后使用验证集数据对模型进行验证。本研究涉及二分类变量和时间序列数据的预测结果评估。针对二分类变量结果,本研究使用如下指标进行评估:准确率用于评估模型整体效果,用准确性(accuracy)、查准率( precision)、召回率( recall)和F1分数对于决策树模型分类中的少数类进行评价、ROC曲线、AUC来评估分类模型的性能。针对时间序列数据及使用数据孪生模型进行拟合的数据使用R-square和MSE方案进行评价。上述两种方案分别表示模型对数据的解释程度和预测数据与真实数据的差距。 结直肠癌目前仍是世界范围内的重大卫生问题,尽管对于结直肠癌的诊疗,采用的是多学科综合治疗模式,包括手术、化疗、放疗、生物靶向治疗、免疫治疗等[36],但是结直肠癌的术后复发率仍较高[37-38]。因此,对肿瘤复发早期预警是提高结直肠癌患者术后生存率的重要课题,也是目前亟待解决的临床医学问题之一。目前对于结直肠癌的术后复发已经有了一些新型的诊断方法,比如ctDNA多基因甲基化动态监测等,但因其价格较为昂贵无法在临床中普及,目前临床医师常用的结直肠癌术后复发诊断方法依然是查体、血清学指标、影像学来综合判断,但该诊断方法仍然存在有弊端,可能使得患者错过最佳的干预时机。 如今人工智能方案已经成功应用于临床诊疗系统,绝大多数研究均根据时间截面数据进行预测,然而截面数据无法对完整的疾病演变进行拟合。基于该弊端,本研究方案提供了一种使用计算机科学利用动态变量详细展现出来患者病情的演变过程,建立多尺度时间相关的动态变量的、动力系统模型。时间序列问题在医学中的关注度越来越高,本研究发现各特征在结直肠癌术后患者病情发展中的重要性呈现时间序列性的动态变化过程,结果进一步证实了其病情发展是动态变化的,并且这些变化是具有时间序列性的。同时,我们也发现,以往的统计学分析方法很难从时间序列数据中提取有效信息。时至今日,机器学习方法成为大数据背景下重要的数据分析工具,在结直肠癌研究中也逐渐崭露头角。 为了能够早期识别结直肠癌术后患者的复发,本研究拟开发的数字孪生技术,可用于建立结直肠癌患者术后5年内肿瘤复发的预测模型,为临床医师提供全面、准确、个性化的结直肠癌术后复发信息,辅助医师为患者制订个性化的结直肠癌术后复发诊疗方法。