点击上方 蓝字 关注我们 了解更多资讯
孙思颖,李鹤成
上海交通大学医学院附属瑞金医院 胸外科(上海 200025)
通信作者:李鹤成,Email:lihecheng2000@hotmail.com
关键词:人工智能;组学;非小细胞肺癌;综述
引用本文:孙思颖, 李鹤成. 人工智能联合组学数据在非小细胞肺癌诊疗中的研究进展. 中国胸心血管外科临床杂志, 2023, 30(2): 305-312. doi: 10.7507/1007-4848.202202051
SUN Siying, LI Hecheng. Research progress of artificial intelligence combined with omics data in the diagnosis and treatment of non-small cell lung cancer. Chin J Clin Thorac Cardiovasc Surg, 2023, 30(2): 305-312. doi: 10.7507/1007-4848.202202051
摘 要
近年来,以人工智能为代表的计算机科学和以组学为代表的高通量测序技术在医疗领域中占据重要地位。本文就人工智能联合组学数据分析在非小细胞肺癌诊疗方面的研究进展进行综述,旨在为开发更加有效的人工智能算法提供思路,以期以无创方式提升早期非小细胞肺癌诊断率并改善患者预后。
1
肺癌、人工智能和组学的基本介绍
1.1 肺癌现状
胸部肿瘤主要包括肺癌、食管癌和纵隔肿瘤,而肺癌是其中发病率和死亡率最高的肿瘤类型。根据GLOBOCAN最新统计数据[1],肺癌的发病率位居世界第二,死亡率位居恶性肿瘤首位;2020年约有220万新发肺癌病例和179万肺癌死亡病例,分别占全部癌症病例的11.4%和全部癌症死亡病例的18%。非小细胞肺癌(non-small cell lung cancer,NSCLC)在肺癌中发生率约85%,晚期NSCLC的5年生存率低于15%[2]。近年来,随着早期筛查、诊断技术的进步,日益精细化和个体化的外科手术、基于分子生物学和基因组学发展的免疫治疗和靶向治疗以及新辅助治疗等方法在临床的推广和应用,肺癌患者整体死亡率有所下降,5年生存率也在逐年提高[1]。但是,仍存在局部晚期或远处转移患者,且预后不佳。因此,开发更加有效且具有临床应用可能性的无创肺癌早期筛查、疗效预测及预后判断方法已迫在眉睫。
1.2 人工智能的概念及分类
作为计算机科学的一个分支,人工智能(artificial intelligence,AI)是研究和开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用的科学。机器学习则是在医学领域融入人工智能理论技术的一种有效方法,通过使用算法来解析数据并从中学习,并对事件作出判读和预测。常见的传统机器学习算法包括logistic回归、贝叶斯算法、决策树、随机森林、主成分分析、支持向量机、K-均值聚类等[3-4]。与此对比,深度学习则更为复杂,含有较多个隐藏处理层[3, 5]。其模型建立通常包含4个步骤:构建、训练、内部试验和外部验证。典型的深度学习模型有递归神经网络、卷积神经网络、生成式对抗网络和自编码器等[5]。
从学习方法层面,可分为监督学习、无监督学习、半监督学习和强化学习[6],其中监督学习和无监督学习方法在医疗领域较常应用。监督学习(supervised learning)是指用已知类别的样本训练初始模型,并可依据已知结论对模型推测结果进行反向验证,以优化算法的参数设置;无监督学习(unsupervised learning)则是指初始模型依据相似度对类别未知的样本进行聚类,最终得出预测的分类结果。不同算法依据其训练样本是否带有标签而分属于不同的学习方法。
1.3 组学的概念、分类及研究现状
组学(omics)是对一种生物体内某类物质特征集合的表征和量化,包括基因组学、转录组学、外显子组学、蛋白质组学、代谢组学、免疫组学和影像组学等。研究人员主要依赖于编程语言编写的脚本对高通量数据进行解读和分析。此后,随着生物信息编程模块的开发和推广,如Bioconductor、Biopython、Bioperl、ggplot2,组学数据的快速分析和可视化变得更为容易。2021年11月,一篇题为“Next-generation analytics for omics data”的论文发表在著名期刊Cancer Cell,其提出一种以自然语言为导向和以人工智能为驱动的分析平台—DrBioRight[7]。这使得研究人员能够以一种直观、高效且透明的方式进行组学数据分析,为其充分发掘和利用提供有力前提。
2
人工智能联合组学数据在非小细胞肺癌中的应用
随着高通量测序技术的发展,单组学分析技术日益成熟与完善,而多组学整合分析成为研究者们探索生命机制的崭新方向。在此背景之下,结合组学数据的医疗行业的智能化发展建设已成必然趋势。虽然各类组学数据呈现指数级增长,但其庞大的数据资源仍有待发掘和利用。与此同时,人工智能算法的优势逐渐凸显。计算机可利用其超高速运算协助研究者从大量数据中辨别和提取更多有效信息,为无创早期肺癌筛查、肺癌术前分类预测和预后判断等提供益处;见图1。因此,人工智能算法联合组学数据分析在肺癌中具有良好的开发和应用前景。
图1 人工智能联合组学数据在非小细胞肺癌中的应用领域
2.1 人工智能联合组学数据在非小细胞肺癌筛查中的应用
随着筛查技术及方法的升级和创新,NSCLC的早期发现对延长患者术后生存期有更积极的作用。在一项判断曾吸烟者未来发生NSCLC概率的试验[8]中,研究者将eXtreme Gradient Boosting(XGBoost)和2012年经充分验证的前列腺癌、肺癌、结直肠癌和卵巢癌筛查试验风险的优化版模型预测效果进行对比,发现前者可以提早9~12个月筛选出NSCLC患者。受试者工作特性曲线下面积(area under receiver operating characteristic curve,AUC)分别为0.86和0.79,诊断性优势比(odds ratio,OR)分别为12.3和7.4,敏感性分别为40.1%和27.9%,特异性均为95.0%,显示出机器学习模型的优势。目前,美国食品药品监督管理局已经批准了部分深度学习模型在非典型人群中筛查肺结节的应用,如Siemens syngo.CT Lung CAD、Coreline AView LCS、MeVis Veolity[4]。
2011年,Hanahan等[9]在Cell杂志上发表一篇综述,其中将“肿瘤的能量代谢方式的改变”列为肿瘤的十大标志之一。此后,代谢组学的发展更加推动对肿瘤相关的代谢物质的研究。Huang等[10]通过优化铁粒子相关解吸/离子质谱方法测定并获得早期肺腺癌患者50 nL血清中代谢产物数据,这些高维数据通常包含大量噪声特征。相较于普通的回归算法,稀疏回归算法可以尝试引入正则项约束,使得模型的参数变得稀疏和可解释。因此研究者利用此算法构建早期肺腺癌诊断的机器学习模型,并经过后期验证和优化参数设置,发掘出变化显著的7种代谢物和其相关代谢途径,作为早期肺腺癌筛查的生物标志物组合。
2.2 人工智能联合影像组学在非小细胞肺癌中的应用
2.2.1 肺结节分类
CT是必不可少的影像学检查方法,随着扫描层面的增加和三维重建技术的应用融合,CT影像为肺癌的临床诊断提供了不可或缺的作用。但由于人工读片的误差,微小结节容易被忽视而造成漏诊。
相较于传统影像学,影像组学的诞生进一步促进了人工智能在医疗行业的应用。影像组学,又称为放射组学(radiomics),是指从CT、磁共振成像(magnetic resonance imaging,MRI)和正电子发射计算机断层显像(positron emission tomography/computed tomography,PET/CT)等影像结果中高通量地提取影像信息,对目标病变或肿瘤区域进行定位和分割,提取和量化特征以及建立模型,初步预测肿瘤分类,进而辅助医师做出更加准确的诊断[11]。研究者期望应用不同的人工智能方法,结合海量的影像组学信息,增加对微小结节的读取并对其类型作出预判。
一种平行非同步的三流程的综合算法被开发用以提供完整的肺结节影像信息。通过3D U-NET分割肺段,3D Retina-UNET检测肺结节,支持向量机进行初步分类。检测结果可用AUC进行评估[12]。在另一项试验[13]中,研究者应用一种随机森林分类器,从大量数据库的低剂量CT肺部影像中获取23个恶性肺结节特征,并据此对验证组中肺结节类型进行判断,结果表明相较于人工读片可降低假阳性率。刘晓鹏等[14]利用5 000例1 mm和5 mm层厚的CT图像训练与上海交通大学合作开发的人工智能识别系统,自动学习和积累1~3 cm恶性肺结节的分类特征,并用500例CT图像进行验证,准确率和5位医师读片的诊断结果无显著差异,分别为95.2%和95.6%。
作为深度学习算法的分支,人工神经网络和卷积神经网络算法因其对图像及矩阵类数据的高度适用性,而在影像组学中得到广泛应用。相较于机器学习,二者可进一步提升对图像特征的提取识别能力,从而增加NSCLC诊断的准确率。Ardila等[15]构建了一个可用于定位和评估患者肺结节恶性程度的3D卷积神经网络模型,通过与6位放射科医师在无CT成像辅助下的判断结果进行对比,假阳性率和假阴性率分别降低11%和5%;而在有CT成像辅助时,二者的判断准确率相当。此外,基于卷积神经网络的肺癌预测人工智能算法仍被用于和英国指南推荐的布鲁克大学模型进行比较。结果表明,AUC分别为89.6%和86.8%,且深度学习算法可以降低误诊率和漏诊率以及识别良性结节,在一定程度上减少不必要的后续诊疗过程和医疗资源的过度消耗[16]。另外,研究者[17]开发了一种更为复杂的深度神经网络—多流多维度卷积神经网络,并与支持向量机和K-均值算法进行对比,结果表明相较于传统机器学习,深度学习更具有优势。
此外,在人工智能相关算法模型的支持下,PET/CT也已经广泛应用于肺结节的良恶性初步判断、是否转移及部位的临床辅助诊断中,为肺癌的早期诊断和患者预后判断提供依据[18]。Zhong等[19]以基于图像的PET/CT、随机漫步和抠图的3种共分割方法作为对照,探究基于3D深度学习完全卷积网络(deep learning fully convolutional network,DFCN)的PET/CT在NSCLC肿瘤分割中的应用和效能。研究显示,二者的结果具有高度一致性,表现为试验组的平均戴斯相似性系数高于对照组,且DFCN同时应用于PET和CT的表现优于DFCN分别应用于PET或CT。
2.2.2 NSCLC转移预测
人工智能可以在术前对淋巴结转移情况进行预测并对预后作出判断。研究者们利用深度学习模型从回顾性研究中Ⅰ期NSCLC患者的CT影像结果中提取特征信息,对N2淋巴结转移风险进行评分。据此,该模型可结合肺癌基因变异信息,判断患者预后并进行分层。AUC和Cox比例风险模型分别被用于量化和评估诊断效率和预后结果,具有较高的AUC、特异性和准确性[20]。
脑是NSCLC常见的转移部位[21]。MRI对脑组织成像具有独特优势,但仍会因假阳性造成过度诊疗或因假阴性造成漏诊,影响患者最佳治疗方案的选择和整体预后。研究者[22]获取具有315处脑转移病灶的98例NSCLC患者治疗前脑MRI影像,训练一种3D卷积神经网络模型(DeepMedic),据此对脑转移灶作出判断。所有影像均由神经外科和放射科医师进行人工读片作为对照。结果表明,DeepMedic具有更高的敏感性和准确性。
PET/CT作为一种较为成熟的临床辅助诊断技术,可以对肿瘤患者全身的异常摄取部位进行辨别和定位。但是其在微小转移灶的识别方面,还是存在一定困难。对此,研究者自主研发了一种用以判断肿瘤在模型小鼠全身转移情况的技术和相应模型。Pan等[23]设计并开发了一个可自动量化癌症转移的模型—DeepMACT。通过增强癌细胞的荧光信号,将其在被移植小鼠体内的迁移过程可视化。经过与人工标注进行对比,整体分析出转移瘤的大小、形状和空间分布,以及单克隆抗体靶向部位。相较于MRI、CT和生物发光影像,该模型更有助于发现微小转移灶和绘制完整且详细的生物体内癌细胞转移图谱。
2.2.3 NSCLC基因突变预测
人工智能算法联合影像组学可以推断肺癌相关突变基因。研究者[24]从The Cancer Imaging Archive(TCIA)数据库中选取161例NSCLC患者的低剂量CT图像,从中提取851个影像学特征,利用基因算法和XGBoost分类器将其划分为9大类别,从而对患者的表皮生长因子受体(epidermal growth factor receptor,EGFR)和鼠类肉瘤病毒癌基因(Kirsten rat sarcoma viral oncogene homolog,KRAS)突变情况进行判断,AUC分别为0.836和0.860。另一项研究[25]中,研究者对109例首次治疗NSCLC患者的影像组学进行分析,并结合性别和吸烟状况等基线特征,建立主成分分析和支持向量机为主的机器学习模型以判断EGFR基因突变情况。据此,研究者提取了17个影像组学特征,验证了其与正在进行EGFR抑制剂治疗的患者发生T790M突变具有显著相关性,以此判断患者是否发生肿瘤耐药性突变。此外,Mu等[26]使用基于PET/CT的二维小残留卷积网络模型来预测不同研究机构的NSCLC患者队列中EGFR突变状况,并通过患者对治疗药物的反应进行验证。结果显示,使用EGFR-酪氨酸激酶抑制剂(EGFR-tyrosine kinase inhibitor,EGFR-TKI)的患者中,深度学习分数与无进展生存期(progression-free survival,PFS)呈显著正相关,而在使用免疫检查点抑制剂治疗的患者中则呈负相关,显示出该模型较高的准确性。
此外,除了常见的EGFR和KRAS基因突变,间变性淋巴瘤激酶(anaplastic lymphoma kinase,ALK)融合也是NSCLC的基因突变方式之一[27]。Song等[28]通过基于多种算法结合的深度学习模型、CT影像和临床病理学信息对937例NSCLC患者肿瘤细胞基因组的ALK融合突变进行估算,AUC为0.8046。同时对91例正在接受ALK-TKI药物治疗的患者预后进行预测,结果表明ALK阳性患者具有更长的无疾病生存期。
除了联合影像组学,病理组学结合人工智能也可对NSCLC突变基因作出预测。Coudray等[29]利用深度卷积神经网络(inception v3)识别从TCGA数据库中获取的NSCLC病理图片,并进行分类训练和验证。此外,该模型可通过病理图片预测显著突变基因,AUC为0.856。
2.2.4 NSCLC治疗效果评价
放疗是NSCLC患者常见的辅助治疗方法之一。人工智能联合影像组学可对放疗疗效和预后进行评估和预判。Hosny等[30]利用3D卷积神经网络对771例放疗患者和391例手术患者预后特征进行提取,结果表明其与2年总生存期(overall survival,OS)存在显著相关性,AUC分别为0.70和0.71。同时,他们依据这些特征将患者分成高、低死亡风险组。该模型的预测准确性优于以年龄、性别和TNM分期等特征进行分类的随机森林模型。此外,人工智能联合多组学数据对放疗相关并发症的研究也被报道。有研究者[31]提出一种新型精算深度学习神经网络模型,联合PET相关放射组学、细胞因子和miRNAs等信息,用于预测Ⅲ期NSCLC患者的放疗结果及并发放射性肺炎的可能性。由于该深度学习模型整合了多组学数据和其中错综复杂相互作用,实际预测准确性优于传统概率模型。
另外,人工智能算法仍有助于评价肿瘤免疫治疗疗效。实体瘤疗效评价标准(response evaluation criteria in solid tumors,RECIST)是一种对可测量病灶的肿瘤患者在基线状态和随访时应用相同且标准的检查方法,以量化抗肿瘤疗效的评价标准。研究者利用机器学习模型整合NSCLC患者在使用程序性死亡受体-1(programmed cell death-1,PD-1)抑制剂前后的影像组学信息,推测出由RECIST定义的结果,并预测反应率和PFS,增加了证据的可信度。应用此种算法使大型临床数据库的分析成为可能[32]。此外,另一项研究[33]通过回顾性分析939例ⅢB~Ⅳ期NSCLC患者的治疗前CT影像和程序性死亡受体-1配体(programmed cell death-1 ligand,PD-L1)表达量数据,训练和验证深度卷积神经网络模型,并得出PD-L1表达特征(PD-L1 expression signature,PD-L1ES)并进行预后判读。在应用抗PD-1抗体治疗患者中,PD-L1ES与PFS呈显著负相关性。在另一项研究[34]中,研究者使用人工智能算法从NSCLC患者在抗PD-1抗体治疗前后的增强CT影像中提取关键信息和特征,据此得出基于影像组学的生物标志物,并预测患者是否对该种免疫治疗产生反应以及进行效应分层。
2.3 人工智能联合多组学数据在非小细胞肺癌预后判断中的应用
部分研究通过获取数据库内患者的数据,以完成模型构建、训练和参数优化。有研究者[35]从Surveillance,Epidemiology,and End Results(SEER)数据库中获取2010—2015年Ⅰ~Ⅳ期NSCLC患者信息,包括基本特征、肿瘤分期和治疗方法等,利用深度学习生存神经网络(DeepSurv)模型预测患者预后及生存时间。分析结果表明,与传统TNM分期预测结果相比,该算法模型预测结果更为准确,且接受推荐治疗方案的患者生存率高于未接受的患者。另一项研究[36]使用端到端双向生成对抗网络框架模型以预测Ⅳ期EGFR突变的NSCLC患者在应用EGFR-TKI后的PFS。相较于使用传统影像学预测方法,其结果更为准确。此外,研究者将卷积神经网络应用于NSCLC患者的病理图像识别,并结合DNA测序、RNA测序、免疫组织化学和肿瘤浸润性淋巴细胞估计的单细胞注释等信息,进而判断微环境中肿瘤细胞、免疫细胞、间质细胞等细胞组分的比例和空间分布特征以及与基因突变的关联性。据此推断肿瘤特异性的免疫状态,并对患者预后和复发的可能性进行预测[37]。最新研究[38]应用无监督聚类分析—K-邻近算法和Louvain社区发现算法,对泛癌免疫微环境内细胞的批量RNA测序数据进行分析,识别其中免疫细胞类型和数量占比,并据此分类为12种不同的肿瘤免疫细胞原型。通过结合生存数据,对其与预后之间的相关性进行评估。以肿瘤微环境内免疫状态进行分型可能成为新的肿瘤分类方法,并影响后续治疗方案的选择。
此外,现有研究一直致力于发掘肿瘤复发的标志物,以期通过更加有效的方式进行肿瘤复发监测。研究者[39]联合随机森林和LASSO logistic模型识别出4个可对复发情况进行预测的CpG甲基化标志物,并据此构建复发风险模型,估算出患者的无复发生存期(recurrence-free survival,RFS)。此外,该模型可综合基因组学、转录组学、蛋白质组学数据和患者信息得出风险分数,后者与患者的临床分期、细胞增殖标志物、体细胞突变、肿瘤突变负荷和对免疫治疗的反应率具有显著相关性。
人工智能联合组学数据在非小细胞肺癌中的研究进展汇总见表1。
3
人工智能在非小细胞肺癌诊疗中应用的发展和展望
人工智能的出现使得呈指数级增长的多组学数据合并分析成为可能,推动智能医疗的持续发展。现有大量研究表明,与传统或常规检测方法相比,人工智能算法联合组学数据分析在NSCLC筛查、影像诊断、病理诊断、疗效预测、基因突变预测和预后判断等方面存在一定优势。随着人工智能算法的改进,其模型预测的准确性也在逐步提高。但是与此同时,研发人员需要获取更多的样本数据对其进行训练和验证,以保证预测结果和实际情况更加相符。此外,现有模型多属于监督学习类型,要求数据样本带有标签,以便进行反向验证;仅有少量模型应用无监督学习算法。因此,人工智能模型在临床的应用与推广仍存在一定障碍,亟待研究人员开发出更加有效的算法以适应NSCLC患者的个体差异性和肿瘤异质性。
其次,现有的相关研究主要集中在发掘影像组学数据和对NSCLC患者的各项诊疗情况进行预测。未来预期有更多的研究者综合基因组学、转录组学、代谢组学、表观遗传组学、免疫组学等多组学数据对单个肺结节分型、多发肺结节类型进行预测,对具有肺癌家族史患者的肺结节恶性程度进行预判,以及为患者提供最佳治疗方案,以期解决临床上较多的无定论问题。胸外科医师具有丰富的NSCLC诊疗经验,应更多地参与相关数据库的构建工作,对临床患者详细信息进行梳理、标注和统计,以得到标准化数据,推动后续人工智能模型的构建、训练和验证,进而在一定程度上为推动智能医疗事业的发展助力。
此外,近年来机器人手术在胸外科也逐步得到应用。达芬奇手术机器人系统依托其灵活的手腕自由度、高清的三维视觉和震颤消除等优势,具备在狭小的胸腔,尤其是纵隔内开展复杂手术的可能性,因而备受胸外科医生的推崇。与此相关的临床试验也正在大量开展,以期用足量的临床证据来证明机器人手术是未来外科手术发展的必然趋势。然而,严格意义上,这种手术形式并不具备完全的机器自主性,而是要在人为的操控下进行手术。最新一项研究[40]实现了使用智能组织自主机器人执行腹腔镜小肠吻合术。操作者在自主生成的手术计划中进行选择,并指定机器人独立执行各项任务。这种全新的手术形式已经在猪模型上实施,其结果优于专业外科医生的手术操作和机器人辅助的外科手术。相信经过研究人员和外科医师的通力合作,机器人手术系统将会和人工智能算法更加紧密结合,为实现更加精细的机器化外科手术提供支持。
最后,人工智能联合组学数据分析在NSCLC诊疗领域具有良好的开发前景和无限的应用潜力,胸外科医师应和算法模型的研发人员通力合作,为人工智能的临床推广作出努力,以期为患者提供更加精准的医疗服务。
利益冲突:无。
作者贡献:孙思颖负责论文设计和撰写;李鹤成负责论文总体设想、内容调整、修改及润色。
参考文献略。
作者介绍
通信作者 李鹤成
主任医师 博士生导师 外科学教授
上海交通大学医学院附属瑞金医院胸外科科主任
中国医师协会第五届理会理事
第六届“国之名医”
首届上海杰出人才
第十六批上海领军人才
上海市医务工匠,上海市五一劳动奖章获得者
美国胸心外科协会委员(AATS member)
美国外科学院成员(FACS)
中华医学会胸心血管外科学分会委员
中国医师协会胸外科分会委员
上海医学会胸外科分会副主委
中国医促会胸外科分会副主委
中国研究型医师协会胸外科分会副主委
上海优秀学科带头人
上海科技启明星/启明星跟踪计划
擅长食管癌、肺癌等胸部肿瘤的微创治疗,总手术例数超12000例,其中单孔胸腔镜手术6000余例、机器人手术2000余例。
先后主持科技部“十四五”重点研发计划、国家自然科学基金等科研项目18项,累计发表论著140余篇。
本文编辑:雷芳,刘雪梅
审校:董敏
排版:张洪雪
推荐阅读
ChatGPT 应用于医学临床实践及伦理探索
精彩回顾|人工智能专题:2022—2023年(一)
《中国胸心血管外科临床杂志》人工智能论文集
18F-FDG PET/CT联合CT三维重建鉴别肺结节良恶性的回顾性队列研究
基于有限元方法的K-Clip手术过程再现及分析
长按或扫描二维码关注我们!