欢迎关注类器官前言(沿)进展,第一时间了解类器官领域(生物学、人工智能、材料学、仿生学)的新进展
本文由Wellcome Sanger Institute联合意大利米兰人类科技城的科研人员11月11日在线发表于Nature Communications杂志。原文衔接请点击文章最后的阅读原文。
结直肠癌患者异种移植中西妥昔单抗敏感性的综合集成建模
文章创新点
论文提出了一个名为CeSta的集成模型,旨在预测结直肠癌(CRC)患者来源的异种移植模型(PDX)中对西妥昔单抗(Cetuximab)的敏感性。
多组学综合表征:与早期依赖单一平台或样本量有限的研究不同,本研究整合了大规模多组学数据(包括基因组、转录组和甲基化组),涵盖231个PDX样本。这种全面的数据集捕捉了CRC的多种分子特征,显著提高了预测的可靠性和准确性。
先进的预测模型–CeSta:论文引入了CeSta,一个堆叠式集成分类器,通过整合多个“弱”分类器提升预测准确性。该模型特别为高维数据设计,能够有效利用多组学数据,优于仅依赖KRAS-NRAS-BRAF突变状态的传统单一平台模型或规则模型。
临床相关性增强:CeSta不仅在预测西妥昔单抗敏感性方面优于现有生物标志物(如KRAS-NRAS-BRAF三阴性状态),还在一个独立的CRC PDX队列中表现出一致的效果,突显出其潜在的临床应用前景。
新型生物标志物的发现:研究识别了关键转录标记物,如与西妥昔单抗耐药性相关的REG4和与敏感性相关的EREG表达,以及信号通路评分(如Hedgehog信号、炎症通路等),为理解西妥昔单抗的反应机制提供了更细致的见解。
在PDX模型中的验证:研究采用PDX模型,这种方法比细胞系更准确地反映了肿瘤异质性和药物反应,使得研究结果更具临床可转化性。
通过这些创新,CeSta成为结直肠癌中识别稳健预测生物标志物的有力工具,为个性化治疗的规划提供了新的可能性。
文章解析
背景
结直肠癌(CRC)是一种高发且致命的癌症,其中许多患者会出现转移性疾病。西妥昔单抗是一种常用于治疗无KRAS、NRAS或BRAF基因突变的CRC患者的抗EGFR抗体。然而,尽管存在这些生物标志物,西妥昔单抗的反应差异仍然很大,预测性标志物有限。此前的前临床研究主要依赖于细胞系,缺乏肿瘤的复杂性,且因患者肿瘤环境缺失,常常导致结果难以转化。为了解决这些局限性,本研究采用更接近人类肿瘤生物学的PDX模型,旨在识别CRC中西妥昔单抗敏感性的可靠预测标志物。
结果
PDX收集和多组学特征:研究团队建立了迄今为止最大的CRC PDX多组学数据集之一,包含231个样本的基因组、转录组和甲基化组数据。该数据集复制了人类CRC的分子特征,确保了临床相关性。
CeSta模型的开发和验证:团队设计了一种新的集成机器学习分类器CeSta,用于预测西妥昔单抗反应。CeSta集成了多种机器学习模型(弹性网络、支持向量机、极端随机森林和基于CatBoost的模型),并在PDX多组学数据上进行了优化,提升了预测精度。模型在区分反应者和非反应者方面显示出高效的预测性能(AUC > 0.88),超过了标准生物标志物(如KRAS-NRAS-BRAF突变状态)。
新型生物标志物的识别:研究确定了与西妥昔单抗反应相关的关键特征,包括高EREG(与敏感性相关)和高REG4(与耐药性相关),以及Hedgehog信号和炎症反应等通路评分。这些生物标志物为耐药机制提供了洞见,并提供了潜在的治疗靶点。
外部验证:CeSta在一个独立的CRC PDX队列上进行了验证,再次表现出优于传统生物标志物的效果,确认了其稳健性和通用性。
方法
多组学数据收集:研究整合了基因组、转录组和甲基化组数据,以捕捉CRC的分子景观。通过靶向测序和RNA-seq等技术对肿瘤样本进行了高维特征分析。
机器学习和集成建模:CeSta模型采用“堆叠”集成学习架构,结合了四个“弱”分类器(弹性网络、极端随机森林、支持向量机和基于CatBoost的模型),前者已在大规模细胞系数据集上预训练。堆叠模型设计有助于减轻单个分类器的偏差,提供更稳健的预测。
生物标志物分析:CeSta整合了多组学特征选择和统计分析(如Fisher精确检验、Mann-Whitney U检验和logit模型)以识别对西妥昔单抗反应影响最大的特征。
验证流程:研究使用嵌套交叉验证方法来调整模型并防止过拟合,同时在一个完全独立的PDX数据集上进行了验证,提升了模型的可信度。
讨论
研究结果凸显了使用PDX模型进行转化研究的潜力,为研究药物反应提供了高保真度平台。通过多组学数据整合,CeSta改进了西妥昔单抗敏感性预测,突显了仅依赖KRAS-NRAS-BRAF突变状态的局限性。作者强调了多组学方法在揭示未识别生物标志物(如EREG和REG4表达)方面的潜力,这些标志物可以进一步开发为伴随诊断,以改善治疗效果。
此外,该研究还指出在预测建模中处理肿瘤间和肿瘤内异质性的重要性,因为这些复杂的生物变异在PDX模型中比在细胞系模型中更准确地被捕捉到。
研究的局限性
缺乏免疫和基质复杂性:虽然PDX更好地模拟了肿瘤异质性,但它们缺乏人类免疫和基质细胞的相互作用,因为人类基质细胞会被鼠源细胞取代。这一限制限制了免疫相关生物标志物和微环境相互作用的探索。
患者数据验证有限:由于缺乏标注了西妥昔单抗反应的足够全面的多组学数据集,目前尚无法对人类患者样本进行外部验证。因此,临床适用性仍需进一步在人类数据上进行验证。
依赖高质量多组学数据:CeSta模型的预测能力在很大程度上依赖于高质量的多组学数据。在临床应用中,这一模型需要可靠和标准化的数据收集,这可能在后勤和经济方面面临挑战。
聚焦于西妥昔单抗:该研究结果主要集中于西妥昔单抗敏感性,限制了对其他治疗药物的推广。未来研究可探索CeSta是否能用于预测CRC中的其他药物或治疗组合的反应。
本研究为CRC研究提供了重要进展,证明了使用大型、经过充分表征的PDX集合和多组学整合在预测西妥昔单抗敏感性方面的价值。通过克服基于细胞系模型的局限性,CeSta模型为CRC中的个性化治疗规划开辟了新的可能性,如果进一步验证,或可扩展到其他癌症。
微信交流群(请扫描群主二维码,经验证后邀请入群,添加时请注明单位姓名等信息,申请入群群体:投资人,技术与研发人员,科研和医疗机构工作者,企业实控人,高校老师和学生等等一线研究人员)
星球号二维码