科研动态 | 孙坤课题组利用AI开发基于cfDNA的原创高准确率泛癌种诊断大模型

学术   2024-10-17 20:15   广东  
湾豆说

近日,深圳湾实验室孙坤课题组在Cell Reports Methods期刊发表题为Cell-free DNA end characteristics enable accurate and sensitive cancer diagnosis的文章。该研究基于课题组先前揭示的游离DNA片段化模式生物学原理(详见An et al. Nature Communications 2023),发现通过末端筛选,可以在癌症患者中富集肿瘤来源的游离DNA,并基于此筛选过程鉴定出3种原创癌症诊断标志物,并结合人工智能技术开发了高准确率、高敏感度的癌症诊断大模型,命名为EXCEL(意为“卓越”)。



1


末端筛选可在癌症患者中富集肿瘤来源的游离DNA


外周血循环游离DNA(circulating cell-free DNA,简称cfDNA)是一种细胞死亡后自然降解产生的DNA片段。cfDNA在癌症早期诊断、肿瘤起源追溯与分型、组织损伤监测等方向具有重要的意义。课题组在一项先前研究中(An et al. Nature Communications 2023)发现,肿瘤来源的游离DNA的酶切位点更倾向于处于核小体内部。基于此原理,孙坤课题组在该研究中对末端位于核小体内部的游离DNA进行筛选(end selection),发现筛选后的游离DNA展现出和肿瘤DNA的高度相似性,比如长度更短、末端序列CCCA使用率下降等,表明该基于游离DNA末端的筛查方法可以在癌症患者中富集肿瘤来源的游离DNA。




2


基于末端筛选的癌症诊断标志物


基于上述发现,孙坤课题组提出3个原创的癌症诊断标志物,分别为N-index,即游离DNA中通过末端筛选的比例,ΔS和ΔM,分别为筛选后游离DNA的长度和末端序列的变化。该研究证明,在多个数据集中,这3个标志物均可以有效的将癌症患者和对照组区分出来,下图是在肝癌中的结果:



3


泛癌种诊断大模型EXCEL


该研究中进一步结合人工智能技术开发癌症诊断模型,并命名为EXCEL。在一个约400个样本的多癌种数据集中,EXCEL的AUC值可达到0.95,优于DELFI模型(美国约翰霍普金斯大学开发,已开始商业化):


更重要的是,在95%特异性条件下,EXCEL的敏感度达到85.1%,显著高于DELFI的79.8%:



该结果表明了EXCEL在癌症诊断中具有良好的转化前景。值得注意的是,该研究的实验部分,包括游离DNA提取、建库、测序,可完全基于国产试剂和设备实现,并且EXCEL模型基于孙坤课题组原创的癌症诊断标志物,深圳湾实验室拥有完全自主知识产权。


深圳湾实验室孙坤博士为该论文的通讯作者,孙坤课题组鞠佳博士、安昀昀博士、杨梦琦(博士研究生)、深圳市第三人民医院赵新医生、张子腾医生为该文的共同第一作者,深圳湾实验室申雪桐研究员、深圳市第三人民医院夏照华医生、武汉协和医院樊非医生均对该研究做出重要贡献。该研究获得国家重点研发计划、广东省基础与应用基础研究基金项目、国家自然科学基金、深圳湾实验室重大项目、深圳湾实验室高性能计算与信息平台等支持。

可点击左下方“阅读原文”,访问原文链接。

论文标题:

Cell-free DNA end characteristics enable accurate and sensitive cancer diagnosis


原文链接:

https://doi.org/10.1016/j.crmeth.2024.100877


文章来源 | 测序中国
编辑 | 白 白
责编 远 山

欢迎投稿、建议 media@szbl.ac.cn



▽点击此处阅读原文

深圳湾实验室
深圳湾实验室
 最新文章