PNAS：李雪飞/田亮团队开发AI算法，精准预测多种肿瘤内的细胞丰度

学术 2024-11-09 15:46 日本

编辑丨王多鱼

排版丨水成文

肿瘤微环境是一个由多种类型细胞组成的复杂生态系统。实体肿瘤内，除了癌细胞之外，还存在数量可观的血管内皮细胞、成纤维细胞、以及多种免疫细胞，如肿瘤相关巨噬细胞和肿瘤浸润淋巴细胞等。大量研究表明，这些不同类型细胞的比例，在多种癌症类型中与患者的病情进展密切相关。因此，精准量化肿瘤微环境中各类细胞的比例，对于深入理解肿瘤的发生与发展规律、优化癌症诊疗策略等具有重要意义。

在现有的技术中，流式细胞术和单细胞RNA测序（scRNA-seq）等实验方法能够直接测定肿瘤微环境中的细胞比例，但这些方法通常成本较高。为解决这一问题，研究人员开发了多种计算方法以基于低成本的批量RNA测序（bulk RNA-seq）数据来估算不同类型细胞的比例，例如EPIC、MuSiC、CIBERSORTx、Scaden、Kassandra等。然而，由于不同肿瘤类型中癌细胞的基因表达谱差异很大，使用单一模型精准预测多种肿瘤中各类细胞的丰度仍然是一个挑战。

2024年11月8日，中国科学院深圳先进技术研究院李雪飞副研究员团队与香港浸会大学田亮副教授团队合作，在《美国国家科学院院刊》（PNAS）发表了题为：DeSide: A unified deep learning approach for cellular deconvolution of tumor microenvironment 的研究论文。

该研究开发了一种基于深度学习与公开单细胞数据集的解卷积算法，能够较精确地估算19种实体肿瘤中16种细胞类型的丰度。

合成高质量的训练集

首先，该研究整合了来源于6种实体肿瘤类型的12个scRNA-seq数据集，为后续合成虚拟肿瘤bulk RNA-seq数据（训练集）提供了更为全面的参考数据。其次，该研究提出了一种新的采样方法segment sampling，从而使得所合成的虚拟肿瘤bulk RNA-seq数据中包含更多样的细胞比例组合。此外，在合成bulk RNA-seq数据时，该研究通过对基因的过滤（gene-level filtering）来保留与每种细胞类型高度相关的基因，以降低输入数据的维度；再对表达谱进行过滤（GEP-level filtering）以保留与真实肿瘤表达谱相似度较高的样本。这些创新点共同有效提升了所合成的虚拟肿瘤bulk RNA-seq数据的质量。

深度神经网络结构的创新点

在深度神经网络（deep neural network，DNN）结构中，DeSide创新性地采用了两个全连接网络：pathway网络和GEP网络，分别从生物信号通路（pathway）和基因表达谱（gene expression profile，GEP）中提取特征信息。其中，pathway网络通过引入粗颗粒度的特征，有效提升了输入数据的多样性。

此外，考虑到肿瘤细胞的基因表达谱在不同癌症类型之间差异较大，DeSide采用了sigmoid函数作为DNN输出层的激活函数，使输出总和处于[0,1]区间。这一设计先预测免疫细胞等非癌细胞类型的比例，再通过1减去所有非癌细胞的比例来估算肿瘤细胞的比例，从而有效减少了直接预测肿瘤细胞比例所带来的误差。值得指出的是，在利用深度神经网络预测细胞比例的研究方向上，DeSide是首个引入该策略的算法。

图1. （a）DeSide的深度神经网络（DNN）模型结构；（b）合成虚拟肿瘤的bulk RNA-seq基因表达谱（GEP）的流程。

与其它算法预测效果的比较

该研究系统对比了DeSide与现有算法在预测肿瘤微环境内细胞比例的准确性。结果表明，DeSide能较好地预测多种肿瘤类型内不同细胞类型的比例（图2 a,b）。同时，即便是与依赖参考数据的算法（Reference-based model）相比较，DeSide在特定肿瘤类型上的表现依然出色（图2c）。值得指出的是，DeSide能较准确地预测训练集中未包含的癌症类型，显示了较好的泛化能力。

图2. 对比DeSide与其它算法预测bulk RNA-seq数据中肿瘤细胞比例的能力。CCC为预测的肿瘤细胞比例与基于基因拷贝数所估算的肿瘤纯度之间的一致相关性系数（concordance correlation coefficient, CCC）。数据来源于癌症基因组图谱（The Cancer Genome Atlas, TCGA）数据库。

DeSide在临床预后分析中的应用价值

该项研究通过患者生存分析（Survival analysis）探索了DeSide在临床应用中的潜在价值。研究结果表明，基于DeSide预测的细胞比例能够有效的将患者按照病情进展情况进行评估分型，即某些细胞类型或其组合的丰度与患者的生存显著相关（图3）。未来，DeSide有望进一步帮助探究不同细胞之间关键的相互作用，从而为寻找潜在的临床治疗靶点提供新的可能。

图3. 基于DeSide预测公开数据集内不同肿瘤的不同细胞类型的比例，从而对患者进行分型与生存分析。

结论和展望

该研究所开发的DeSide算法基于公开的单细胞数据集与深度学习方法，能够较为准确、高效地估算19种实体肿瘤bulk RNA-seq测序样本中16种细胞类型的比例。这为深入理解肿瘤发生与发展机制、评估患者预后和制定精准治疗策略提供了有力的方法与数据支持。

中国科学院深圳先进技术研究院合成生物学研究所合成生物进化研究中心李雪飞副研究员、香港浸会大学物理系田亮副教授为论文共同通讯作者。香港浸会大学四年级博士生熊昕与中国科学院深圳先进技术研究院研究助理刘烨蓉为论文共同第一作者。熊昕于2020-2021年在李雪飞课题组担任研究助理期间开启了该课题的研究，随后，经由李雪飞推荐赴田亮课题组攻读博士学位。两个课题组通过紧密合作，联合完成了该项研究。

论文链接：

https://www.pnas.org/doi/10.1073/pnas.2407096121

设置星标，不错过精彩推文

开放转载

欢迎转发到朋友圈和微信群

微信加群

为促进前沿研究的传播和交流，我们组建了多个专业交流群，长按下方二维码，即可添加小编微信进群，由于申请人数较多，添加微信时请备注：学校/专业/姓名，如果是PI/教授，还请注明。

点在看，传递你的品味

http://mp.weixin.qq.com/s?__biz=MzU1MzMxMzcyMg==&mid=2247758820&idx=3&sn=060e0bc59d4114e7aeb101371eaa9d63

生物世界

生物世界重点关注最具转化应用前景和价值的生命科学前沿研究，深度访谈和报道生命科学领域前沿学者及创新企业

Cell：AI模型揭示，大多数被认为与疾病相关的肠道细菌实际与疾病无关

Cell子刊：不可思议！嚼木糖醇口香糖，显著降低早产率

何时吃，比吃得少更重要！Science论文显示，在适当时间进食可显著延长寿命

开放注册：2024第十届柳叶刀-中国医学科学院医学与健康大会11月21日举行

深圳大学发表最新Cell论文，开辟光受体的全新研究方向

Cancer Cell：中山大学邝栋明/魏瑗团队揭示癌周交叉呈递削弱了肝癌免疫治疗效果

Cell：陈玲玲系统总结小RNA和lncRNA的过去、现在和未来

减肥药临床试验论文中隐瞒数据被发现，安进公司市值蒸发120亿美元

开发下一代减肥药，Metsera公司完成超2亿美元B轮融资

Science封面：华人学者开发AI模型，学会生命的语言，生成新型CRISPR系统乃至整个基因组

Cell子刊：宋尔卫院士团队发布乳腺癌新辅助治疗临床试验结果——效果良好、毒性可控

柳叶刀：全球成人糖尿病患者超过8亿，六成患者未接受治疗

Cell子刊：胥春龙团队等改造IscB-ωRNA基因编辑系统，通过单个AAV递送治疗遗传病

Nature子刊：清华大学张数一团队开发EvoAI系统，实现对蛋白质序列-功能空间的的进化压缩和AI重构

Nature Genetics：高栋/周斌/陈洛南/于晨团队发现前列腺中间态细胞的身份和命运决定机制

最大规模中药治疗脑出血的随机对照临床试验登上《柳叶刀》，结果令人惊讶

EZ-HRex™新技术，点突变/基因敲入，极速交付，快至6周！

刘如谦团队升级新一代类病毒颗粒，具有更高的生产效率和递送效率

黄三文院士团队最新Nature论文，敲除两个基因，让番茄更甜，且不影响产量

Cell：徐勇团队等发现这种人体产生的天然代谢物，能够抑制食欲、帮助减肥

乙肝治疗新突破：山东大学Cell子刊论文揭示益生菌及其代谢产物亚精胺促进HBV清除的机制

Cell：王晓群/吴倩/张旭团队构建人类背根神经节类器官，为人类痛痒感觉研究建立新平台

华中农业大学发表最新Cell论文

Nature Materials：钟喆等人开发基于水凝胶的人类淋巴类器官，解码B细胞反应

碱基编辑安全性新发现：腺嘌呤碱基编辑器引发染色体脱靶结构变异

我国学者研究显示，健康的衰老，始于良好的睡眠

Nature系列综述：清华大学李丕龙等解读凝聚体介导的转录调控及其与人类疾病的关系

AlphaFold3开源了！所有人均可下载代码，有望颠覆当前药物研发模式

Cell：时空组学迎来革新性突破！华大团队等开发时空算法，将全面支撑发育、疾病等研究

Nature Aging：最新研究揭开压力加速衰老之谜

Cell子刊：复旦大学迟喻丹团队等破解胶质瘤引发癫痫的隐秘链路

Nature头条：她用自己在实验室培养的病毒，成功治疗了自己的癌症，还顺便发了篇论文

Cell子刊：柳光宇/江一舟/龚悦团队揭示三阴性乳腺癌免疫逃逸新机制，并提出潜在治疗策略

Nature子刊：北京大学陈鹏团队开发相分离体系中蛋白质互作的时空特异性光交联技术

Nature子刊：大规模研究揭示腰椎间盘突出相关遗传风险因素

大规模研究显示，常喝牛奶与中国人癌症风险升高有关，还可能增加女性心脏病风险

吸入微塑料会降低大脑认知功能，首都医科大学高艾团队发现肺部菌群发挥了关键作用

Nature子刊：袁钧瑛院士团队揭示亚精胺抑制糖尿病发生及发展的新机制

开启智能手机控制POCT检测新时代：刘钢/黄丽萍/秦志国团队开发人体小分子无标记多重定量检测的革新利器

PNAS：李雪飞/田亮团队开发AI算法，精准预测多种肿瘤内的细胞丰度

柳叶刀：世界首例！iPSC干细胞治疗恢复人类视力

Cell子刊：井然等人揭示增强iPSC-CAR-T细胞抗肿瘤效果新方法

Nature子刊：顾宇昂等人开发金属有机纳米颗粒，用于mRNA递送

Science子刊：柴进团队等利用多组学对中国人群代谢相关脂肪性肝病进行临床精准分型

Nature子刊：任罡团队利用单颗粒电子断层扫描技术，绘制RNA分子动态折叠过程

Nature：曹云龙团队揭示新冠病毒流行谱系转变下的抗体免疫响应演化

Science：复旦大学余宏杰团队破解流感的全球传播密码——新冠大流行重塑全球季节性流感传播

Cell：中国博后一作，开发CRISPR-Cas13筛选技术，发现778个人类必需lncRNA

拜耳Co.Lab在中国迎来首家入驻企业——科动生物

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉