作者:付志灿,高宝青,马旭凯,南芳,杨力
DNA转录产生RNA,因此高通量RNA测序数据中不仅包含RNA突变信息,其主要是由腺苷脱氨酶(ADAR)催化产生的腺苷(A)到肌苷(I)的RNA编辑(RNA editing, REs),也隐藏着大量的基因组DNA突变(DMs)信息。如何从RNA测序数据中准确鉴别RNA编辑与DNA突变一直是领域的研究难点。经典的RNA突变分析通常只关注(A-to-I) RNA编辑,而其所蕴含的DNA突变则被视为噪音处理,这不仅损失了大量基因组层面的DNA突变信息,对于一些DNA变异注释不完全的物种,这种处理会大大降低RNA编辑位点识别的准确性。同时,现有的RNA编辑位点识别主要依赖配套的全基因组测序数据或多个RNA测序数据集的比较分析,前者由于全基因组测序成本高而受到限制,后者则存在效率低下和假阳性率高的问题。因此,迫切需要一种高效且准确的计算工具,能够直接从RNA测序数据中区分RNA编辑和DNA突变位点。本研究开发的DEMINING流程(图1),通过深度学习模型DeepDDR高效准确地从单个RNA测序数据中识别RNA编辑和DNA突变。这种方法不仅提升了从转录组数据中识别DNA突变和RNA编辑位点的准确性,还显著提高了转录组数据分析的效率。
DEMINING流程首先通过严格的筛选标准去除转录组数据中的测序和比对错误(图1a),然后将获得的高可信度(DNA和RNA)突变位点信息作为输入,通过搭建的深度学习模型DeepDDR实现DNA突变和RNA编辑的精准区分(图1b)。在DeepDDR模型的训练过程中,研究团队从403个配套的RNA测序和DNA测序数据集中提取了122,872个高可信度的RNA编辑位点和相同数量的DNA突变位点,分别用于训练、验证和测试模型。DeepDDR模型采用创新的编码输入,将突变位点的上下游序列和测序读段编码成突变上下文共现频率矩阵(matrix of the co-occurrence frequencies of each mutation site with its context bases, CMC),接着通过使用多个层次的卷积和池化操作,提取出突变位点周围的序列以及读段比对特征,通过这种方法,DeepDDR模型不仅能够识别出突变位点,还能够捕捉到这些突变在更大范围内的上下文信息,这对于区分RNA编辑和DNA突变至关重要。同时,训练数据集的丰富性和多样性保证了模型的泛化能力,使其在不同的数据集和应用场景中,显示出较高的分类准确性和召回率,保持良好的性能。DEMINING框架的创新性设计和大量数据集的使用,不仅提高了分析的准确性和效率,还为后续的生物学研究提供了可靠的数据支持。
图 1 | 开发用于DNA突变(DMs)和RNA编辑位点(REs)分类的DEMINING框架及嵌入式DeepDDR模型
a. 构建用于直接分类DNA突变(DM)和RNA编辑(RE)的分步DEMINING计算框架。HPB:每十亿碱基上的读段覆盖数,MF:突变频率,MR:包含突变的读段数目。b. 用于DM和RE分类的嵌入式DeepDDR模型示意图。左图:通过每个突变位点与其上下文碱基的共现频率(CMC)提取特征的策略。右图:DeepDDR模型架构。c. 在RE识别上评估不同模型。展示了DeepDDR(红色)、EditPredict(紫色)和RED-ML(蓝色)在测试集上RE识别性能的ROC(左图)曲线和精度-召回率(PRC,右图)曲线。图中标明了三种方法的ROC下面积(AUROC)和PRC下面积(AUPRC)值。d. 在DM识别上评估DeepDDR。展示了DeepDDR在测试集上DM识别性能的ROC(左图)和PRC(右图)。图中包括了DeepDDR的AUROC和AUPRC值。
DEMINING框架不仅在人类样本中表现出色,经过小样本迁移学习,还可应用于非灵长类的RNA测序样本,展现了DEMINING框架广泛的应用潜力。在迁移学习过程中,研究团队将人类数据集上训练的DeepDDR模型作为预训练模型,进一步利用小鼠脑组织的RNA测序数据进行微调。通过这种方法,DeepDDR模型在小鼠数据集上的RNA编辑识别准确性得到了显著提高。相似的改进也在其他非灵长类物种(线虫)的数据集中得到了验证,表明DEMINING框架的可迁移性和广泛适用性。
DEMINING框架能够在RNA测序数据中直接鉴别出DNA突变。将其应用在急性髓性白血病(AML)患者的RNA测序数据中时,DEMINING识别出了大量此前未报道的可能与疾病相关的DNA突变和RNA编辑位点(图2)。这些突变与宿主基因的上调表达或新抗原的产生相关,为AML的发病机制提供了新的见解。值得注意的是,DEMINING识别出的在3个ANKRD家族基因上的突变都富集在了内部无序区域的编码区内,提示这些突变可能与AML病程中的液相分离异常有关。为了验证这些突变的功能,研究团队进一步分析了这些突变在宿主基因表达中的影响。结果显示,许多带有AML特异性突变的基因在AML患者样本中显著上调,特别是ANKRD36C、ANKRD36和ANKRD36B基因。这些基因的上调表达可能与AML的发病机制密切相关,为AML的诊断和治疗提供了潜在的靶点。
图 2 | 使用DEMINING框架识别急性髓系白血病(AML)相关的疾病突变
a. 使用DEMINING识别与AML相关的DMs。b. AML特异性DMs与公共数据库中报道的SNVs(单核苷酸变异)的重合情况。c. 所有AML特异性DMs(左图)、重合的AML特异性DMs(中图)及非重合的AML特异性DMs(右图)的突变频率分布。d. 携带AML特异性重编码DMs的4,464个基因与COSMIC癌症基因共识(CGC)列表中的50个AML相关基因的重合情况。e. 三个基因集(包括所有携带AML特异性重编码DMs的4,464个基因、86个AML相关基因以及它们重合的50个基因)的生物过程(BP)条目的基因本体(GO)富集分析。f. 突变数目排前十的基因中与公共数据库报道的SNVs重合和非重合DMs的数量。
DEMINING框架通过嵌入的深度学习模型DeepDDR,实现了从RNA测序数据中高效、精确地鉴定RNA编辑和DNA突变。同时迁移学习使其经过小样本微调后,可以应用在非灵长类样本中。随着RNA测序数据的不断积累,特别是与疾病相关的转录组数据,DEMINING框架有望在更广泛的人类疾病RNA测序样本中应用,揭示更多与疾病相关的突变和基因,为诊断和治疗提供潜在靶点。通过这一创新工具,期待在未来的研究中发现更多与疾病相关的突变,推进基因组学和转录组学的发展。
上述研究成果已于近日在Genome Biology在线发表,题目为 “DEMINING: a deep learning model embedded framework to distinguish RNA editing from DNA mutations in RNA sequencing data”。复旦大学生物医学研究院研究员杨力为通讯作者,博士研究生付志灿和高宝青为共同第一作者。
杨力研究组长期开展生物信息学及前沿交叉技术创新体系(Bioinformatics and Interdisciplinary Technologies, BITs)研究。近5年主要创建和利用一系列高效计算生物学分析新流程,包括机器学习和深度学习模型开展大数据挖掘研究,围绕外显子环形RNA生成加工和功能作用新机制、基因表达多维调控及互作网络、高效基因组碱基编辑新体系开发和应用等前沿领域开展合作探索,取得了一系列重要原创成果,并发表在Cell、Mol Cell、Nat Biotechnol、Genome Biol和Genome Res等(http://yang-laboratory.com)。杨力研究员入选爱思唯尔(Elsevier)中国高被引学者(Most Cited Chinese Researchers, 2020、2021、2022、2023)和科睿唯安(Clarivate)全球高被引科学家(Highly Cited Researchers,2022、2023);所培养的研究生多人次获得吴瑞奖学金、中科院院长奖学金、博士研究生国家奖学金和上海市优秀毕业生等,所培养的博士后多人次入选国家“博新计划”和上海市“超级博士后”激励计划。
Genome Biology
doi:10.1186/s13059-024-03397-2
2023 Journal Metrics
Citation Impact
2023 IF:10.1
2023 下载量:6,688,476 Altmetric 提及:12,515
投稿到初审意见:22天(中值)
基因和遗传学 | JCR Q1
BMC旗舰刊Genome Biology 是基因组生物学中排名最高的开放获取期刊, 致力于以基因组和后基因组为对象,研究生物学和生物医学各个领域的重大研究突破。
点击“阅读原文”阅读英文原文
DEMINING: a deep learning model embedded framework to distinguish RNA editing from DNA mutations in RNA sequencing data
BMC是施普林格∙自然旗下机构。作为开放获取出版先锋,BMC不断推出一系列高质量的同行评议期刊,包括BMC Biology 、BMC Medicine等涵盖范围较广的期刊,以及Malaria Journal、Microbiome和BMC系列期刊等专门刊物。BMC以“科研永不止步”为信条,致力于不断创新,以更好地满足作者群体的需要,确保所发表论文的完整性,并积极推广开放研究。
点个“在看”,下次更新不错过⇣⇣