DEMINING：从RNA测序数据直接鉴别RNA编辑与DNA突变位点的深度学习框架 | Genome Biology

学术 2024-10-22 18:10 上海

作者：付志灿，高宝青，马旭凯，南芳，杨力

DNA转录产生RNA，因此高通量RNA测序数据中不仅包含RNA突变信息，其主要是由腺苷脱氨酶（ADAR）催化产生的腺苷（A）到肌苷（I）的RNA编辑（RNA editing, REs），也隐藏着大量的基因组DNA突变（DMs）信息。如何从RNA测序数据中准确鉴别RNA编辑与DNA突变一直是领域的研究难点。经典的RNA突变分析通常只关注（A-to-I） RNA编辑，而其所蕴含的DNA突变则被视为噪音处理，这不仅损失了大量基因组层面的DNA突变信息，对于一些DNA变异注释不完全的物种，这种处理会大大降低RNA编辑位点识别的准确性。同时，现有的RNA编辑位点识别主要依赖配套的全基因组测序数据或多个RNA测序数据集的比较分析，前者由于全基因组测序成本高而受到限制，后者则存在效率低下和假阳性率高的问题。因此，迫切需要一种高效且准确的计算工具，能够直接从RNA测序数据中区分RNA编辑和DNA突变位点。本研究开发的DEMINING流程（图1），通过深度学习模型DeepDDR高效准确地从单个RNA测序数据中识别RNA编辑和DNA突变。这种方法不仅提升了从转录组数据中识别DNA突变和RNA编辑位点的准确性，还显著提高了转录组数据分析的效率。

DEMINING流程首先通过严格的筛选标准去除转录组数据中的测序和比对错误（图1a），然后将获得的高可信度（DNA和RNA）突变位点信息作为输入，通过搭建的深度学习模型DeepDDR实现DNA突变和RNA编辑的精准区分（图1b）。在DeepDDR模型的训练过程中，研究团队从403个配套的RNA测序和DNA测序数据集中提取了122,872个高可信度的RNA编辑位点和相同数量的DNA突变位点，分别用于训练、验证和测试模型。DeepDDR模型采用创新的编码输入，将突变位点的上下游序列和测序读段编码成突变上下文共现频率矩阵（matrix of the co-occurrence frequencies of each mutation site with its context bases, CMC)，接着通过使用多个层次的卷积和池化操作，提取出突变位点周围的序列以及读段比对特征，通过这种方法，DeepDDR模型不仅能够识别出突变位点，还能够捕捉到这些突变在更大范围内的上下文信息，这对于区分RNA编辑和DNA突变至关重要。同时，训练数据集的丰富性和多样性保证了模型的泛化能力，使其在不同的数据集和应用场景中，显示出较高的分类准确性和召回率，保持良好的性能。DEMINING框架的创新性设计和大量数据集的使用，不仅提高了分析的准确性和效率，还为后续的生物学研究提供了可靠的数据支持。

图 1 | 开发用于DNA突变（DMs）和RNA编辑位点（REs）分类的DEMINING框架及嵌入式DeepDDR模型

a. 构建用于直接分类DNA突变（DM）和RNA编辑（RE）的分步DEMINING计算框架。HPB：每十亿碱基上的读段覆盖数，MF：突变频率，MR：包含突变的读段数目。b. 用于DM和RE分类的嵌入式DeepDDR模型示意图。左图：通过每个突变位点与其上下文碱基的共现频率（CMC）提取特征的策略。右图：DeepDDR模型架构。c. 在RE识别上评估不同模型。展示了DeepDDR（红色）、EditPredict（紫色）和RED-ML（蓝色）在测试集上RE识别性能的ROC（左图）曲线和精度-召回率（PRC，右图）曲线。图中标明了三种方法的ROC下面积（AUROC）和PRC下面积（AUPRC）值。d. 在DM识别上评估DeepDDR。展示了DeepDDR在测试集上DM识别性能的ROC（左图）和PRC（右图）。图中包括了DeepDDR的AUROC和AUPRC值。

DEMINING框架不仅在人类样本中表现出色，经过小样本迁移学习，还可应用于非灵长类的RNA测序样本，展现了DEMINING框架广泛的应用潜力。在迁移学习过程中，研究团队将人类数据集上训练的DeepDDR模型作为预训练模型，进一步利用小鼠脑组织的RNA测序数据进行微调。通过这种方法，DeepDDR模型在小鼠数据集上的RNA编辑识别准确性得到了显著提高。相似的改进也在其他非灵长类物种（线虫）的数据集中得到了验证，表明DEMINING框架的可迁移性和广泛适用性。

DEMINING框架能够在RNA测序数据中直接鉴别出DNA突变。将其应用在急性髓性白血病（AML）患者的RNA测序数据中时，DEMINING识别出了大量此前未报道的可能与疾病相关的DNA突变和RNA编辑位点（图2）。这些突变与宿主基因的上调表达或新抗原的产生相关，为AML的发病机制提供了新的见解。值得注意的是，DEMINING识别出的在3个ANKRD家族基因上的突变都富集在了内部无序区域的编码区内，提示这些突变可能与AML病程中的液相分离异常有关。为了验证这些突变的功能，研究团队进一步分析了这些突变在宿主基因表达中的影响。结果显示，许多带有AML特异性突变的基因在AML患者样本中显著上调，特别是ANKRD36C、ANKRD36和ANKRD36B基因。这些基因的上调表达可能与AML的发病机制密切相关，为AML的诊断和治疗提供了潜在的靶点。

图 2 | 使用DEMINING框架识别急性髓系白血病（AML）相关的疾病突变

a. 使用DEMINING识别与AML相关的DMs。b. AML特异性DMs与公共数据库中报道的SNVs（单核苷酸变异）的重合情况。c. 所有AML特异性DMs（左图）、重合的AML特异性DMs（中图）及非重合的AML特异性DMs（右图）的突变频率分布。d. 携带AML特异性重编码DMs的4,464个基因与COSMIC癌症基因共识（CGC）列表中的50个AML相关基因的重合情况。e. 三个基因集（包括所有携带AML特异性重编码DMs的4,464个基因、86个AML相关基因以及它们重合的50个基因）的生物过程（BP）条目的基因本体（GO）富集分析。f. 突变数目排前十的基因中与公共数据库报道的SNVs重合和非重合DMs的数量。

DEMINING框架通过嵌入的深度学习模型DeepDDR，实现了从RNA测序数据中高效、精确地鉴定RNA编辑和DNA突变。同时迁移学习使其经过小样本微调后，可以应用在非灵长类样本中。随着RNA测序数据的不断积累，特别是与疾病相关的转录组数据，DEMINING框架有望在更广泛的人类疾病RNA测序样本中应用，揭示更多与疾病相关的突变和基因，为诊断和治疗提供潜在靶点。通过这一创新工具，期待在未来的研究中发现更多与疾病相关的突变，推进基因组学和转录组学的发展。

上述研究成果已于近日在Genome Biology在线发表，题目为 “DEMINING: a deep learning model embedded framework to distinguish RNA editing from DNA mutations in RNA sequencing data”。复旦大学生物医学研究院研究员杨力为通讯作者，博士研究生付志灿和高宝青为共同第一作者。

杨力研究组长期开展生物信息学及前沿交叉技术创新体系（Bioinformatics and Interdisciplinary Technologies, BITs）研究。近5年主要创建和利用一系列高效计算生物学分析新流程，包括机器学习和深度学习模型开展大数据挖掘研究，围绕外显子环形RNA生成加工和功能作用新机制、基因表达多维调控及互作网络、高效基因组碱基编辑新体系开发和应用等前沿领域开展合作探索，取得了一系列重要原创成果，并发表在Cell、Mol Cell、Nat Biotechnol、Genome Biol和Genome Res等（http://yang-laboratory.com）。杨力研究员入选爱思唯尔（Elsevier）中国高被引学者（Most Cited Chinese Researchers, 2020、2021、2022、2023）和科睿唯安（Clarivate）全球高被引科学家（Highly Cited Researchers，2022、2023）；所培养的研究生多人次获得吴瑞奖学金、中科院院长奖学金、博士研究生国家奖学金和上海市优秀毕业生等，所培养的博士后多人次入选国家“博新计划”和上海市“超级博士后”激励计划。

Genome Biology

doi:10.1186/s13059-024-03397-2

2023 Journal Metrics

Citation Impact

2023 IF：10.1

2023 下载量：6,688,476 Altmetric 提及：12,515

投稿到初审意见：22天（中值）

基因和遗传学 | JCR Q1

BMC旗舰刊Genome Biology 是基因组生物学中排名最高的开放获取期刊, 致力于以基因组和后基因组为对象，研究生物学和生物医学各个领域的重大研究突破。

点击“阅读原文”阅读英文原文

DEMINING: a deep learning model embedded framework to distinguish RNA editing from DNA mutations in RNA sequencing data

BMC是施普林格∙自然旗下机构。作为开放获取出版先锋，BMC不断推出一系列高质量的同行评议期刊，包括BMC Biology 、BMC Medicine等涵盖范围较广的期刊，以及Malaria Journal、Microbiome和BMC系列期刊等专门刊物。BMC以“科研永不止步”为信条，致力于不断创新，以更好地满足作者群体的需要，确保所发表论文的完整性，并积极推广开放研究。

点个“在看”，下次更新不错过⇣⇣

http://mp.weixin.qq.com/s?__biz=MzI0NDEzMTAxNQ==&mid=2673594264&idx=1&sn=66a83bbcac8efdf7cb5fa25d87b0874a

BMC科研永不止步

Springer Nature旗下的开放获取期刊品牌。BMC致力于为科学、技术、人文与社会科学等领域的科研人员提供更广泛且便捷的开放期刊、图书、数据、工具等开放科研服务。定期更新期刊资讯、论文解析、投稿建议等实用信息。

最新文章

肠道微生物通过维生素B6合成途径促进果蝇幼虫发育 | Microbiome

Springer Nature 推出全新开放获取期刊品牌 Discover

中国0-18岁健康人群维生素K状况探析 | BMC Pediatrics

探寻OA协议价值所在（二）：专访圣母大学学术馆藏负责人

Infectious Diseases of Poverty 文章荐读 | 关注全球耐药性结核病流行情况：系统综述和荟萃分析

OHAD文章解读 | 产气荚膜梭菌中CPB2毒素基因的潜在生物学功能分析

婴儿与成人的口鼻微生物群落的比较研究 | Microbiome

探索DRD2基因对数学能力的影响 | BMC Psychology

MdSVWC1触发多种防御机制，帮助家蝇抵御细菌入侵 | BMC Biology

AdisInsight 10月制药领域重大事件回顾：默沙东，赛诺菲，灵北…

超加工食品消费与肾细胞癌的发病率和死亡率相关 | BMC Medicine

Springer Nature 高影响力期刊推荐 | 人文、商业经济与法律

穿山甲鳞片可能承担病原体防御功能 | BMC Biology

《全球科研脉动》发布！首份聚焦中国

从分子层面探索酵母种类对葡萄酒风味的影响 | Microbiome

如何让自己的综述论文既画龙点睛又具有影响力？ | 自然大师课堂新课上线

青少年男孩的压力体验——一项焦点小组研究 | BMC Psychology

益生菌与维生素D联合补充对成人偏头痛患者的影响 | BMC Medicine

含1600w+文献的学术资源库，一文深挖Springer Nature Link平台

临床与口腔医学生的学术拖延症、自我产生压力与自述磨牙症的相互影响：一项横断面研究 | BMC Psychology

对ICU病房的慢性阻塞性肺病患者使用全身性皮质类固醇，是否有益处？| BMC Medicine

开放获取，打破知识的壁垒 | 年度进展报告亮点篇4

新热带响尾蛇的毒液特征和中和效应 | BMC Biology

无需作者承担APC，这所机构让OA发表变简单

衰老、皮肤类型与面部微生物 | Microbiome

华中科大、深圳湾实验室、中科院物理所…自然职场11月份职位精选

FgCWM1 调节 TaNDUFA9 以抑制 SA 合成并降低小麦赤霉病抗性 | BMC Biology

通过单细胞测序探索学龄前儿童阑尾的细胞发育特征 | BMC Medicine

屏中镜像：对社交媒体上自我展示的关注与青少年的完美主义和饮食失调相关 | BMC Public Health

期刊如何实现爆发式发展？| 编辑影响力大赏

促进儿童和青少年体育体能发展，家庭、学校和社区哪个更重要？| BMC Public Health

BMC Series新刊推介：BMC Plastic and Reconstructive Surgery

BMC即将截止的特刊征稿十月辑|寻找更匹配您的投稿方向

感知压力对大学生睡眠质量的影响，以及“意义感”在其中的中介作用 | BMC Psychology

除了ChatGPT，在不同的科研阶段还有哪些好用的AI工具？

59 个国家青少年吸烟和饮酒与性行为的关系 | BMC Public Health

姜作物抗根腐病能力相关的代谢组驱动的微生物群落 | Microbiome

2024诺贝尔奖得主作品合集出炉！畅读150+期刊论文和图书章节

湿度变化对国际空间站尘埃微生物群的影响 | Microbiome

让更多作者轻松选择OA发表，亚太地区的OA进程如何？| 开放获取周

海鲜溯源：利用机器学习辅助的微生物组分析预防非法海鲜贸易 | BMC Biology

过去三年，中国研究者对OA的看法有何变化？| 开放获取周

中国自动化大会 | Springer Nature与您相约青岛

Springer Nature 高影响力期刊推荐 | 社会学

久坐增加死亡风险，适量体能活动或可缓解 | BMC Medicine

盘点制药业重大进展：2024年上市的12种潜在“重磅炸弹”药物

中国计算机大会 | Springer Nature与您相约横店

DEMINING：从RNA测序数据直接鉴别RNA编辑与DNA突变位点的深度学习框架 | Genome Biology

信息时代，研发实验室如何抓住机会实现数字化转型？

田志喜/李家洋院士/谢芳/Jeff J. Doyle团队在豆科植物根瘤共生固氮进化机制研究中取得重要进展

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉