物质科学
Physical science
Reformer是一个基于深度学习的工具,能仅通过RNA序列预测蛋白质与RNA的结合位置和强度。1月10日,天津市肿瘤医院李祥春团队在Cell Press细胞出版社旗下期刊Patterns上发表了一篇题为“A deep learning model for characterizing protein-RNA interactions from sequences at single-base resolution”的研究论文,介绍了Reformer的核心优势,包括无需复杂实验数据、高分辨率结合预测及发现隐藏模式。Reformer在结合预测、基序发现、基序构建与整合及突变效应预测等应用场景中表现出色,为RNA调控机制研究提供新途径,并为疾病治疗提供新思路。
▲长按图片识别二维码阅读原文
文章亮点
创新模型:提出名为Reformer的深度学习模型,能够从序列数据中精准预测蛋白质与RNA的结合亲和力,并以单碱基分辨率实现高精确度的预测,突破传统方法的局限性。
性能卓越:模型基于225组eCLIP-seq数据训练和评估,覆盖155种RNA结合蛋白,在预测结合特性和解析结合模式方面展现出极高的准确性。
揭示调控机制:Reformer深入解析了RNA调控过程中的关键机制,并能够识别出具有重要生物学意义的致病突变,其预测结果在实验中得到有力支持。
文章简介
RNA结合蛋白(RBPs)是基因表达调控中的重要参与者。它们通过与RNA的特定结合来调控许多关键的生物学过程,包括RNA剪接、稳定性、定位、编辑和翻译。当RBPs功能出现异常时,可能引发多种疾病,如癌症、自身免疫病和神经退行性疾病。因此,深入了解RBPs与RNA的结合特性不仅能揭示其调控机制,还能为疾病治疗提供新思路。
传统研究RBP与RNA结合的方法(如eCLIP-seq)依赖实验数据,且难以直接解析序列中关键的调控信息。为此,Reformer应运而生。作为一个基于深度学习的工具,Reformer通过分析RNA序列本身的信息,进而预测蛋白质与RNA的结合位置和结合强度。它不依赖复杂的实验数据,而是利用先进的Transformer模型,将预测分辨率提升到单碱基水平,为RNA调控机制研究开辟了新途径。
Reformer的核心优势
无需依赖复杂实验数据:传统方法通常需要RNA序列及二级结构数据作为输入,而Reformer只需要RNA序列本身即可实现高精度预测,大幅降低了研究成本和时间。
高分辨率的结合预测:Reformer能够在单碱基层面解析蛋白质与RNA的结合强度,超越传统方法的二分类能力。
发现隐藏模式:借助Transformer模型的注意力机制,Reformer能自动发现序列中重要的调控模式,包括结合位点的上下文信息和潜在的关键基序。
图:Reformer模型的设计理念,及其在RNA结合预测、基序分析和突变效应评估中的应用。
应用场景一:高分辨率的结合预测
Reformer的核心能力是预测蛋白质与RNA的结合强度,其输入仅需RNA序列即可完成。通过多层Transformer结构,Reformer可以分析序列中的每个碱基,预测它与蛋白质的结合强度。
在验证过程中,研究人员使用了eCLIP-seq数据对Reformer进行评估。结果显示,Reformer的预测结果在单碱基分辨率上与实验数据高度一致,并优于现有的深度学习模型,如DeepBind和HDRNet。这种高精度预测对于研究蛋白质与RNA的动态调控机制具有重要意义。例如,在研究RNA的剪接调控时,Reformer可以帮助科学家精确定位可能受影响的结合区域,从而更高效地设计后续实验。
应用场景二:基序发现与特征解析
基序(Motif)是RNA序列中重要的模式,通常决定了蛋白质与RNA的结合特性。然而,传统方法受限于数据分辨率和分析手段,无法全面揭示序列中的关键基序。
Reformer通过分析高注意力区域的序列模式,能够识别出已知的经典基序,同时还发现了许多未被传统方法检测到的新基序。这些基序可能位于结合位点附近,也可能出现在远离结合位点的上下文区域,但它们对于RNA调控的功能同样重要。例如,Reformer发现了一些与RNA剪接直接相关的基序,并揭示了这些基序如何与特定RBPs相互作用。科学家可以利用这些信息更好地理解RNA剪接过程的分子机制,为疾病研究提供新线索。
应用场景三:基序构建与整合
在发现关键基序的基础上,Reformer还可以通过对高注意力区域的分析,整合出完整的结合模式。这些模式可以用来解释不同RNA结合蛋白的调控规则。
例如,在某些实验中,Reformer成功重建了经典基序“GCCAA”,并进一步展示了不同RBPs对该基序的结合偏好。这不仅帮助科学家理解RBPs的调控方式,还为设计实验研究RNA调控功能提供了新的工具。
应用场景四:突变效应预测
RNA中的突变可能显著影响蛋白质的结合,从而干扰正常的基因调控过程,甚至导致疾病。Reformer能够通过模拟突变前后的结合强度变化,评估突变对RNA调控的影响。
例如,研究人员利用Reformer分析了与BRCA1和NF1相关的致病突变。这些突变被预测为会显著降低RNA结合蛋白的结合强度,从而破坏正常的调控功能。这一预测得到了实验验证,为筛选疾病相关的关键突变提供了强有力的支持。
此外,Reformer的突变效应预测还可用于优先筛选可能影响RNA功能的罕见突变,帮助科学家更高效地设计实验,验证这些突变是否与疾病相关。
作者专访
作者介绍
李祥春
教授
李祥春,论文通讯作者,天津市肿瘤医院教授,生物信息平台负责人。从事肿瘤基因组学研究10年,熟练使用前沿深度学习算法,对“基因组学+影像+深度学习”跨学科研究有较好基础;近五年来以第一作者或通讯作者在Lancet Oncology、JAMA Oncology 、Nature Medicine等国际权威杂志上发表论文15篇;先后入选国家级青年人才项目;天津市“131”创新型人才培养工程第一层次人选;天津市高校“青年后备人才支持计划”人选;天津医科大学肿瘤医院高层次创新人才“中青年科研型创新领军人才”;天津市抗癌协会恶性黑色素瘤专业委员会第一届委员会常务委员。
石磊
教授
石磊,论文共同通讯作者,天津医科大学教授。长期从事基因组稳定性和肿瘤发生发展的表观遗传机制研究,相关工作以通讯作者发表在Molecular Cell、Journal of Clinical Investigation、Genome Biology等杂志。研究成果被Molecular Cell等专评推荐,受邀为Trends in Cell Biology撰写评论文章。获得国家自然科学基金委杰出青年基金等资助。任中国抗癌协会青年理事,中国细胞生物学会染色质分会委员,Cancer Biology & Medicine 和Genome Instability & Disease杂志编委。
陈可欣
教授
陈可欣,论文共同通讯作者,天津市肿瘤医院教授,国家教育部人群重大疾病防控重点实验室主任,国家重点研发计划项目首席科学家,国家教育部创新团队发展计划带头人,中国抗癌协会肿瘤流行病学专委会主任委员。长期从事肿瘤分子流行病学、常见恶性肿瘤筛查、人工智能与肿瘤精准诊疗相关研究。以通信/第一作者在Lancet Oncology,JAMA Oncology,Nature Medicine等期刊发表SCI论文100余篇,连续四年入选Elsevier“医学”高被引中国学者。主持科技部重点研发计划项目、国家自然科学基金委重点、国际合作、863专项和科技部新药创制平台项目等国家重大科研项目10余项,获授权专利2项,先后获国家科技进步二等奖和天津市科技进步奖一等奖等。
相关论文信息
论文原文刊载于Cell Press细胞出版社旗下期刊Patterns,
点击“阅读原文”或扫描下方二维码查看论文
▌论文标题:
A deep learning model for characterizing protein-RNA interactions from sequences at single-base resolution
▌论文网址:
https://www.sciencedirect.com/science/article/pii/S2666389924003222
▌DOI:
https://doi.org/10.1016/j.patter.2024.101150
▲长按图片识别二维码阅读原文
Cell Press Multi-Journal Submission(点击查看)的前身Cell Press Community Review模式于2021年推出。对于通过Cell Press Multi-Journal Submission“多刊审稿”模式投稿的作者,我们将提供稿件被多本期刊同时考虑的机会。超过80%通过Cell Press Multi-Journal Submission“多刊审稿”模式投稿的文章获得了至少一个或多个期刊的评审。
CellPress细胞出版社
推荐阅读
浙江大学陈喜群/夏英集Patterns:数据-知识共驱动的工程与管理创新 | Cell Press论文速递
▲长按识别二维码关注细胞科学