Nat Commun | 浙江大学良渚实验室沈宁/刘志红课题组开发多模态深度学习模型，可预测疾病相关的组织特异性可变剪接

学术 2024-10-30 12:08 天津

导

读

RNA可变剪接（Alternative splicing）是基因转录后一种重要的调控机制，也是生物体多样性和蛋白质多功能性的重要来源之一。人类约90%以上的基因存在可变剪接，不同组织与细胞类型中可变剪接的多元性促进了细胞表型的多样性。同时，引起RNA可变剪接的变异也与人类多种遗传疾病相关。值得注意的是，RNA可变剪接具有组织特异性，相同的pre-mRNA序列能以组织特异性的形式发生可变剪接，从而产生多样性的转录组和蛋白质组表达。然而，现有算法无法预测组织特异性的可变剪接，因此亟需开发能够精准预测组织特异性可变剪接的算法工具，加深我们对于遗传变异的解读及后续研究。

近日，浙江大学良渚实验室沈宁/刘志红课题组在Nature Communications上发表了题为“SpliceTransformer predicts tissue-specific splicing linked to human diseases”的研究论文，开发了基于Transformer架构的多模态深度学习模型SpliceTransformer（简称SpTransformer），用于预测pre-mRNA序列中的组织特异性可变剪接位点。SpTransformer可以用于解析组织特异性剪接变异相关的疾病，为疾病相关遗传变异提供基于可变剪接机制的全新见解。

文章发表在Nature Communications

图1. SpTransformer模型仅以序列为输入，预测15种人体组织中的组织特异性剪接。该模型可用于评估遗传变异并预测组织特异性的剪接变化，其性能明显优于其他已有算法

SpTransformer在训练数据和算法架构上均有所创新。SpTransformer基于GTEx人体组织RNA-seq数据和额外的哺乳动物（恒河猴、小鼠、大鼠）组织的RNA-seq数据训练，从多个数据集中学习可变剪接相关的序列特征。模型使用one-hot编码的pre-mRNA序列作为输入。序列经过卷积编码器处理后，通过一个8层包含自注意力模块的Transformer网络，输出多标签分类结果。该方法基于9000nt~15000nt的长序列上下文信息，对输入序列中央的1000nt长度序列同时做预测，既能预测出序列中存在的可变剪接位点，也能为每个位点进行多标签分类，预测位点在15个主要人体组织中是否会被使用到。

为了考虑尽可能长的序列上下文信息，该模型结合了卷积编码和Sparse Sinkhorn Attention稀疏注意力算法，鼓励模型考虑远端序列之间以片段为单位的互作效果，而避免逐一计算碱基和碱基之间的长距离互作关系，这样的做法允许模型以线性复杂度处理大量数据，从而规避了传统Transformer模型处理超长序列时无法承受显存开销的问题。最终，该模型对可变剪接的预测结果明显优于已有算法，且创新地实现了对组织特异性剪接的预测（图1）。

之后，研究团队针对模型的可解释性进行了探索。研究团队通过可视化分析模型考虑不同序列元件的权重，发现SpTransformer模型可以成功发现1000b p以外的远端序列调控元件对可变剪接的影响。同时，模型在预测不同组织的可变剪接时，会考虑不同的序列motif，其中既有已知的经典序列调控元件，也包含未被研究过的de novo motif。

图2. SpTransformer模型可用于评估突变对剪接的影响

随后，研究团队应用SpTransformer预测单核苷酸突变（single nucleotide variant，SNV）对组织特异性剪接的影响。通过分别预测突变前序列和突变后序列的剪接情况，并计算它们预测分数的差异，模型以数学方法将突变对目标区域可变剪接的影响量化为ΔSplice分数（图2）。研究团队批量预测了大型数据库ClinVar中收录的1,273,053个SNV，发现突变的致病性和影响可变剪接的情况有较强的关联。在非编码区域突变中，通过SpTransformer给出的ΔSplice分数，能以超过0.98的ROC-AUC区分致病（Pathogenic）和良性（Benign）突变。同时，模型将大量原本标注为效果未知（Uncertain significance）的突变注释为影响可变剪接，一定程度上填补了突变效应注释的空白。

图3. SpTransformer模型可用于评估突变对组织特异性剪接的影响，并从大规模数据分析中识别可能影响组织特异性剪接的突变及其富集的基因

尽管可变剪接的组织特异性早已为人所知，但突变如何影响这种特异性剪接仍然是个未充分探索的领域。为评估单核苷酸变异（SNV）对组织特异性剪接的影响，研究团队开发了Tissue z-score分数，用以衡量突变对特定组织中剪接模式的影响是否显著高于其他组织。通过分析GTEx RNA-seq数据中的非组织特异性剪接位点，并模拟这些位点附近发生随机突变，研究团队建立了用于参考的统计学分布。当待预测SNV的Tissue z-score明显大于参考分布中的值时，就认为该SNV具有组织特异性。利用这种方法，研究团队从ClinVar数据库中识别出可能影响组织特异性剪接的突变及其富集的基因（图3）。研究结果显示，这些基因多与相关组织的遗传疾病有关，但不一定表现出组织特异性的表达模式。

图4. 算法针对三种精神疾病数据展开分析，从组织特异性剪接改变角度解读精神疾病发生的潜在机制

为了深入探讨SpTransformer在疾病诊断和治疗中的应用潜力，研究团队利用该算法分析了与自闭症（Autism），精神分裂症（Schizophrenia）和双相精神障碍（Bipolar disorder）相关的超过17万个样本的全外显子组测序结果。这些样本涵盖了患者、患者家庭成员和健康对照组。从超过千万的未知突变中，SpTransformer筛选出大量可能影响可变剪接的突变。

研究团队深入分析了这些影响剪接的突变，发现脑组织特异性的剪接改变在三种类型的精神疾病中均有显著富集。进一步的基因表达量分析揭示，这些突变所在的基因，不仅包括在大脑中特异性表达的，也包含在多数组织中广泛表达的基因，表现出双峰分布的特点。GO富集分析（Gene Ontology enrichment analysis）显示，由模型筛选出的基因与脑组织功能存在紧密联系（图4），在脑组织中特异性表达的基因通常与突触信号传导通路相关，而非组织特异性表达的基因则富集在细胞骨架相关通路。这一发现进一步揭示了脑组织中特异性剪接和特异性表达之间存在相对独立性，即使是在多种组织中普遍表达的基因，也可能通过剪接变异对脑组织产生重要影响，进而可能引发相关疾病。

同时，虽然从这三种精神疾病中筛选出的基因富集到了某些相同的通路，但每种疾病有其独特的致病基因及突变。大规模文献搜索结果显示，由SpTransformer识别的许多基因已有相关文献支持其与特定疾病的关联，证明了该工作预测的准确性。此外，还有较多新发现的基因，目前尚未有相关研究报道，这些基因可能为未来的精神疾病研究提供新的线索和方向。

此外，研究团队也针对肾脏特异性剪接进行了进一步的数据分析。模型在糖尿病肾病相关数据上进行实战，经由RNA-seq方法进行验证，以83%的准确率预测出了影响肾脏中可变剪接的突变。

以上结果表明，SpTransformer从组织特异性可变剪接的角度出发，有潜力发现传统基因表达量分析无法找到的疾病成因。这为理解疾病背后的遗传因素提供了除基因表达水平以外的重要视角。进一步地，基于组织特异性的可变剪接分析，有望成为解析复杂疾病遗传机制的关键方法之一。

图5. 组织特异性可变剪接分析算法SpTransformer的概念图

综上，该研究开发了一个精准地预测具有组织特异性的可变剪接的算法工具SpTransformer，并通过大量真实突变数据，验证了其在遗传诊断中预测组织特异性影响RNA可变剪接的致病突变的能力，具有重要临床价值和研究意义。文章相关代码已开源，发布在GitHub平台（https://github.com/ShenLab-Genomics/SpliceTransformer）。此外，研究团队还提供了一个便捷的在线服务平台（http://tools.shenlab-genomics.org/tools/SpTransformer），使用户能利用SpTransformer快速预测突变对组织特异性剪接的影响。

浙江大学良渚实验室沈宁研究员和刘志红院士为该论文的共同通讯作者，交叉培养博士生游宁远为本文的第一作者。浙江大学管敏鑫研究员、裴善赡研究员、南京大学蒋松博士、施劲松博士、复旦大学孙思琦研究员协助监督指导了本项工作，良渚实验室多位研究员及沈宁课题组多名成员对该工作作出了重要贡献。

关于课题组

良渚实验室沈宁课题组围绕“组学与精准医学分析算法开发与应用”开展临床转化密切相关的研究，运用生物信息学数据整合分析与人工智能算法，并结合实验筛选平台进行药物研发与精准治疗。

课题组目前有多项具有重要应用价值的课题正在推进，与著名医学专家主导的实验室有合作关系，诚招具有实验生物、计算生物背景的博士后和研究助理。

详细招聘信息见：

https://person.zju.edu.cn/shenning

简历投递（有意者请将个人简历等材料发送至）：

shenningzju@zju.edu.cn

原文链接：

https://www.nature.com/articles/s41467-024-53088-6

·END·

热文推荐

王亚东团队发布第一个细胞分辨率多组学遗传调控景观数据资源

MD安德森癌症中心梁晗团队绘制蛋白质表达图谱

哈佛医学院、腾讯AI实验室联合开发病理学基础模型CHIEF

蒋庆华/许召春/王平平团队提出单细胞转录组测序数据挖掘新方法

快点亮"在看”吧

http://mp.weixin.qq.com/s?__biz=MzA5NTYzMzAyNQ==&mid=2650277094&idx=1&sn=6ab64926ea259a6ea4b975f39c0bb360

测序中国

聚焦基因科技/精准医学领域的科技前沿与产业动态

Cancer Discovery | 李梢课题组提出基于AI的肿瘤中西医防治新范式

Nature Methods | 新算法利用空间转录组数据构建肿瘤的“空间进化图谱”

Nat Commun发表迄今最大的亚洲多祖先SV图谱，揭示亚洲人群的基因组变异模式

第十五期安捷伦基因组学Genomics Day— COE Lab客户培训开放日即将开启，广州&上海等待您加入

Nat Commun | 中科大瞿昆/郭闯团队对染色体外环状DNA算法性能进行系统评估

NBT | 生物信息平台DRAGEN可30分钟完成大规模全基因组分析和多种变异检测

Nat.Commun. | 赵屹/杨胜勇团队发表基于深度生成模型（PRnet）进行新化合物扰动转录响应预测加速药物研发

Cell重磅！华大等团队发布时空算法工具，高精度生命全景时空研究迈进新阶段

JAMA Netw Open｜多中心队列研究揭示，RNA+DNA-NGS联合检测可提高晚期NSCLC患者SV检出率

Illumina、Qiagen、PacBio、Bruker发布2024年Q3财报

郑州大学第一附属医院病理科招聘工作人员

NEJM | 研究首次证实lncRNA CHASERR基因单拷贝缺失可导致新型神经发育障碍

【倒计时2周】2024年有哪些精准医疗行业热点？P4 2024终版议程出炉，为您全面揭晓！

胡璐璐/刘杰/何川等团队合作开发定量检测超微量样本中核酸表观修饰的新方法LAMP-MS

创新驱动共赢未来：罗氏诊断与胶州市人民政府共建国际一流生物医疗创新平台

Nat Commun | 利用cfDNA片段组监测癌症治疗的新方法DELFI-TF，无需肿瘤先验遗传信息即可确定肿瘤负荷！

中山医院、罗氏诊断、顿慧医疗携手齐进，共筑NGS数智化病理建设新高度！

议程公布！“首届细胞基因治疗国际论坛暨第二届新型疫苗及生物制品发展论坛”邀您参会！

罗氏血液群星闪耀“进”益求“精”，引领中国血液疾病诊疗一体化新篇章

NEJM里程碑文章和FDA新药批准、慧渡医疗液体活检助力罗氏新药临床试验

Nat Commun | 探索长寿奥秘：百岁老人罕见LOF突变负荷显著降低，揭示健康长寿的潜在遗传机制

Cell：中国科学院动物所携手华大等构建全球首份多器官衰老时空图谱，助力延缓衰老

NBT｜任兵团队开发新型高通量单细胞染色质构象分析技术Droplet Hi-C，填补异质组织染色质分析的关键空白

国考报名 | 出生缺陷防控咨询师，12月22日考试，报名开启啦！

Nat Genet | 基于WGS数据绘制癌症进展过程中ecDNA扩增图谱，揭示抗癌新靶点

Cell | 中山大学联合阿里云团队利用AI揭秘隐藏的RNA病毒“圈”

Bioinformatics｜复旦大学黄胜林团队开发更快、更强的多价新抗原组合计算工具NeoDesign

杨运桂/张世华团队开发整合组织学图像和空间基因表达谱的深度学习方法STASCAN，破译高分辨率细胞分布

NAR | 中山大学岳家兴团队及合作者建立酿酒酵母全球种群泛多组学数据库ScRAPdb

张治华研究组招聘人工智能/可视化方向特别研究助理（博士后）

Nat Commun | 浙江大学良渚实验室沈宁/刘志红课题组开发多模态深度学习模型，可预测疾病相关的组织特异性可变剪接

Nature | 唐氏综合征胎儿血液单细胞多组学图谱发布

Nat Commun | 刘鹏/王贵强/项光新团队开发多场景、超灵敏气溶胶呼吸道病毒监测系统，实现亚单拷贝空间病毒分辨率

上新啦 | 安捷伦更新Avida 产品目录并上线定制化服务，甲基化与突变共检测能力全面升级

Genome Med | 首次揭示DNA去甲基化可促进结直肠癌细胞释放cfDNA，或可提高液体活检的灵敏度

Nat Commun | 卡罗琳斯卡医学院团队发表人类植入前胚胎发育的非编码小RNA图谱

我国科研团队组装的造礁石珊瑚基因组被NCBI评选为主要标准基因组

Nature | 基于人脑DNA甲基化-染色质构象单细胞图谱，揭秘大脑发育的3D多组学动态变化

快速、稳定、高性价比，揭秘博奥晶典国产自研单细胞转录组平台，助推精准医学发展

普译生物纳米孔测序仪已陆续交付十余台！

NAR | 王晓群/何顺民/吴倩课题组合作构建人类和非人灵长类大脑多组学时空细胞图谱MAPbrain

中国医学科学院（北京协和医学院）血液学研究所姚瑶课题组招聘

Nat Methods | 链接基因变异与蛋白质序列和结构的强大生信工具：G2P

首轮通知丨中国工程院工程科技学术研讨会暨第十四届中国分子诊断技术大会重磅来袭！

AJHG | BabySeq项目第二次迭代：不同的婴儿队列中进行基因组测序的临床试验概述

基于171种猴痘病毒蛋白质的完整单点突变图谱，探索潜在疫苗及药物开发途径

Nat Genet | 破译170个CRC风险位点的功能性变异与208个靶基因的直接关联

国考报名 | 出生缺陷防控咨询师，12月22日考试，报名开启啦！

Nat Med | GALAXY研究揭示可切除CRC患者的MRD监测有助于预后评估及指导辅助治疗

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉