结合DNA远端互作信息，根据序列特征有效预测基因表达

教育培训 2021-12-17 08:30

摘要

非编码DNA如何决定不同类型细胞的基因表达是一个尚未解决的主要问题。本文通过使用一种称为Enformer的深度学习架构，整合基因组中的远程交互(长达100kb)信息，大幅提高DNA序列基因表达预测精度。这一改进产生了对通过大规模平行报告测定的自然遗传变体和饱和突变基因表达的更准确的变体效应预测。此外，Enformer直接从DNA序列中预测增强子-启动子的相互作用，与直接将实验数据作为输入的方法相比具有竞争力。这些进展能够更有效地对人类疾病关联进行精细定位，并提供一个解释顺式调控进化的框架。

介绍

利用DNA序列预测基因表达和染色质状态的模型有望更好地了解转录调控，以及其如何受到与人类疾病和特征相关的许多非编码遗传变异的影响。这些模型补充了基于人群的关联研究，然而这些研究通常仅限于常见的变异，并且由于连锁不平衡 (LD) 而难以从关联中分离因果关系；此外，人类遗传变异的实验验证很费力，而且仅限于可以实验室中的细胞类型或组织，因此很难在相关生物环境中测试所有感兴趣的变异，尽管基于序列的计算模型原则上可以克服这些挑战，但它们的准确性仍然有限，使得从序列预测表达成为一个尚未解决的关键问题。

材料和方法

基因注释文件：https://www.gencodegenes.org/ (v32).

Basenji2 训练集, 验证集, 测试数据：https://console.cloud.google.com/storage/browser/basenji_barnyard/data.

Processed CRISPRidata ：GSE120861.

H3K27ac ChIP–seq ：https://www.encodeproject.org/ with file accession ENCFF779QTH and DNasewith file accessions ENCFF413AHU and ENCFF936BDN.

TAD boundaries processed by Fudenberg et al 202032 were obtained fromhttps://console.cloud.google.com/storage/browser/basenji_hic/ insulation.

Fine-mapped eQTLs ：https://console.cloud.google.com/storage/browser/dm-enformer/data/gtex_fine.

结果

1.Enformer是一类深度学习模型，在自然语言处理方面取得了重要进展。目前已被应用于短DNA序列建模，可整合远至100 kb的远端元件。相比之下，Basenji2或ExPecto模型最多只能覆盖20kb元件。Enformer在预测人类蛋白质编码基因TSS处的Cap分析基因表达（CAGE）方面大大优于Basenji2，平均相关性为0.85（图b）。基因表达预测也能更好地捕捉组织或细胞类型特异性（图b）。同时，Enformer比ExPecto1的预测准确性更高。ExPecto1是一个经过训练的模型，用于预测通过RNA测序的跨基因和跨组织评估的基因表达水平。以上结果证实， Enformer提高了从DNA序列预测广泛表观遗传标记和基因表达的准确性。为了更好地理解Enformer在进行预测时使用的序列元件，研究团队计算了两种不同的基因表达贡献分数和注意权重，发现它们与K27乙酰化的组蛋白H3（H3K27ac）相关，不仅突出了局部启动子区域，还突出了20kb 以外的远端增强子（图a）。相比之下，对于超过20kb的序列，Basenji2的贡献分数为零，表明Enformer在对20kb以上的增强子进行预测时，基因表达贡献分数可用于确定相关增强子的优先级。

2.该研究的一个目标是预测遗传变异对细胞类型特异性基因表达的影响，通过全基因组关联研究（GWAS）对数千个与目标表型相关的非编码基因进行精细定位。一个成功的模型能够产生基因表达数量性状位点（eQTL）研究的结果，无需检测数百到数千个单独的基因表达谱。因此，研究团队探讨了GTEx项目在数十个人体组织中发现的eQTL，以验证该模型预测性能。相对于Basenji2，Enformer预测了GTEx组织最大的组织相似性（图b，c）。因此，对于具有类似细胞类型组成的样本，Enformer的预测更准确。为了评估Enformer预测结果对识别因果变异的效用，研究团队为每个组织定义了一个分类任务，以区分可能的因果变异和虚假eQTL。相对于Basenji2，Enformer为48个GTEx组织中的47个组织提供了更精确的分类（图d）。

最后，研究团队使用一个大规模平行报告分析（MPRA）数据集评估了Enformer在变异效应预测中的表现。他们观察到，以Enformer预测为特征的套索回归在所有基因座上具有最佳的平均相关性（图a）。此外，使用Enformer预测可直接作为分数，无需训练，表现与套索训练模型相当，也优于包括结合DNA互作的预测因子deltaSVM等其他模型。Enformer忠实地捕捉了LDLR位点四个转录因子结合位点中的两个位点的效应（图c）。相比之下，deltaSVM仅成功预测了一个结合位点。

讨论

调节基因组学中一个长期存在的问题是利用DNA 序列预测基因表达的问题。借助新颖的Transformer架构，通过扩展感受野和增加远端元件之间的信息流极大的推动了这一问题的解决。在启动子和增强子距离很大的情况下，该模型可以更好地捕捉生物学现象，组织和细胞类型特异性基因表达预测相关性的性能显着增加。同时，Enformer在增强子-启动子预测和非编码变异效应预测问题中具有很好的改进效果。我们观察到该模型在进行基因表达预测时关注增强子与绝缘子，这表明它已经学习了典型的远端调控模式。使用 Enformer 模型，我们可以仅依靠 DNA 序列作为输入，更准确地预测自然变异或 CRISPR 扰动的增强子与基因表达变化的相关性。

当前方法的一个限制是我们只能对训练数据中的细胞类型和检测进行建模和预测，而不能推广到新的细胞类型或检测。并行研究已经开始通过细胞类型和检测的表征学习来解决这个缺点，并且可以在未来使用 Enformer 架构。通过对越来越多的功能基因组数据集（例如源自 CRISPR 扰动和大规模平行报告基因检测的数据集）进行训练，可以进一步提高模型对遗传变异的敏感性

参考文献：

Effectivegene expression prediction from sequence by integrating long-range interactions.

Avsec, Ž., Agarwal, V., Visentin, D. et al

Nature methods

2021.10

计算表观遗传学

计算表观遗传学
微信号：intro4gcer
分享到朋友圈丨点右上角···分享

往期「精彩内容」，点击回顾

DNA测序历史 | CircRNA数据库 | Epigenie表观综合 | 癌症定位

BWA介绍 | 源码安装R包 | CancerLocator | lme4 | 450K分析

乳腺癌异质性 | BS-Seq | 隐马模型 | Circos安装 | Circos画图

KEGG标记基因 | GDSC | Meta分析 | R线性回归和相关矩阵

精彩会议及课程，点击回顾

计算表观遗传学大数据前沿学术论坛会议记实

哈尔滨医科大学2017年全国生物信息学暑期学校

2017龙星课程系列（一）

2017龙星课程系列（二）
2017龙星课程系列（三）

2017龙星课程系列（四）

2017龙星课程系列（五）

编辑：zmy

图文：gcy

通讯邮箱：ad.cepi@edbc.org

投稿邮箱：scw.cepi@edbc.org

CEPI感谢您的支持！

（IOS系统用户专用通道）

赞赏

http://mp.weixin.qq.com/s?__biz=MzIyOTg5OTI2Nw==&mid=2247486654&idx=1&sn=d59aa80e350ca0e57b8636bbe3971e83

计算表观遗传学

“计算表观遗传学（Computational Epigenetics - CEPI）”公众平台致力于表观遗传领域的科学研究，汇集领域内数据分析、算法开发及平台搭建，领航表观前沿，共同探索表观遗传调控机制。

最新文章

利用评估转录组学从组织病理图像预测癌症治疗反应的深度学习框架

NATURE METHOD | 基于深度生成模型的可解释空间降维方法摘要

A pathology foundation model for cancer diagnosis and prognosis

联合代谢组学扩展了三阴性乳腺癌的精准医疗

Nature重磅！天才博士再次“出手”表观遗传领域实现逆袭！打破传统！

Nature Medicine | 利用深度学习从中枢神经系统肿瘤的组织病理学预测基于 DNA 甲基化的肿瘤类型

IF=29.7 | 基于靶向临床基因组测序数据的肿瘤类型预测模型

震惊生信圈！生信博士再发Nature，表观遗传学领域迎来新时代！

第十三届全国生物信息学与系统生物学学术大会（第一轮通知）

中国肿瘤标志物学术大会（CCTB）肿瘤单细胞测序数据应用培训班及肿瘤标志物多组学大数据论坛成功举办

美国罗切斯特大学刘洪波课题组招收博士后和博士生

第十二届全国生物信息学与系统生物学学术大会表观遗传信息学分会场专家报告精彩纷呈!

第四届国际表观基因组学研讨会在上海隆重开幕！

【报告安排】中国生物工程学会第十五届学术年会暨2023年全国生物技术大会

还在卷单细胞？肿瘤图像数据高分生信新思路～

第五届全国表观遗传信息学研讨会圆满落幕！

隆重召开 | 全国表观遗传信息学研讨会暨表观遗传信息学专委会成立大会在温州召开

Nature重磅！2023计算表观遗传学最新研究！如何快速发顶刊！

文献导读-基于 DNA 甲基化的表观遗传特征预测神经胶质瘤的体细胞基因组改变

会议倒计时！会议日程发布！第五届全国表观遗传信息学研讨会暨表观遗传信息学专委会成立大会

第五届全国表观遗传信息学研讨会暨表观遗传信息学专委会成立大会（第二轮通知)

第十八届国际基因组学大会（ICG-18）多组学与眼健康论坛相聚中国眼谷-温州

第五届全国表观遗传信息学研讨会（第一轮通知）

【肿瘤标志物大数据论坛】丨中国肿瘤标志物学术大会分论坛

招聘启事

一个表观遗传学调控子的全面图谱揭示其组织特异性调控模式

生信宝库推荐|RM2Target:RNA修饰相关调控蛋白靶基因的综合数据库资源

【线下培训】肿瘤标志物挖掘技术与应用必备技能培训 | 免2022肿瘤标志物学术大会注册费

泛癌中 G 蛋白偶联受体相关基因的 DNA 甲基化特异性分析

中山大学附属第一医院精准医学研究院-王芳课题组诚聘博士后/科研助理

MDPI特刊征稿 | DNA和RNA表观遗传学和转录组学研究

元旦快乐！2022新的开始！

结合DNA远端互作信息，根据序列特征有效预测基因表达

超过1000个工具揭示了单细胞RNA-seq分析的趋势

一个全面的DNA甲基化疾病数据资源库：DiseaseMeth version 3.0

使用深度学习病理图像的肿瘤浸润淋巴细胞的空间组织和分子相关性

m6A与疾病的关系数据资源平台M6ADD

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉