摘要
非编码DNA如何决定不同类型细胞的基因表达是一个尚未解决的主要问题。本文通过使用一种称为Enformer的深度学习架构,整合基因组中的远程交互(长达100kb)信息,大幅提高DNA序列基因表达预测精度。这一改进产生了对通过大规模平行报告测定的自然遗传变体和饱和突变基因表达的更准确的变体效应预测。此外,Enformer直接从DNA序列中预测增强子-启动子的相互作用,与直接将实验数据作为输入的方法相比具有竞争力。这些进展能够更有效地对人类疾病关联进行精细定位,并提供一个解释顺式调控进化的框架。
介绍
利用DNA序列预测基因表达和染色质状态的模型有望更好地了解转录调控,以及其如何受到与人类疾病和特征相关的许多非编码遗传变异的影响。这些模型补充了基于人群的关联研究,然而这些研究通常仅限于常见的变异,并且由于连锁不平衡 (LD) 而难以从关联中分离因果关系;此外,人类遗传变异的实验验证很费力,而且仅限于可以实验室中的细胞类型或组织,因此很难在相关生物环境中测试所有感兴趣的变异,尽管基于序列的计算模型原则上可以克服这些挑战,但它们的准确性仍然有限,使得从序列预测表达成为一个尚未解决的关键问题。
材料和方法
基因注释文件:https://www.gencodegenes.org/ (v32).
Basenji2 训练集, 验证集, 测试数据 :https://console.cloud.google.com/storage/browser/basenji_barnyard/data.
Processed CRISPRidata :GSE120861.
H3K27ac ChIP–seq :https://www.encodeproject.org/ with file accession ENCFF779QTH and DNasewith file accessions ENCFF413AHU and ENCFF936BDN.
TAD boundaries processed by Fudenberg et al 202032 were obtained fromhttps://console.cloud.google.com/storage/browser/basenji_hic/ insulation.
Fine-mapped eQTLs :https://console.cloud.google.com/storage/browser/dm-enformer/data/gtex_fine.
04
结果
讨论
调节基因组学中一个长期存在的问题是利用DNA 序列预测基因表达的问题。借助新颖的Transformer架构,通过扩展感受野和增加远端元件之间的信息流极大的推动了这一问题的解决。在启动子和增强子距离很大的情况下,该模型可以更好地捕捉生物学现象,组织和细胞类型特异性基因表达预测相关性的性能显着增加。同时,Enformer在增强子-启动子预测和非编码变异效应预测问题中具有很好的改进效果。我们观察到该模型在进行基因表达预测时关注增强子与绝缘子,这表明它已经学习了典型的远端调控模式。使用 Enformer 模型,我们可以仅依靠 DNA 序列作为输入,更准确地预测自然变异或 CRISPR 扰动的增强子与基因表达变化的相关性。
当前方法的一个限制是我们只能对训练数据中的细胞类型和检测进行建模和预测,而不能推广到新的细胞类型或检测。并行研究已经开始通过细胞类型和检测的表征学习来解决这个缺点,并且可以在未来使用 Enformer 架构。通过对越来越多的功能基因组数据集(例如源自 CRISPR 扰动和大规模平行报告基因检测的数据集)进行训练,可以进一步提高模型对遗传变异的敏感性
参考文献:
Effectivegene expression prediction from sequence by integrating long-range interactions.
Avsec, Ž., Agarwal, V., Visentin, D. et al
Nature methods
2021.10
计算表观遗传学
计算表观遗传学
微信号:intro4gcer
分享到朋友圈丨点右上角···分享
往期「精彩内容」,点击回顾
DNA测序历史 | CircRNA数据库 | Epigenie表观综合 | 癌症定位
BWA介绍 | 源码安装R包 | CancerLocator | lme4 | 450K分析
乳腺癌异质性 | BS-Seq | 隐马模型 | Circos安装 | Circos画图
KEGG标记基因 | GDSC | Meta分析 | R线性回归和相关矩阵
精彩会议及课程,点击回顾
编辑:zmy
图文:gcy
通讯邮箱:ad.cepi@edbc.org
投稿邮箱:scw.cepi@edbc.org
CEPI感谢您的支持!
(IOS系统用户专用通道)