结合DNA远端互作信息,根据序列特征有效预测基因表达

教育培训   2021-12-17 08:30  

 




01

摘要






非编码DNA如何决定不同类型细胞的基因表达是一个尚未解决的主要问题。本文通过使用一种称为Enformer的深度学习架构,整合基因组中的远程交互(长达100kb)信息,大幅提高DNA序列基因表达预测精度。这一改进产生了对通过大规模平行报告测定的自然遗传变体和饱和突变基因表达的更准确的变体效应预测。此外,Enformer直接从DNA序列中预测增强子-启动子的相互作用,与直接将实验数据作为输入的方法相比具有竞争力。这些进展能够更有效地对人类疾病关联进行精细定位,并提供一个解释顺式调控进化的框架。


02

介绍


 

利用DNA序列预测基因表达和染色质状态的模型有望更好地了解转录调控,以及其如何受到与人类疾病和特征相关的许多非编码遗传变异的影响。这些模型补充了基于人群的关联研究,然而这些研究通常仅限于常见的变异,并且由于连锁不平衡 (LD) 而难以从关联中分离因果关系;此外,人类遗传变异的实验验证很费力,而且仅限于可以实验室中的细胞类型或组织,因此很难在相关生物环境中测试所有感兴趣的变异,尽管基于序列的计算模型原则上可以克服这些挑战,但它们的准确性仍然有限,使得从序列预测表达成为一个尚未解决的关键问题。



03

材料和方法



基因注释文件:https://www.gencodegenes.org/ (v32).

Basenji2 训练集, 验证集, 测试数据 :https://console.cloud.google.com/storage/browser/basenji_barnyard/data.

Processed CRISPRidata GSE120861.

H3K27ac ChIP–seq https://www.encodeproject.org/ with file accession ENCFF779QTH and DNasewith file accessions ENCFF413AHU and ENCFF936BDN.

TAD boundaries processed by Fudenberg et al 202032 were obtained fromhttps://console.cloud.google.com/storage/browser/basenji_hic/ insulation.

Fine-mapped eQTLs :https://console.cloud.google.com/storage/browser/dm-enformer/data/gtex_fine.



04

结果



1.Enformer是一类深度学习模型,在自然语言处理方面取得了重要进展。目前已被应用于短DNA序列建模, 可整合远至100 kb的远端元件。相比之下,Basenji2ExPecto模型最多只能覆盖20kb元件。Enformer在预测人类蛋白质编码基因TSS处的Cap分析基因表达(CAGE)方面大大优于Basenji2,平均相关性为0.85(图b)。基因表达预测也能更好地捕捉组织或细胞类型特异性(图b)。同时,EnformerExPecto1的预测准确性更高。ExPecto1是一个经过训练的模型,用于预测通过RNA测序的跨基因和跨组织评估的基因表达水平。以上结果证实, Enformer提高了从DNA序列预测广泛表观遗传标记和基因表达的准确性。为了更好地理解Enformer在进行预测时使用的序列元件,研究团队计算了两种不同的基因表达贡献分数和注意权重,发现它们与K27乙酰化的组蛋白H3H3K27ac)相关,不仅突出了局部启动子区域,还突出了20kb 以外的远端增强子(图a)。相比之下,对于超过20kb的序列,Basenji2的贡献分数为零,表明Enformer在对20kb以上的增强子进行预测时,基因表达贡献分数可用于确定相关增强子的优先级。

 
2.该研究的一个目标是预测遗传变异对细胞类型特异性基因表达的影响,通过全基因组关联研究(GWAS)对数千个与目标表型相关的非编码基因进行精细定位。一个成功的模型能够产生基因表达数量性状位点(eQTL)研究的结果,无需检测数百到数千个单独的基因表达谱。因此,研究团队探讨了GTEx项目在数十个人体组织中发现的eQTL,以验证该模型预测性能。相对于Basenji2,Enformer预测了GTEx组织最大的组织相似性(图b,c)。因此,对于具有类似细胞类型组成的样本,Enformer的预测更准确。为了评估Enformer预测结果对识别因果变异的效用,研究团队为每个组织定义了一个分类任务,以区分可能的因果变异和虚假eQTL。相对于Basenji2,Enformer为48个GTEx组织中的47个组织提供了更精确的分类(图d)。

最后,研究团队使用一个大规模平行报告分析(MPRA)数据集评估了Enformer在变异效应预测中的表现。他们观察到 ,以Enformer预测为特征的套索回归在所有基因座上具有最佳的平均相关性(图a)。此外,使用Enformer预测可直接作为分数,无需训练,表现与套索训练模型相当,也优于包括结合DNA互作的预测因子deltaSVM等其他模型。Enformer忠实地捕捉了LDLR位点四个转录因子结合位点中的两个位点的效应(图c)。相比之下,deltaSVM仅成功预测了一个结合位点。

05

05


讨论



调节基因组学中一个长期存在的问题是利用DNA 序列预测基因表达的问题。借助新颖的Transformer架构,通过扩展感受野和增加远端元件之间的信息流极大的推动了这一问题的解决。在启动子和增强子距离很大的情况下,该模型可以更好地捕捉生物学现象,组织和细胞类型特异性基因表达预测相关性的性能显着增加。同时,Enformer在增强子-启动子预测和非编码变异效应预测问题中具有很好的改进效果。我们观察到该模型在进行基因表达预测时关注增强子与绝缘子,这表明它已经学习了典型的远端调控模式。使用 Enformer 模型,我们可以仅依靠 DNA 序列作为输入,更准确地预测自然变异或 CRISPR 扰动的增强子与基因表达变化的相关性。

当前方法的一个限制是我们只能对训练数据中的细胞类型和检测进行建模和预测,而不能推广到新的细胞类型或检测。并行研究已经开始通过细胞类型和检测的表征学习来解决这个缺点,并且可以在未来使用 Enformer 架构。通过对越来越多的功能基因组数据集(例如源自 CRISPR 扰动和大规模平行报告基因检测的数据集)进行训练,可以进一步提高模型对遗传变异的敏感性






参考文献:


Effectivegene expression prediction from sequence by integrating long-range interactions.

Avsec, Ž., Agarwal, V., Visentin, D. et al

Nature methods

2021.10









计算表观遗传学

计算表观遗传学
微信号:intro4gcer
分享到朋友圈丨点右上角···分享



往期「精彩内容」,点击回顾

DNA测序历史 | CircRNA数据库 | Epigenie表观综合 | 癌症定位

BWA介绍  |  源码安装R包 | CancerLocator  | lme4 | 450K分析

乳腺癌异质性 |  BS-Seq  | 隐马模型 Circos安装 |  Circos画图

KEGG标记基因 |  GDSC  |  Meta分析  |   R线性回归和相关矩阵


精彩会议及课程,点击回顾

计算表观遗传学大数据前沿学术论坛会议记实

哈尔滨医科大学2017年全国生物信息学暑期学校

2017龙星课程系列(一)

2017龙星课程系列(二)
2017龙星课程系列(三)

2017龙星课程系列(四)

2017龙星课程系列(五)


编辑:zmy

图文:gcy

通讯邮箱:ad.cepi@edbc.org

投稿邮箱:scw.cepi@edbc.org




CEPI感谢您的支持!

(IOS系统用户专用通道)


    赞赏    



计算表观遗传学
“计算表观遗传学(Computational Epigenetics - CEPI)”公众平台致力于表观遗传领域的科学研究,汇集领域内数据分析、算法开发及平台搭建,领航表观前沿,共同探索表观遗传调控机制。
 最新文章