NC|帝国理工学院揭示远端遗传效应:基于细胞类型的表观基因组图谱预测(附代码

文摘   2024-11-18 08:55   中国  


近年来,大规模遗传研究,尤其是全基因组关联研究 (GWAS),揭示了许多与疾病相关的遗传变异。然而,这些变异大多位于非编码调控区域,并未直接与功能结果相关。例如,超过 90% 的 GWAS 发现的单核苷酸多态性 (SNP) 位于非编码区域。理解这些调控变异功能的主要障碍之一在于,基因调控机制高度特定于细胞类型。调控元件与基因序列变异的功能通常以细胞类型特异性的方式发挥作用,因此,探索表观遗传调控中遗传变异的细胞类型特异性效应,对于明确其生物学影响过程至关重要。
为全面绘制与疾病相关的细胞类型中的分子和调控 QTL,研究者采用了 CRISPR 干扰 (CRISPRi) 和大规模并行报告基因检测 (MPRAs) 等技术。然而,这些技术受限于体内能力或样本量扩展性。当前的主流方法是通过群体研究测量个体基因组变异及其与调控元件的相关性(xQTL 作图)。尽管如此,与基因表达的 QTL 研究(eQTL)相比,表观遗传 QTL 研究的规模较小,样本量有限,且多集中于特定的细胞类型,如血液免疫细胞。由于数据的高维度性,大规模表观遗传 QTL 研究在实际操作中面临巨大挑战。
为解决这些局限性,研究者转向机器学习方法(https://doi.org/10.1038/s41467-024-54441-5)以预测基因变异的影响。最新的模型显著扩展了预测基因组位置时的感受野范围,例如从 DeepSea 的 500 bp 增至 Enformer 的 100,000 bp。Enformer 引入了多头注意力层,显著提升了基因变异效应预测的性能。然而,这些模型通常仅基于 DNA 序列进行训练,无法有效预测未见过的细胞类型的表观遗传图谱。


近日,伦敦帝国理工学院的Nathan G. Skene团队在Nature Communication期刊发表了题为「Predicting cell type-specific epigenomic profiles accounting for distal genetic effects」的研究论文,研究者开发了 Enformer Celltyping,一种基于自注意力神经网络的模型,用于预测新细胞类型中的组蛋白标记活性。该模型通过目标细胞类型的染色质可及性数据,从 DNA 序列中预测六种组蛋白标记谱,并在 ENCODE 和 EpiMap 数据库中的 104 个样本上进行训练。它结合迁移学习和嵌入技术,在解释遗传密码的远端效应方面表现出色。此外,研究者设计了一个验证框架,以评估模型对遗传变异效应预测的性能,同时展示了模型在复杂性状遗传富集分析中的潜力。

Enformer Celltyping 为研究表观遗传调控与遗传变异的细胞类型特异性效应提供了新工具,特别适用于现有资源未覆盖的细胞类型或亚细胞类型。模型的预训练版本和代码已公开,以支持其他研究者在广泛领域中的应用。

安装及激活环境代码:

git clone https://github.com/neurogenomics/EnformerCelltypingcd EnformerCelltypingconda env create -f ./environment/enformer_celltyping.yml &&\make renv &&\ make pyanalyenv &&\conda activate EnformerCelltyping &&\pip install -e .

研究人员提出了一种名为 Enformer Celltyping 的深度学习模型,能够预测以前未见过的细胞类型中的表观遗传信号。该模型利用目标细胞类型的 DNA 序列和染色质可及性数据进行预测,其感受野达到 100,000 碱基对,是迄今为止最大的一种。Enformer Celltyping 基于 Enformer 模型的迁移学习方法,但不同于以往仅在 Enformer 输出层上拟合线性模型的做法,我们通过删除输出层和卷积层,并冻结预训练层的权重,从而提供了更大的灵活性,展现了大型预训练模型在计算生物学中迁移学习的潜力。

模型在组蛋白标记预测方面表现优异,功能基因组调控区域的预测性能强劲,即使在超出 ENCODE 数据集的域转移分析中也保持准确。Enformer Celltyping 采用 -log10 p 值信号作为定量模型输出,相比传统的二元分类模型,具有更好的泛化性和可解释性。然而,模型也存在一些限制。例如,使用了估算的 ATAC-Seq 数据,这可能导致数据质量下降。此外,预测分辨率为 128 个碱基对箱,低于 ENCODE 通常使用的 25 个碱基对箱分辨率,这可能影响遗传变异效应分析。

针对模型性能的局限性,我们提出了改进方案,包括允许权重更新以提高分辨率,或采用 U-Net 架构增强细节捕获能力。此外,研究发现,细胞类型特异性组蛋白标记的预测与转录因子基序的存在相关,但受限于基序注释和转录因子家族影响的质量。

Enformer Celltyping 的目标之一是预测遗传变异的效应。与以往模型不同,它能够利用染色质可及性数据在任何感兴趣的细胞类型中进行预测。然而,当前基因组深度学习模型在遗传变异效应预测上表现不足,例如在远端调控区域和转录水平预测中存在偏差。为了应对这些问题,研究建议未来的模型训练需要纳入遗传变异相关数据,同时加强训练和测试细胞类型的一致性。

尽管如此,Enformer Celltyping 展示了在复杂性状研究中的实用性,其预测的组蛋白标记信号比染色质可及性信号更能富集与复杂性状和疾病相关的遗传变异。

总结而言,Enformer Celltyping 提供了一种能够预测新细胞类型中表观遗传信号的创新模型,通过大型受体场捕获基因组调控信息,并引入了遗传变异效应预测的基准框架。尽管存在不足,该模型在复杂性状遗传富集研究中的表现为未来改进提供了重要参考。


原文链接:

https://doi.org/10.1038/s41467-024-54441-5



- 转载须知 -


本文著作权归文章作者所有,欢迎个人转发分享,未经作者的允许禁止转载,作者拥有所有法定权利,违者必究。





喜欢就点个 在看 吧 : )



X Omics
生物科学与计算机科学的完美碰撞,激发出探索世界的全新视角,让我们一起探索生命科学的新纪元!合作交流:xomics1@gmail.com
 最新文章