近日,伦敦帝国理工学院的Nathan G. Skene团队在Nature Communication期刊发表了题为「Predicting cell type-specific epigenomic profiles accounting for distal genetic effects」的研究论文,研究者开发了 Enformer Celltyping,一种基于自注意力神经网络的模型,用于预测新细胞类型中的组蛋白标记活性。该模型通过目标细胞类型的染色质可及性数据,从 DNA 序列中预测六种组蛋白标记谱,并在 ENCODE 和 EpiMap 数据库中的 104 个样本上进行训练。它结合迁移学习和嵌入技术,在解释遗传密码的远端效应方面表现出色。此外,研究者设计了一个验证框架,以评估模型对遗传变异效应预测的性能,同时展示了模型在复杂性状遗传富集分析中的潜力。
Enformer Celltyping 为研究表观遗传调控与遗传变异的细胞类型特异性效应提供了新工具,特别适用于现有资源未覆盖的细胞类型或亚细胞类型。模型的预训练版本和代码已公开,以支持其他研究者在广泛领域中的应用。
安装及激活环境代码:
git clone https://github.com/neurogenomics/EnformerCelltyping
cd EnformerCelltyping
conda env create -f ./environment/enformer_celltyping.yml &&\
make renv &&\
make pyanalyenv &&\
conda activate EnformerCelltyping &&\
pip install -e .
研究人员提出了一种名为 Enformer Celltyping 的深度学习模型,能够预测以前未见过的细胞类型中的表观遗传信号。该模型利用目标细胞类型的 DNA 序列和染色质可及性数据进行预测,其感受野达到 100,000 碱基对,是迄今为止最大的一种。Enformer Celltyping 基于 Enformer 模型的迁移学习方法,但不同于以往仅在 Enformer 输出层上拟合线性模型的做法,我们通过删除输出层和卷积层,并冻结预训练层的权重,从而提供了更大的灵活性,展现了大型预训练模型在计算生物学中迁移学习的潜力。
模型在组蛋白标记预测方面表现优异,功能基因组调控区域的预测性能强劲,即使在超出 ENCODE 数据集的域转移分析中也保持准确。Enformer Celltyping 采用 -log10 p 值信号作为定量模型输出,相比传统的二元分类模型,具有更好的泛化性和可解释性。然而,模型也存在一些限制。例如,使用了估算的 ATAC-Seq 数据,这可能导致数据质量下降。此外,预测分辨率为 128 个碱基对箱,低于 ENCODE 通常使用的 25 个碱基对箱分辨率,这可能影响遗传变异效应分析。
针对模型性能的局限性,我们提出了改进方案,包括允许权重更新以提高分辨率,或采用 U-Net 架构增强细节捕获能力。此外,研究发现,细胞类型特异性组蛋白标记的预测与转录因子基序的存在相关,但受限于基序注释和转录因子家族影响的质量。
Enformer Celltyping 的目标之一是预测遗传变异的效应。与以往模型不同,它能够利用染色质可及性数据在任何感兴趣的细胞类型中进行预测。然而,当前基因组深度学习模型在遗传变异效应预测上表现不足,例如在远端调控区域和转录水平预测中存在偏差。为了应对这些问题,研究建议未来的模型训练需要纳入遗传变异相关数据,同时加强训练和测试细胞类型的一致性。
尽管如此,Enformer Celltyping 展示了在复杂性状研究中的实用性,其预测的组蛋白标记信号比染色质可及性信号更能富集与复杂性状和疾病相关的遗传变异。
总结而言,Enformer Celltyping 提供了一种能够预测新细胞类型中表观遗传信号的创新模型,通过大型受体场捕获基因组调控信息,并引入了遗传变异效应预测的基准框架。尽管存在不足,该模型在复杂性状遗传富集研究中的表现为未来改进提供了重要参考。
原文链接:
https://doi.org/10.1038/s41467-024-54441-5
- 转载须知 -
本文著作权归文章作者所有,欢迎个人转发分享,未经作者的允许禁止转载,作者拥有所有法定权利,违者必究。
喜欢就点个 在看 吧 : )