NC｜帝国理工学院揭示远端遗传效应：基于细胞类型的表观基因组图谱预测（附代码

文摘 2024-11-18 08:55 中国

近年来，大规模遗传研究，尤其是全基因组关联研究 (GWAS)，揭示了许多与疾病相关的遗传变异。然而，这些变异大多位于非编码调控区域，并未直接与功能结果相关。例如，超过 90% 的 GWAS 发现的单核苷酸多态性 (SNP) 位于非编码区域。理解这些调控变异功能的主要障碍之一在于，基因调控机制高度特定于细胞类型。调控元件与基因序列变异的功能通常以细胞类型特异性的方式发挥作用，因此，探索表观遗传调控中遗传变异的细胞类型特异性效应，对于明确其生物学影响过程至关重要。

为全面绘制与疾病相关的细胞类型中的分子和调控 QTL，研究者采用了 CRISPR 干扰 (CRISPRi) 和大规模并行报告基因检测 (MPRAs) 等技术。然而，这些技术受限于体内能力或样本量扩展性。当前的主流方法是通过群体研究测量个体基因组变异及其与调控元件的相关性（xQTL 作图）。尽管如此，与基因表达的 QTL 研究（eQTL）相比，表观遗传 QTL 研究的规模较小，样本量有限，且多集中于特定的细胞类型，如血液免疫细胞。由于数据的高维度性，大规模表观遗传 QTL 研究在实际操作中面临巨大挑战。

为解决这些局限性，研究者转向机器学习方法（https://doi.org/10.1038/s41467-024-54441-5）以预测基因变异的影响。最新的模型显著扩展了预测基因组位置时的感受野范围，例如从 DeepSea 的 500 bp 增至 Enformer 的 100,000 bp。Enformer 引入了多头注意力层，显著提升了基因变异效应预测的性能。然而，这些模型通常仅基于 DNA 序列进行训练，无法有效预测未见过的细胞类型的表观遗传图谱。

近日，伦敦帝国理工学院的Nathan G. Skene团队在Nature Communication期刊发表了题为「Predicting cell type-specific epigenomic profiles accounting for distal genetic effects」的研究论文，研究者开发了 Enformer Celltyping，一种基于自注意力神经网络的模型，用于预测新细胞类型中的组蛋白标记活性。该模型通过目标细胞类型的染色质可及性数据，从 DNA 序列中预测六种组蛋白标记谱，并在 ENCODE 和 EpiMap 数据库中的 104 个样本上进行训练。它结合迁移学习和嵌入技术，在解释遗传密码的远端效应方面表现出色。此外，研究者设计了一个验证框架，以评估模型对遗传变异效应预测的性能，同时展示了模型在复杂性状遗传富集分析中的潜力。

Enformer Celltyping 为研究表观遗传调控与遗传变异的细胞类型特异性效应提供了新工具，特别适用于现有资源未覆盖的细胞类型或亚细胞类型。模型的预训练版本和代码已公开，以支持其他研究者在广泛领域中的应用。

安装及激活环境代码：

git clone https://github.com/neurogenomics/EnformerCelltypingcd EnformerCelltypingconda env create -f ./environment/enformer_celltyping.yml &&\make renv &&\ make pyanalyenv &&\conda activate EnformerCelltyping &&\pip install -e .

研究人员提出了一种名为 Enformer Celltyping 的深度学习模型，能够预测以前未见过的细胞类型中的表观遗传信号。该模型利用目标细胞类型的 DNA 序列和染色质可及性数据进行预测，其感受野达到 100,000 碱基对，是迄今为止最大的一种。Enformer Celltyping 基于 Enformer 模型的迁移学习方法，但不同于以往仅在 Enformer 输出层上拟合线性模型的做法，我们通过删除输出层和卷积层，并冻结预训练层的权重，从而提供了更大的灵活性，展现了大型预训练模型在计算生物学中迁移学习的潜力。

模型在组蛋白标记预测方面表现优异，功能基因组调控区域的预测性能强劲，即使在超出 ENCODE 数据集的域转移分析中也保持准确。Enformer Celltyping 采用 -log10 p 值信号作为定量模型输出，相比传统的二元分类模型，具有更好的泛化性和可解释性。然而，模型也存在一些限制。例如，使用了估算的 ATAC-Seq 数据，这可能导致数据质量下降。此外，预测分辨率为 128 个碱基对箱，低于 ENCODE 通常使用的 25 个碱基对箱分辨率，这可能影响遗传变异效应分析。

针对模型性能的局限性，我们提出了改进方案，包括允许权重更新以提高分辨率，或采用 U-Net 架构增强细节捕获能力。此外，研究发现，细胞类型特异性组蛋白标记的预测与转录因子基序的存在相关，但受限于基序注释和转录因子家族影响的质量。

Enformer Celltyping 的目标之一是预测遗传变异的效应。与以往模型不同，它能够利用染色质可及性数据在任何感兴趣的细胞类型中进行预测。然而，当前基因组深度学习模型在遗传变异效应预测上表现不足，例如在远端调控区域和转录水平预测中存在偏差。为了应对这些问题，研究建议未来的模型训练需要纳入遗传变异相关数据，同时加强训练和测试细胞类型的一致性。

尽管如此，Enformer Celltyping 展示了在复杂性状研究中的实用性，其预测的组蛋白标记信号比染色质可及性信号更能富集与复杂性状和疾病相关的遗传变异。

总结而言，Enformer Celltyping 提供了一种能够预测新细胞类型中表观遗传信号的创新模型，通过大型受体场捕获基因组调控信息，并引入了遗传变异效应预测的基准框架。尽管存在不足，该模型在复杂性状遗传富集研究中的表现为未来改进提供了重要参考。

原文链接：

https://doi.org/10.1038/s41467-024-54441-5

- 转载须知 -

本文著作权归文章作者所有，欢迎个人转发分享，未经作者的允许禁止转载，作者拥有所有法定权利，违者必究。

喜欢就点个在看吧 : )

http://mp.weixin.qq.com/s?__biz=MzkzMTM0NTcyNw==&mid=2247488865&idx=1&sn=0f268fb4921216029962ab764049646e

X Omics

生物科学与计算机科学的完美碰撞，激发出探索世界的全新视角，让我们一起探索生命科学的新纪元！合作交流：xomics1@gmail.com

Science发表首个人类剪接体图谱，揭示RNA剪接交叉调控的复杂网络

免疫细胞疗法CAR-T新用途：从抗癌到治疗自身免疫疾病

谷歌学术搜索 (Google Scholar) 能否在人工智能革命中幸存下来？

NC｜帝国理工学院揭示远端遗传效应：基于细胞类型的表观基因组图谱预测（附代码

重编程干细胞让角膜“再生”

Nature｜癌细胞中ecDNA的遗传机制研究

Mol Cell｜UCLA课题组探索脂肪代谢新发现：VPS4A 的选择性作用

Nat News｜科学家培养的病毒治疗了自己的癌症

Nature发文｜猫脑衰老与人类类似：揭示认知退化之谜

Sci Adv丨中国科学院施剑林等团队研究提出了一种抗细胞内病原体感染的自然杀伤细胞模拟物

Genome Bio｜山东大学团队开发纳米孔测序barcode设计选择工具——TDFPS-Designer

nature｜肿瘤图谱帮助研究人员探索癌症

Sentieon 软件快速入门指南

上海有机化学所阐明聚糖分子调控帕金森病致病蛋白聚集并抑制其病理毒性

中国医学科学院肿瘤医院团队揭示TRPS1基因是结肠癌肝转移的关键

胆固醇合成增加引发多发性硬化症患者的神经毒性｜Cell Stem Cell

Nat Gent｜肥胖依赖性癌症驱动突变的选择机制

Dev Cell｜卡罗林斯卡学院团队揭示食管上皮稳态调控机制

人工智能也能拿职业技术证书，专业不限，含金量满满（文末含福利

越多越爱，人类80万年前就有这个基因

Nat Genet｜牛津大学揭示DNA聚合酶ε在CpG位点C>T突变中的关键作用

Nat Genet｜耶鲁大学团队绘制癌症进展中的ecDNA扩增图谱

AI构建的新蛋白质：科学突破还是空想？

诺奖级Cell！“天才少年”在生信领域迎来重大突破，一脚下去地动山摇！

Dev Cell｜ILK/STAT3 通路控制胶质母细胞瘤干细胞可塑性

Cancer Cell｜哈佛医学院研究揭示年龄变化和乳腺肿瘤的驱动因素

多吃糖与更高的心血管疾病风险相关

2024年诺贝尔生理或医学奖揭晓

诺贝尔奖背后的科学故事

减肥药还是细胞疗法？2024诺贝尔生理学或医学奖7日揭晓

Mol Cell｜结构解析pri-let-7 miRNA复合物

Cell Stem Cell综述文章：早期人类发育和基于干细胞的人类胚胎模型

Immunity｜研究发现p53突变促进肿瘤免疫逃逸关键机制

又到了诺奖季节

Mol Cell｜多组学分析揭示了锌指蛋白在 RNA 调控中的作用

Nat Genet｜当药物遇上基因：PU.1转录先锋因子的药理学奇遇记

Nat Genet｜胚胎全能性中的H3K27me3与基因组核纤层关联对抗：解密基因组空间组织的奥秘

2024年度“诺奖风向标”拉斯克奖揭晓：又一华人学者获奖！

Nat Genet｜揭秘癌症密码：萨顿研究所带你探索结直肠癌基因的神秘面纱

内卷时代！Nature重磅，生命科学永远没有尽头，史上最大突破来袭，铭记这一天！

Cell｜UCLA团队解读肉瘤的药物敏感性和耐药性概况

Science | 如何在学术界找到自己的声音：科学家的成长之路

Nature｜BMP4 对小鼠胚胎发育的时间影响

Cell | Thanos团队发现DNA复制揭示了衰老依赖性复制压力

Cancer Cell | 乳腺癌脑转移的早期阶段及其微环境适应机制研究

华大集团今天发布两款拥有自主产权的纳米孔测序仪

Nature：人工智能揭秘气味生物学的奥秘

严厉谴责某些不良自媒体恶意行为！知名三甲医院硬核回应！

Mol Cell｜革新认知：探讨RNA聚合酶重塑染色质结构

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉