表观遗传学是理解基因调控机制的关键领域。然而,目前的许多基因组大模型难以捕捉复杂的三维染色质交互,也缺乏在新细胞上下文中的预测能力。为了突破这些限制,本文提出了一种新型的基于Transformer的大模型——EpiGePT,它不仅在多个表观基因组信号预测中超越了现有方法,还能准确捕捉基因调控中的长距离染色质交互。
研究背景与问题
在解析基因组调控信息时,非编码DNA序列的作用至关重要。然而,传统方法难以揭示非编码区域与基因表达的关系。近年兴起的基因组语言模型(如Enformer)虽然在某些任务上表现出色,但存在以下问题:
无法处理新细胞上下文:现有模型的输入通常仅限于DNA序列,忽视了细胞特定转录因子(TF)表达的关键背景信息。 缺乏三维染色质交互数据:染色质的三维结构对于基因表达的调控起着重要作用,但现有模型未充分利用这类数据。
为了解决这些问题,EpiGePT引入了上下文特定的输入和输出结构,并通过独特的学习算法整合三维基因组数据,显著提高了在多种实验场景下的预测性能。
EpiGePT模型架构
EpiGePT模型采用四个关键模块:
序列模块(Sequence Module):
通过卷积层和池化层提取DNA序列特征,将128kb的基因组序列压缩为1000个特征表示。 输入以一热编码形式表示(如)。 特征维度经过5层卷积和池化后,输出形状为,其中为嵌入维度,设置为256。
转录因子模块(TF Module):
使用711个关键转录因子,通过基因表达量和结合位点得分表示细胞特定上下文。 结合DNA序列和TF特征后,每个基因组bin的嵌入维度为968。
Transformer模块:
应用了16层Transformer编码器,每层包含多头自注意力机制和前馈神经网络。 自注意力计算公式为: 其中,、、分别表示查询、键和值矩阵,是注意力头的维度。
预测模块(Prediction Module):
输出层根据任务类型分别采用线性变换(回归任务)或Sigmoid激活(分类任务)。 使用均方误差(MSE)或交叉熵作为损失函数。
实验设计与结果
1. 表观基因组信号预测
实验数据:
基于ENCODE数据库的129种细胞类型的DNase-seq数据,共覆盖117万基因组区域。
结果:
EpiGePT在多种预测任务中表现优异,例如在交叉细胞类型预测中,Pearson相关系数(PCC)达到0.787,比最佳基线方法高出6.9%。 图解说明:请参考论文中的图2a和图2d,展示了EpiGePT在多个细胞类型和基因组区域中的预测性能。
2. 三维染色质交互预测
实验设置:
通过自注意力机制直接预测增强子-启动子(E-P)和沉默子-启动子(S-P)交互。
结果:
在预测长距离交互(32-64kbp)时,EpiGePT显著优于Enformer,提升了20%的auPRC值。 图解说明:详见论文中的图3c和图3g,展示了模型在不同距离范围内的预测表现。
3. 基因突变功能影响预测
实验数据:
使用eQTL和ClinVar数据库,共包含20,913对变异-基因对以及52,876个致病性SNPs。
结果:
在肺组织背景下,EpiGePT的预测性能(auPRC=0.922)优于Enformer(auPRC=0.873)。 图解说明:论文中的图5c展示了不同数据集上EpiGePT的分类性能对比。
模型可解释性与应用
EpiGePT通过其自注意力权重和梯度重要性得分(GIS)提供了以下独特优势:
识别关键TF-基因关系:
在胚胎干细胞背景下,EpiGePT准确捕获了已知TF(如POU5F1和ESRRB)的调控关系。 图解说明:详见图4a和图4d,展示了EpiGePT在TF调控网络中的表现。
变异优先级排序:
使用EpiGePT预测的SNP优先级,能够有效关联COVID-19的潜在基因标记。 图解说明:请参考图5e,分析了COVID-19相关基因的GO富集结果。
EpiGePT在线预测工具
为了方便研究者应用,本文团队开发了一个用户友好的在线预测平台:
网址:http://health.tsinghua.edu.cn/epigept 用户可通过上传基因组区域文件和TF表达文件,快速获取多个表观基因组信号的预测结果。
结论
EpiGePT不仅突破了现有基因组模型的局限,还为表观基因组学提供了强大的预测能力。通过整合TF表达和三维染色质交互数据,该模型为解析基因调控机制和研究遗传变异影响提供了新思路。
参考代码与数据:
GitHub代码仓库(如有):[链接待补充] 更多实验细节和数据见论文附录。
通过EpiGePT,我们相信表观遗传学研究将迎来新的突破,为人类疾病机制的研究提供强大助力!
Q&A环节:EpiGePT技术解析
Q1. 为什么EpiGePT模型能够在跨细胞类型的表观基因组信号预测中表现优异?
A:
EpiGePT模型的核心技术优势在于其输入和输出的上下文特定性设计,这源于其独特的TF模块和Transformer模块的联合建模能力。在传统的基因组语言模型中,输入通常仅限于DNA序列,这种设计在处理跨细胞类型的任务时局限明显。而EpiGePT通过引入细胞类型特定的转录因子(TF)表达特征,弥补了这一不足。TF模块不仅捕获了转录因子的结合位点,还结合基因表达量信息,形成了上下文敏感的特征表示。
此外,EpiGePT采用了多头自注意力机制(Multi-head Self-Attention),允许模型在不同的上下文中动态调整不同基因组区间的权重。自注意力机制的计算公式为:
其中,,, 分别为查询矩阵、键矩阵和值矩阵, 是注意力头的维度。在EpiGePT中,,,的计算由DNA序列特征和TF表达特征共同生成,确保模型能够捕获序列和细胞特定上下文之间的复杂相互作用。
实验结果表明,EpiGePT的这种联合建模方式使其在跨细胞类型预测中取得了显著优势,Pearson相关系数提升了6.9%,并在其他多个指标上超越现有方法。
Q2. EpiGePT如何通过3D染色质交互数据改进基因调控关系的建模?
A:
EpiGePT首次将3D染色质交互数据纳入基因组语言模型的训练,增强了模型对长距离基因调控机制的理解。传统模型忽略了染色质三维结构的重要性,而EpiGePT通过对自注意力矩阵引入额外的监督信号,能够有效地捕获增强子-启动子(E-P)和沉默子-启动子(S-P)的交互关系。
在EpiGePT中,使用了高置信度的HiChIP数据作为训练数据,训练过程中引入了一种新的损失函数,用于约束自注意力矩阵与实验验证的3D交互强度之间的相关性。具体来说,模型的总损失函数为:
其中,是基准任务(如信号预测)的损失,是自注意力矩阵中到的注意力权重,为对应的3D交互强度得分,为权重参数。
这种基于3D交互的训练策略显著提升了模型对长距离调控关系的建模能力。在多个数据集上,EpiGePT的预测性能相比传统方法提升了20%以上,特别是在长距离(32-64kbp)交互预测中表现尤为突出。
Q3. 多任务学习在EpiGePT中的作用是什么?如何实现多个表观基因组信号的联合预测?
A:
EpiGePT采用了多任务学习(Multi-task Learning)策略,将多个表观基因组信号的预测任务统一到一个模型中。这种设计不仅提升了模型的泛化能力,还通过共享特征表示,增强了对复杂基因调控机制的理解。
在多任务学习框架中,模型的输出层同时预测多个表观信号,如DNase、CTCF、H3K27ac等。每个信号的预测使用独立的损失函数,例如对回归任务使用均方误差(MSE):
对分类任务使用交叉熵损失:
最终的总损失函数为所有任务损失的加权和:
其中,为任务数量,为每个任务的权重。
通过共享序列特征和上下文特征,EpiGePT能够在多个信号预测任务中实现显著的性能提升。例如,在H3K27ac信号预测中,多任务学习策略相比单任务模型提升了0.074的PCC。
Q4. 为什么EpiGePT的预训练策略能在少量数据下实现优异性能?
A:
EpiGePT的预训练策略基于大规模表观基因组数据,但其关键在于通过掩码训练(Masked Training)和上下文依赖性设计,使得模型能够从数据稀缺的情境中学习到通用的表观调控模式。
掩码训练的核心思想是随机屏蔽一部分输入信号,并让模型通过上下文预测这些被屏蔽的信号。这一策略的目标是最大化被屏蔽信号的条件概率:
其中,表示被屏蔽的信号,表示可见的上下文。
此外,EpiGePT在训练过程中通过动态生成样本对(即基因组区域和细胞类型的组合),大幅增加了训练样本的数量。这种策略确保了模型在预训练阶段能够捕获跨细胞类型和区域的表观调控模式。
这种预训练方法使得EpiGePT即使在小规模数据集上微调时,仍能表现出强大的泛化能力。例如,在鼠类数据的零样本预测任务中,EpiGePT的PCC从0.330提升至0.490。
Q5. 梯度重要性得分(GIS)如何帮助理解TF对基因调控的影响?
A:
梯度重要性得分(Gradient Importance Score, GIS)是EpiGePT用来量化转录因子对目标基因调控影响的一种方法。它基于模型输出对输入TF表达的梯度,定义了一个衡量TF重要性的指标:
其中,是目标基因的表观信号预测值,是转录因子的表达水平。
通过计算GIS,EpiGePT能够识别在特定上下文中对目标基因起关键调控作用的TF。例如,在胚胎干细胞背景下,EpiGePT成功识别了POU5F1和ESRRB作为关键调控因子,并与文献报道的调控关系一致。
GIS不仅提高了模型的可解释性,还为基因调控网络的构建提供了新的工具。在实验中,GIS排名靠前的TF与已知ChIP-seq验证结果的重合率显著高于随机基线(p值<0.0001)。
Q6. 如何通过自注意力机制增强EpiGePT对长距离染色质交互的捕获能力?
A:
自注意力机制是EpiGePT捕捉染色质长距离交互的核心技术。传统方法如卷积网络(CNN)通常只能处理局部的基因组序列上下文,而自注意力机制能够在整个输入范围内动态调整每个基因组区域对其他区域的权重。
EpiGePT中的多头自注意力机制通过以下步骤实现染色质交互的捕捉:
生成查询、键和值:
每个输入token通过学习参数矩阵生成查询()、键()和值():其中,是学习参数矩阵,是输入token的嵌入表示。
计算注意力权重:
注意力权重由查询和键的点积计算得到,并经过归一化处理:其中,为键的维度,用于防止点积值过大导致数值不稳定。
结合3D染色质交互:
为了进一步增强染色质交互的捕捉能力,EpiGePT在训练过程中对自注意力矩阵引入了HiChIP数据的指导,使得注意力权重与实际染色质交互强度对齐。具体而言,模型通过以下损失函数约束自注意力矩阵与实验数据之间的相关性:其中,是自注意力矩阵中第行和第列的权重,是HiChIP数据中的交互强度。
实验结果表明,通过整合HiChIP数据,EpiGePT显著提升了长距离染色质交互的预测性能,其在32-64kbp范围内的交互预测中auPRC提升了近20%。
Q7. 在缺失表观基因组数据的情况下,EpiGePT如何利用掩码训练策略进行有效学习?
A:
在实际应用中,表观基因组数据往往不完整,例如某些细胞类型可能缺少某些信号(如H3K27ac)。EpiGePT通过掩码训练策略,有效利用了不完全数据,使其在多任务学习中表现出色。
掩码训练的核心是对输入数据中的部分信号随机屏蔽,并训练模型预测这些屏蔽信号的值。这一过程的目标是最大化被屏蔽信号的条件概率:
其中,表示被屏蔽的信号,表示可见的上下文。
具体实现中,EpiGePT在训练时对每个输入样本随机屏蔽某些表观信号的标签,并设计了如下损失函数:
其中,为可用信号的集合,和分别为真实值和预测值。
这一策略使得模型可以利用部分缺失的数据进行有效学习。在实验中,即使在只包含部分信号的上下文下,EpiGePT仍能展现出强大的预测能力,其预测准确率仅比完整数据下降不足5%。
Q8. 为什么EpiGePT能够在跨物种任务(如鼠类数据预测)中表现出色?
A:
EpiGePT的跨物种预测能力得益于其预训练过程中捕捉的通用表观调控模式以及对转录因子特征的高度依赖。跨物种预测的关键挑战在于基因组序列和表观基因组信号的物种特异性差异,而EpiGePT通过以下技术解决了这一问题:
转录因子特征的保守性:
转录因子的结合位点和表达模式在不同物种间具有高度保守性。EpiGePT利用转录因子结合的分数和表达量作为输入,确保模型在不同物种间具有一致的输入表示。零样本学习(Zero-shot Learning):
在鼠类数据的预测中,EpiGePT直接使用预训练模型对未见过的鼠类数据进行预测。这一策略依赖于以下目标函数:其中,为鼠类的DNA序列,为人类转录因子的表达特征。通过将鼠类TF的未定义值设为零,模型能够平滑地适应新的物种。
微调(Fine-tuning)策略:
EpiGePT通过在鼠类少量标注数据上进行微调进一步提升了性能。例如,在脑组织数据的微调中,PCC从零样本时的0.422提高至0.490,提升了16%以上。
Q9. 如何通过梯度重要性得分(GIS)量化基因突变对表观调控的影响?
A:
EpiGePT通过梯度重要性得分(Gradient Importance Score, GIS)量化基因突变对表观调控的影响。GIS的计算基于模型输出对输入基因组序列的梯度:
其中,表示第个基因组位点的特征值,表示目标表观信号。
在基因突变影响预测中,EpiGePT首先计算参考序列和突变序列之间的预测信号差异,定义为对数变化得分(Log Odds Score, LOS):
通过分析LOS在不同细胞上下文下的分布,EpiGePT能够准确区分致病性突变和中性突变。例如,在肺组织数据中,EpiGePT的分类性能(auPRC=0.922)显著优于Enformer(auPRC=0.873),展示了对基因突变影响预测的强大能力。
Q10. 多任务模块如何协同工作以提升EpiGePT的整体性能?
A:
EpiGePT中的多任务模块通过共享特征表示,协同学习多个表观信号预测任务。这种设计不仅提升了每个任务的单独性能,还通过联合学习捕捉了信号之间的潜在关联。
多任务模块的核心是多头输出层,其每个头对应一个表观信号的预测任务。输出层的损失函数由多个任务损失的加权和组成:
其中,为任务数量,为每个任务的权重。
在实验中,多任务学习显著提升了信号预测性能。例如,在H3K27ac信号的预测中,多任务模型的PCC相比单任务模型提升了近10%。此外,多任务学习还提高了模型在稀缺数据场景下的鲁棒性,使得其能够有效泛化到新的细胞类型和上下文。
https://doi.org/10.1186/s13059-024-03449-7