生物信息学|NeuronMotif:通过深度神经网络的分层分离来解密顺式调控密码

2025-01-15 17:07   湖北  

论文剖析

生物信息学|NeuronMotif:通过深度神经网络的分层分离来解密顺式调控密码

///////////////

1. 摘要


     发现DNA调控序列基序及其相对位置对理解基因表达调控的机制至关重要。虽然深度卷积神经网络(CNNs)在预测顺式调节元件方面取得了巨大的成功,但从这些CNN模型中发现基序及其组合模式仍然很困难。我们发现,主要的困难是由于多面神经元响应多种类型的序列模式的问题。由于现有的解释方法主要是为了可视化可以激活神经元的序列类别,因此产生的可视化将对应于一种混合模式。这种混合模式,通常很难解释。我们提出了一种基于神经元基序的算法来解释这种神经元。给定网络中的任何卷积神经元(CN),NeuronMotif首先生成能够激活CN的大量序列样本,这通常由一种混合模式组成。然后,通过对所涉及的卷积层的特征映射进行反向聚类,将序列以分层的方式“分解”。神经元Motif可以输出序列基序,控制其组合的语法规则由树状结构中组织的位置权重矩阵来描述。与现有方法相比,神经元motif发现的基序与JASPAR数据库中已知基序的匹配程度更高。文献和ATAC-seq印迹支持了深层中枢神经系统的高阶模式。总的来说,NeuronMotif能够从深层CNNs中破译顺式调节编码,并增强了CNN在基因组解释中的实用性。

2. 介绍

     我们认为顺式调控编码是一种特殊的语言。在自然语言中,语言中基本有意义的单位是词根,几种不同的单词形式可能对应于同一个词根。同样地,几个顺式调控的DNA序列可能对应于一个被相同的转录因子(TF)识别的序列motifs(图1A)。TFs和它们的motifs之间的对应关系由一个motif glossary指定。这些基序可以根据基序语法组合成顺式调节模块(CRM),该语法指定了所涉及的TFs的集合以及它们相互之间的结合位置的可能排列(图1B)。硬或软语法规则指定模块中元素之间固定或灵活的距离。一般来说,这些模块可以以分层的方式进一步组合成更复杂的模块(高阶模块)。为了理解顺式调节代码,有必要识别motifs,并阐明控制层次结构中motifs和模块组合的语法规则。

     传统上,motifs是通过指数富集(SELEX)测序对配体进行系统进化,或通过对特定TFs结合的基因组区域序列进行基序发现分析来确定的。这些努力为JASPAR数据库中多达705个人类TFs的motifs词汇表。相反,虽然模块发现方法已经发展并应用于集中研究,但在顺式调节代码的高阶逻辑的综合发现方面进展有限。为了填补这一空白,我们介绍了一种提取卷积神经网络(CNN)模型参数的方法,基于训练有素的CNN模型参数来预测一组全面的基因组特征。


     基于CNN的预测模型的发展是计算基因组学最近的一个重大进展。这些模型是基于大量关于基因组区域的上下文特异性功能特征的数据进行训练的(图1C)。例如,DeepSEA模型对919个功能特征的全基因组测序(在各种细胞环境中)进行了训练,包括TFs的结合亲和力、组蛋白修饰标记和染色质可及性。给定一个基因组区域的序列,该模型可以预测不同细胞环境下的功能特征。最初的模型,它使用了宽核(DeepSEA模型为8bp)和浅层网络(DeepSEA模型为三层),已经取得了良好的预测性能(DeepSEA模型的AUC≈0.9)。随后的工作通过使用具有窄内核的更深层次的网络进一步提高了性能。该预测模型的高预测能力表明,它已经隐式地学习了潜在的调控编吗的关键方面。事实上,从学习到的CNN的参数来看,可以使用标准的模型解释工具,如TF-MoDISco来提取许多与JASPAR等数据库中已知motifs很好匹配的序列motifs。然而,这些标准的模型解释工具在提取复杂的调控模式,如高阶模块时效率较低。这项工作的目的是提供一种方法,从CNN的参数中提取这些监管代码的高阶方面。


     解释深层CNN的主要困难在于多面神经元,特别是那些在深层的神经元都是多面的。如果一个神经元对多种不同类别的模式做出反应,那么它就是多面性的,这种模式已被证明广泛存在于人类神经元和CNN神经元中。对于被包含特定motifs的输入序列激活的神经元,motifs模式并不总是位于输入序列中的相同位置。现有的解释工具,如下一段中回顾的工具,通常会产生与模式混合相对应的可视化,而不是单个组件模式的可视化。通常,混合物的可视化很难解释,而单个组件的可视化可以直接用反映tf的序列偏好的位置权重矩阵(PWMs)来解释。


     目前的神经网络解释方法包括基于归因图的方法(AMBM)和基于序列对齐的方法(SABM)。AMBM,如DeepLIFT、显著性映射和Deep AMBM,使用梯度反向传播计算来获得输入序列中每个位置的重要性得分(IS),然后尝试可视化序列的ISs。一些工具,如TF-MoDISco,进一步试图根据其ISs对齐子序列,以估计motif PWM。第二种方法,即SABM,遵循传统的PWM估计方法,通过堆叠一组可以强烈激活卷积神经元(CN)的输入序列,然后可视化堆叠序列的位置特定的碱基偏好。不幸的是,这些现有的AMBM或SABM方法不能处理多面神经元。它们的作用仅限于浅层神经元,因为大多数深层神经元都是多面的。


     为了处理多面神经元,我们提出了NeuronMotif算法,这是SABM的一个增强版本,它可以将CNN的模型参数转换为由pwm表示的基元和树状结构所示的高阶模块(图1B)。我们证明了在广泛使用的CNN体系结构中,如DeepSEA和Basset中,池化操作是导致多面神经元问题的主要原因。我们开发了一种分析CN的混合方面的方法,通过对高激活序列进行前向采样,然后以递归、分层的方式对最大池化操作的输入特征图进行反向聚类。通过这种方式,被一个深度CN捕获的每个面将由一个簇中的序列表示,它可以转换为pwm的组合。重要的是,通过在分层分解过程中从分解序列中提取信息丰富的片段,我们可以得到motif和模块的分层组织,这为多面神经元提供了一个自然的解释。由于它能够分解一个深层神经元的多个方面,并提取和可视化高阶模块,NeuronMotif是一个有用的工具,以破译从深度CNN模型训练的大规模基因组数据的顺式调节编码。

3. 结果

最大池化层产生了多面神经元。

     为了证明多面神经元的问题,我们从两个ZEB1基序中取样了8个碱基对(bp)序列,其位置移动了1 bp。我们将这些序列视为正样本,而将随机生成的序列视为负样本。我们使用这些数据(带有正/负标签的序列x)来训练一个两层CNN分类器(图2A)。在得到训练好的模型后,我们应用现有的模型解释方法,看看它们是否能从CNN的参数中发现ZEB1的motif模式。在最近的工作中使用的sabm,如Kelley等人和Alipanahi等人叠加了所有激活(y)高于给定阈值的序列(图2b中的第1到第2行)。这些序列没有按照基序模式进行对齐,因此结果对应于两个ZEB1基序偏移1 bp的混合物。最先进的AMBMs通过输出到输入的梯度[显著性图或其他类似梯度的方法计算正序列中的每个核苷酸,以揭示motifs模式(图2b中的第3和第5行)。由于双面CN (y = f (x))的输出函数有两个极大值,许多序列的梯度方向往往是指向两个极大值点的两个方向的混合(图2C)。因此,梯度采样方法将给出每个序列的两个移位的motif模式的混合IS。此外,无论是直接叠加这些模式混合物(图2b中的第4行),还是通过TFmoDISco(图2b中的第6行)等工具对齐它们,都不能恢复真正的motif模式。

     以这个CNN为例,我们通过将两个正样本序列的特征图与位于序列中不同位置(即移动1 bp)的ZEB1基序进行分层比较,进一步研究了混合机制(图2d)。该CNN由两个卷积层和一个最大池化层组成。输入的是DNA序列的一个独热编码(4个碱基,序列长8 bp)。在卷积层1(L1)中有三个4滤波器(4个通道乘5 bp),每个滤波器都可以看作是一个PWM,用于扫描输入序列,并通过在每个位置产生一个值来量化匹配水平。这两个序列的卷积l1的特征图有很大的不同(图2D)。但是,当应用最大池化操作来获取位置轴上每个大小为2的连续bin中的每个通道的最大值时,两个序列的最大池化操作的输出特征图几乎相同(图2D)。在卷积层2(L2)中,有一个滤波器(尺寸为2,3个通道)。该滤波器扫描最大池化输出的特征图,为两个序列生成相似的输出CN的激活值(图2D)。因此,这个输出神经元是一个多面神经元,对两种不同的模式作出反应,基序相对移动的位置。最大池化操作是导致多面神经元发生的主要原因。


NeuronMotif算法的概述。

     为了解释一个可能是多面性的目标CN,我们可以尝试将被CN识别的大量序列划分为子集(集群)。它们中的每一个都对应于其中的一个面。实现这种方法的一个困难是,基因组序列中的大多数组合基序模式都很弱(即,导致CN的激活相对较低),这使得提取顺式调节信号变得困难。为了增加信噪比,我们根据CNN的参数直接对高激活度的序列进行采样。然后,通过对目标CN子结构中的最大池化操作所产生的输入特征映射进行聚类分析,对这些序列进行划分。序列的采样和特征映射的聚类都是以递归的方式进行的,即在任何一层的计算都将利用下一层的计算结果。在图2d所示的模型中,有一个大小为2的最大池化操作,它可以识别一个没有软语法的自由移动的motif(ZEB1)。NeuronMotif将所有正序列的最大池化输入特征图变平,并使用k-means(k = 2)将特征图聚为两个聚类(图2e和图2b中的第7至8行)。聚类中特征映射的对应序列在相同的位置上共享motifs模式,并且可以直接堆叠。一般来说,如果CNN中有多个最大池化操作,我们可以从深层向后执行这一步到第一层。例如,如果我们有一个训练有素的三层卷积层CNN,两个操作大小为2的最大池化操作,NeuronMotif集群第二个最大池操作的输入特征映射到两个集群,然后进一步集群的输入特征映射的现有集群到两个新的子集群(图2F)。一个簇中相应的序列可以直接堆叠到一个基序的PWM中。更一般的是,如果有任何子结构的多面CNN的CN或CN可以识别组合motif与几个自由移动主题,不同的模式混合在正序列样本可以反向和分层分解。由于PWM可以表示组合基序,我们将一个簇中序列的PWM称为“CNCRM”(图1B和2F)。NeuronMotif基于信息含量高的连续区域分割CN CRM的PWM,丢弃了信息含量低的剩余区域。最后,NeuronMotif总结了树状结构中基序的组合逻辑。


     聚类步骤中的集群数量通常等于最大池化大小,但在某些情况下可能会更高,例如当CRM涉及两个主题,它们之间有一个灵活的间隙大小时。因此,我们根据集群的质量自适应地确定集群的数量。NeuronMotif使用I∕Im来测量每个PWM的混合解耦的相对质量,其中I是PWM模型中概率最大的序列的激活值,Im是簇中序列的最大激活值。如果I∕Im<1甚至更小,这表明CNCRM的模式不太可能被CN识别,因为集群中的序列仍然由多面模式组成。因此,在NeuronMotif中需要一个更大的k类。基于这个度量,NeuronMotif可以自动增加簇的数量,以匹配面的数量,从而使PWM质量满足要求。


神经元基序可以揭示由深层中枢神经系统发现的基序模式。

     为了评估motif发现方法的性能,我们首先应用NeuronMotif注释了两个著名的模型,DeepSEA和Basset,这两种模型都是基于DNA序列的CNN模型,具有三个一般的卷积层。我们将NeuronMotif应用于每一层的中枢神经系统。NeuronMotif将聚类步骤中的聚类数量设置为最大池化大小。评估结果表明,许多用于生成CNcrm的序列簇被充分解耦(I∕Im≈1),这意味着每个CNs都能识别一个基序或一个具有固定间隙的基序组合。在Basset模型中,第一层和第二层的最大池化大小分别为3和4,因此在L2和L3中的一个CN的移位模式数分别为3和3×4 = 12。如图3a和B中L2和L3中CN 3的两个实例可知,所有相邻的行都移动了1 bp,且高度一致。然而,最先进的SABM和AMBM,不能处理混合模式,这导致更低的信息内容和非常嘈杂的模式在PWM或顶部激活序列。对于每个CN,我们通过Tomtom将发现的主题与JASPAR数据库进行匹配,并通过q值评估motif之间的相似性。在深层,每个CN的motif解释神经主题更类似于主题JASPAR(图3D),和NeuronMotif发现最JASPARmotif L2(图3C)。与只有L1发现的8个更长的基序(≥10 bp)相比,NeuronMotif从L2中发现了39个更长的JASPAR基序。我们进一步比较了TF-MoDISco,它对准了DeepLIFT的ISs来寻找motif。TF-MoDISco在Basset的L2中发现了200个CNs中的69个CNs的基序pwm。其中,9个CNs的结果可以与28个JASPAR基序相匹配(q值< 0.001)。相比之下,NeuronMotif发现了所有CNs的motif,其中89个CNs的结果可以与103个JASPAR motif相匹配(q值< 0.001)。神经元基序的结果更类似于JASPAR基序的结果(图3D)。与CIS-BP motif数据库相比,也观察到了类似的结果。

NeuronMotif适用于不同的CNN体系结构。

     建立更深层次的神经网络已被证明可以提高性能,但代价是更难解释。为了证明NeuronMotif可以解释更深层次的模型,我们建立了深度(10个卷积层)模型,并在Basset数据集(BD-10模型)和DeepSEA数据集(DD-10模型)上对它们进行训练。它们的预测性能分别明显优于Basset和DeepSEA。我们将NeuronMotif应用于BD-10和DD-10的第10层(L10)。对于大多数L10 CNs,当NeuronMotif假设每个CN识别两个具有灵活间隙的基序或基序组合时,混合模式可以充分解耦(I∕Im≥1)。在NeuronMotif的帮助下,在BD-10的L10的深层CN中可以找到157个JASPAR基序,与JASPAR数据库中基序的相似性显著提高(Fig.4b)。在BD-10的L10的512个CNs中,我们发现369个CN具有硬或软语法规则,每个CRMs都由从这些JASPAR基序中选择的基序组成。与从激活的基因组序列中发现基序的MEME相比,NeuronMotif发现的基序明显更类似于JASPAR基序。有趣的是,NeuronMotif从一个CN中发现了两个不同的碱性亮氨酸拉链(bZip)基序,这表明了bZip结构域的两半之间的灵活结合。

     为了解释深度CN,Koo等人通过在第一层用指数函数替换ReLU激活函数,训练了一个类似basset的模型。类似于古的结果,使用指数激活函数可以获得更多和更好的JASPAR motif,同时应用这个修改CNN可以进一步提高相似性,发现更多的motif(图4C)。因此,NeuronMotif是一种普遍适用的方法,可以用于解释不同结构的cnn。


NeuronMotif提供了一种从深度CN获得Motif语法的方法。

     总结每个CN的motif语法和语法规则的关系,我们开发了一种方法来提取motif安排和间隙大小CNcrm在不同层的子结构感兴趣的CN和描述他们的组合逻辑树结构的语法规则(图5)。该方法包括5个步骤:I)根据I∕lm、Im∕ymax和信息内容对CN crms的质量进行排序;II)对于所有高质量的CN,使用它们的motif片段构建主题字典。删除Tomtom发现的重复motif片段;III)使用Tomtom通过字典中的主题匹配每个CN CRM的片段,并对齐CN CRM之间的片段;IV)计算每个CN CRM中相邻主题片段之间的间隙大小;V)使用对齐片段的相应字典主题作为叶节点来构建树结构。NeuronMotif通过创建分支节点,以最小的灵活性和间隙大小连续地连接两个基序或基序组合分支。我们用间隙大小范围标记每个分支节点,用CNcrm中motif组合出现的真值表标记每个叶节点,以显示间隙大小、排列和基序组合逻辑。在较浅的一层中,规则通常非常简单,并且只包含一个主题。更深层的规则通过扩展间隙大小范围或结合前一层学习到的更多不同的主题来扩展前一层的规则。为了显示不同层的规则之间的关系,我们使用Tomtom来定位它首先出现的层中每个树节点的motif/motif组合。如果motif/motif组合在前面的层中没有出现,那么它是在该层中新生成的。否则,它只改变在以前的层中crm的间隙大小范围。在这里,我们以DD-10模型的L10中的CN 1130为例,简要地描述了图5中的算法。此外,我们还分别在图6a和图B中显示了CN 1130和CN 254的结果。

由NeuronMotif发现的基序组合是由染色质开放谱支持的。

     NeuronMotif所发现的许多基元语法都得到了文献的支持。例如,DD-10的L10中的CN 1130代表一个软的CTCF同型二聚体,间隔约58 bp,在癌症和生殖细胞发育的转录过程中发挥重要作用(图6A)。CTCF中11个ZFs中的ZF4-7和ZF8-11可以与每个发现的硬语法基元异源二聚体结合(图6A),这是一种保守的硬基元语法,也发生在Basset模型中(图3B)。


     作为对NeuronMotif发现的基序语法的更全面的验证,我们对转座酶可及染色质进行了测序(ATAC-seq)。我们从GEO数据库中收集了五种细胞类型或组织的ATAC-seq数据。对于每个CN,我们对DD-10数据集中前3000个基因组序列(144 bp)对应的Tn5转座酶切割频率进行了比对。我们将印迹区域扩展到总共1000bp。ATAC-seq使用Tn5转座酶将DNA切割成片段。如果一些TFs或其他分子与DNA结合,切割频率将受到影响,我们期望所产生的印迹具有与该CN的CN CRM一致的特征。例如,在CN 1130的印迹(图6C)中,有两个谷和三个峰,这与NeuronMotif总结的motif语法一致。切割频率较低的两个谷区对应于CTCF同型二聚体的结合位点。切割频率较高的峰对应于CTCF同型二聚体的间隙和侧翼区域。此外,我们发现一些motif语法是细胞类型特异性的。例如,在CN 254的印迹中(图6D),该模式仅在前列腺组织和LNCaP细胞系中显著,这可能与可与基序语法中的基序结合的TFs的表达水平相关。CN 254的基序语法由NFI基序同源三聚体和bZip基序同源二聚体组成。相应地,我们发现NFI家族在前列腺组织和LNCaP细胞系中的基因表达水平比在其他三种细胞系中要高得多(图6d)。为了进一步确认基序出现在序列中,我们使用基序匹配寻找基序片段(P < 0.05),并计算了CTCF和NFIX基序的基序匹配位置的分布(图6e)。大多数中枢神经系统在不同的细胞类型或组织中都有自己的印迹。然而,这些模式不能在搜索motif或组合的一般方法中找到。此外,我们发现CNcrm明显比具有随机间隙大小的motif组合更保守。所有的结果表明,NeuronMotif提供了一种独特的方法来发现基因组中的motif组合规则。

4.讨论

     总之,我们提出了NeuronMotif作为一种剖析顺式调节语法的方法。我们的方法是基于CNN模型中深层神经元激活序列的分层分离,对表观基因组学特征具有较高的预测能力。我们发现,最大池化-卷积结构是CNN中多面神经元的主要原因。我们设计了一种递归算法来对神经元上的高激活序列进行采样,并聚集其相关的特征图。通过这种方式,我们能够分解在这些序列中所表示的多个模式/面。NeuronMotif的性能在原始的DeepSEA和Basset模型上,以及在一些具有更深层次结构或不同激活功能的模型上进行了评估。许多未发现的基序和基序组合都得到了文献、ATAC-seq数据和RNA-seq数据的支持。这些结果表明,我们的方法可以提高对CNN模型的解释,并推进我们对复杂的顺式调节规则的理解。


     除了从CNNs解释顺式调节语法,NeuronMotif的应用可以扩展到解释其他领域的CNNs,因为CNNs遵循相似的原理,具有相似的多面CN机制。例如,在基于蛋白质氨基酸序列的CNN中,NeuronMotif能够解决CN学习到的移动模式。此外,每个CN的神经motif解释结果可能有助于改进深度学习模型。由于理解深度神经元学习到的特征是一个关键的挑战,我们相信NeuronMotif对于基于CNN模型的深度学习通常会很有用。

原论文名称: NeuronMotif: Deciphering cis-regulatory codes by layer-wise demixing of deep neural networks

更多有趣资讯扫码关注 BBIT

AIBioPioneer
分享人工智能,生物信息与植物生理的点点滴滴
 最新文章