https://www.nature.com/articles/s41576-022-00532-2
研究团队
Sara Mostafavi--University of Washington
Wyeth Wasserman--University of British Columbia
Maxwell W. Libbrecht--Simon Fraser University
简介
深度学习在基因组学的影响与挑战
深度学习因其卓越性能在遗传学领域产生了深远的影响,从基因组注释到单细胞数据的分类,各类预测任务中都能见到它的身影。然而,由于模型复杂性,它常被视为“黑箱”,难以理解其预测逻辑。随着数据生成成本下降与计算硬件不断进步,AI在遗传学领域的多样化任务中表现出色。理解深度学习模型如何进行预测,能够深入生物过程,但解释复杂数据集等同于解释复杂模型,而这需要巨大的计算成本。
深度学习模型能够捕捉到复杂的遗传学模式。
例如,分析DNA序列如何在不同细胞类型中调控基因转录时,模型可能学习到以下信息:
序列组成(如GC含量) motif模式(如转录因子结合位点) 染色质的局部可及性 DNA生物物理特性(如弯曲性) 特征的空间位置(在区域中心还是边缘) 特征之间的相互作用(正向或负向)
这些模型通过学习数百万个参数,共同决定预测结果。但由于其复杂性,模型无法直接提供可解释的预测过程,需要通过模型解释技术来揭示预测背后的原理。
可解释人工智能(xAI)及其发展
可解释人工智能(xAI)技术可以揭示模型中影响预测的重要特征,从复杂数据集中生成新假设,并优化实验设计。
事后解释(Post-hoc Interpretation)是一类基于训练完成后的模型运行的算法,主要任务是识别输入特征的相关组合,量化它们对模型性能的影响。该方法在生物学应用中广泛使用,是进行系统性假设生成和实验优先级安排的重要工具。
事后解释方法可分为两大类:
局部解释:分析模型在单个样本(如一个DNA序列)上的预测时,哪些特征起了关键作用。 全局解释:识别影响模型整体性能的关键特征组合,适用于所有样本的预测分析。
深度学习在调控基因组学中的应用
模型解释方法归为四大类:
基于模型的解释:通过模型结构自身进行解释,如注意力机制。 影响传播的数学推导:分析输入特征如何通过网络传播并影响输出。 特征之间的相互作用识别:揭示特征之间的复杂关系及其对预测的影响。 利用先验知识构建透明模型:将已有的生物学知识融入模型,提高解释性。
对于每种方法,文章提供了如何运行的直观理解,并在典型高通量生物数据集的背景下解释其潜在假设和局限性。在适用的情况下,强调如何将局部解释结果汇总,从而揭示模型行为的全局理解。
目前尚无通用框架用于汇总局部解释技术的信息。尽管文章引用了成功案例介绍这些方法,但xAI方法的应用所获得的见解高度依赖于实验设计、数据集特性以及训练模型的准确性。
在整篇综述中,作者主要使用调控基因组学领域的例子。
1.调控基因组中的深度学习
1.1 调控基因组学
理解基因转录控制机制是深入了解细胞生物学的关键环节。多种生化机制会影响基因转录过程,其中包括:
染色质结构:染色质的空间构象调节基因的可及性与表达。 转录因子(TFs)与DNA的结合:TFs选择性地绑定DNA特定序列,调控下游基因的转录。 RNA聚合酶复合物的组成与其调控蛋白:RNA Pol的活性及其与其他调控因子的相互作用直接影响RNA的合成过程。
基因组中还包含启动子和增强子等调控元件。启动子是RNA转录的起始点,控制基因的转录启动。增强子等远端调控元件,赋予启动子特定的空间和时间表达模式。
这些调控元件在控制细胞表型方面至关重要,因此新兴技术不断涌现,以提升研究调控机制的精确度和广度。
核心实验技术
染色质结构:
Hi-C:揭示染色质的三维结构,研究基因与远端调控元件之间的物理接触。
染色质可及性:
DNase超敏感性测定和ATAC-seq:用于识别开放染色质区域,提示基因可能的转录活跃性。
蛋白质与DNA的相互作用:
ChIP-seq(染色质免疫共沉淀测序):检测TF或组蛋白在特定DNA位点的存在,揭示这些蛋白质的调控作用。 ChIP-exo及其他ChIP-seq变体:提高位点检测的分辨率。
随着这些技术向单细胞层面扩展,研究者能更精确地分离细胞类型并分析其异质性。这些技术的进步极大地推动了数据复杂性和规模的增长。
常见研究问题与挑战
研究者在调控基因组学中的核心关注点包括:
识别基因组中的调控序列:这些序列在特定细胞或环境中决定基因的转录活性。 分析转录因子结合位点及其分布:理解这些结合位点的时空动态。 揭示转录因子的身份及协同作用:推导特定细胞状态的分子基础。 研究染色质的三维结构及其功能:探索基因与远端调控元件之间的空间联系
1.2 神经网络与sequence-to-activity模型
深度神经网络(DNN)模型已成为调控基因组学中领先的预测模型。文章重点介绍基于神经网络的sequence-to-activity模型,其中最常用的架构是卷积神经网络(CNN)和循环神经网络(RNN)。
这些模型以假定的调控DNA序列(通常为100至10,000 bp)作为输入,预测该序列活性的某种动态特征(即细胞或环境特异性)。
例如,一个模型可能预测给定的转录因子(TF)是否会在特定细胞类型中结合到该序列上,这可以通过染色质免疫共沉淀并随后进行测序(ChIP-seq)实验来测量。其他常见的预测目标包括染色质可及性、RNA结合、基因表达、剪接以及染色质三维组织的某些方面。
用于基因组学的神经网络
神经网络是一种数学模型,它将输入特征(如DNA序列)作为输入,并生成一个或多个输出标签(如预测转录因子(TF)结合位点或基因表达)。神经网络由许多节点(也称为单元或人工神经元)组成,这些节点以层的形式组织在一起。
输入编码与网络结构
在sequence-to-activity模型中,输入的DNA序列长度为 𝐿,并通过独热编码(one-hot encoding) 转换为大小为 4×𝐿的二进制矩阵,其中每列只有一个元素为1(表示DNA碱基A、C、T或G),其余元素为0。对长度为 𝐿的序列进行独热编码会产生4L个输入节点。
神经网络的内部节点通过以下公式计算其值:其中,为输入,为权重,𝑏为偏置,𝜎 为激活函数。
神经网络的输出节点代表其预测结果。有些神经网络包含多个输出节点,能够同时解决多个任务;例如,sequence-to-activity模型可以同时预测多个转录因子的结合,或同一转录因子在不同细胞类型中的结合情况。
模型训练与非线性特性
模型训练的过程会调整每个节点的权重和偏置,以最大化输出节点与训练集标签之间的一致性。单层神经网络在数学上可以等价于线性回归或逻辑回归,这取决于激活函数的选择。
深度神经网络(DNN) 包含除输入层和输出层之外的额外节点,这些节点被称为隐藏节点,因为它们的值无法直接观测,而是在训练过程中从数据中学习到的。DNN的非线性特性来自于至少部分层使用非线性激活函数。常用的激活函数包括ReLU(整流线性单元)。
池化与全连接层
在卷积层的输出上通常会应用池化pooling操作,通过使用邻近元素的最大值或平均值来减少后续层中的参数数量。最后,扁平化Flatten操作将输出组合为一个向量,作为输入传递给全连接层。
如果DNN模型只使用线性激活函数,则其仍然等价于线性回归。神经网络的架构是指隐藏节点的数量以及它们之间的连接方式。DNN通常按层组织,每一层的节点都将前一层的节点作为输入。
目标函数与优化
训练过程中,目标是优化目标函数(即数学优化过程中的损失函数)。例如,在连续输出任务中,均方误差(MSE)是常用的目标函数。
CNN的初始层包括卷积节点(也称为filters),此外在后续层中还包括全连接节点。
卷积节点是一种模式检测器类型的神经网络节点。它会在输入序列上滑动,并在每个位置评估该序列是否与特定模式匹配,通常长度为3至20 bp。
RNN由按链式结构排列的节点组成。在sequence-to-activity模型中,这条链沿着输入DNA序列排列。链中的每个节点(或节点集合)以单个DNA碱基作为输入,并向链中的下一个节点输出一个值。递归和卷积架构通常结合使用,序列会先经过一个或多个卷积层,然后再进入递归层。
1.3 为什么深度神经网络(DNN)模型的解释如此困难?
高维参数空间和复杂特征组合
大量自由参数:DNN模型通常包含数千万个参数,这些参数在训练过程中共同学习复杂的特征组合。 潜在特征表示的复杂性:DNN能够捕捉和编码高度抽象的特征表示,但这种表示并非易于解读,模型的预测依据难以明确识别。 组合搜索空间:模型解释的挑战在于必须在巨大的特征组合空间中导航,寻找影响模型预测的重要特征。
可解释人工智能(xAI)及其方法
基于梯度的分析:使用梯度信息来衡量输入特征的小变化如何影响模型输出。 基于扰动的分析:通过人为扰动输入特征,观察模型输出的变化。 基于博弈论的分析:例如Shapley值,计算每个特征对模型预测的贡献。这种方法基于合作博弈论,可以量化每个特征的独立贡献及其协同作用。
然而,这些策略各有假设和局限性,无法在所有情境下表现最佳。因此,不存在全局最优的模型解释策略。
局部解释与全局理解的转换挑战
局部解释:针对单个输入样本分析特征的重要性,揭示模型如何对特定输入做出预测。 全局理解:需要在整个数据集中识别出模型学习的普遍特征组合,这一过程极其复杂。
缺乏基准评估与算法有效性验证
模型解释的另一个关键困难在于无法系统地评估不同的解释策略。
缺乏基准数据集:很少有数据集包含已知的重要特征,无法直接验证解释的准确性。 算法假设的依赖性:不同xAI算法基于不同的假设,而这些假设的有效性取决于特定的数据集特性和生物学过程。
2.基于模型的解释
基于模型的解释是一种通过分析神经网络各组成部分来理解模型学习到的隐藏特征及其对预测性能贡献的直观方法。尽管这种方法在小型网络中表现优异,但DNN的规模和复杂性增加了解释的难度。针对部分网络层的分析仍能帮助研究者提取关键特征。
直接分析隐藏神经元的活动:通过检查隐藏层神经元的活动,提取一组与输入相关的特征。
在基因调控模型中,第一层神经元可能识别特定motif模式,而后续层则将这些motif组合成用于预测染色质状态的特征。
引入注意力机制的模型训练:在训练过程中添加注意力机制,通过学习的注意力权重衡量每个输入特征的重要性。
在Sequence-to-Activity模型中,注意力权重可以量化不同motif片段对预测结果的贡献,有助于理解模型关注的核心区域。
2.1 解释第一层卷积节点
在卷积sequence-to-activity模型中,第一层的神经元(即filters)捕捉短序列motif,这些motif编码在卷积权重矩阵中。从数学上看,将卷积权重矩阵应用于序列的操作相当于使用位置权重矩阵(PWM)对序列进行扫描.
可以对卷积权重矩阵应用一种简单的转换(例如softmax),生成位置频率矩阵(PFM),用于量化特定位置上碱基的频率。进一步的缩放和对数转换能够将矩阵可视化为标准的PWM(量化对应卷积矩阵所代表的motif中每个碱基的对数似然值)。然而,不受约束的权重学习可能导致缩放问题,使得这种方法不够有效。
在实践中,更常见的策略是:搜索能使给定filters激活程度超过某个阈值的子序列,并基于这些激活子序列的对齐直接构建PWM。
可以使用整个输入数据集来搜索最大激活的子序列,或解决一个更一般的优化问题,在所有可能的长度为m的子序列中找到最大激活给定filters的那些子序列。这些PWM随后可以与JASPAR和Cis-BP等数据库中的已知转录因子(TF)结合位点的特征进行比对和注释。
https://jaspar.elixir.no/
http://cisbp2.ccbr.utoronto.ca/
尽管不能保证CNN filters一定会对应已知的TF结合motif,但所学习的PWM通常确实如此。例如,当CNN应用于测定转座酶可及染色质测序(ATAC-seq)数据的分析时,学习到的大多数PWM与在免疫细胞分化中发挥重要作用的已知TF结合motif相对应,包括PAX5、EBF1和LEF1的motif。
由于神经网络在设计上通常是参数过多的,仅仅存在一个PWM并不意味着它是一个具有预测力、有趣或有用的特征。因此,我们需要衡量PWM对模型预测的贡献。在基于节点的策略中,这是通过逐个去除(或消融)filters并测量这种操作对模型预测的影响来实现的。
直观上,如果某个重要的filters被消除,网络的预测应该会显著改变。可以对每个输入样本进行这种filters消融测试,从而提供局部解释。为了形成全局解释,最简单的方法是将所有局部解释的结果取平均。
基于节点的策略是一种还原论的方法,目的是通过分析复杂系统中的单个组成部分来理解整体系统,其核心假设:单个单元可以独立解释。
但由于DNN通常经过训练以在丢弃部分神经元时仍保持鲁棒性,某个重要模式可能会被多个神经元捕捉到——也就是说,不同的节点可能是冗余的。在这种情况下,消除单个神经元可能无法真正反映该模式对模型预测的重要性。
此外,根据模型的架构,某些生物学可解释的模式可能作为多个子节点的组合来学习。例如,一个较长的TF motif可能由两个filters分别学习到不同的部分。
2.2 用注意力机制权重可视化特征重要性
权重正则化
旨在缓解神经网络训练中的过拟合问题,提升模型的泛化能力,并帮助识别重要特征。其核心思路是在模型训练时向目标函数中引入正则化项,鼓励所学习的权重满足某些特性,如:
权重值较小:避免过度复杂的模型,使其对训练数据更鲁棒。 权重稀疏性:鼓励模型只依赖少数关键特征,有助于提升模型的可解释性。
注意力机制:正则化与模型解释的结合
注意力机制是一种特殊形式的权重加成,可视为动态权重正则化。它通过给输入序列中的不同位置赋予不同权重,使模型更聚焦于关键信息。
注意力机制的核心特点:
自适应权重学习:在训练过程中,网络中的附加模块会自动学习注意力权重,捕捉输入序列中各位置的相关性。 提升性能与可解释性:相比于传统的正则化,注意力机制不仅可以提高模型性能,还能提供透明的解释,展示模型最关注的输入部分。 应对长序列输入问题:尤其在RNN模型中,当输入序列长度增加时,性能往往下降,而注意力机制通过权重分配有效解决了这一问题。
在Sequence-to-Activity模型中,注意力机制能够通过对输入序列中的不同位置施加权重,帮助模型聚焦于关键motif片段或区域,从而更准确地预测基因的活跃状态。
直接检查注意力向量:研究者可以通过观察训练得到的注意力权重,识别输入数据中对模型预测起关键作用的部分。 捕捉关键特征:这种方法不仅提升了模型的性能,还使得研究者能够深入理解模型内部表示的构建过程。
有研究显示注意力权重与序列中TF结合位点的预期位置存在相关性,并与DNase酶切足迹位置一致。
然而,其他研究对直接解释注意力权重提出了警告:输入特征中的冗余和多重共线性(这些问题在高通量数据中非常常见)会导致注意力权重估计的不稳定性,从而影响解释的可靠性。
3.数学影响传播
与已训练神经网络的组成部分不同,另一类算法直接对输入样本进行操作,通过传播扰动数据穿过模型,并观察其对预测结果的影响。这些基于传播的特征归因方法被认为具有更高的模型无关性,因为它们在一定程度上能够绕过特定模型架构的副作用(如学习到的filters冗余),从而更精确地确定特征的重要性。此外,它们能够同时解决特征识别和重要性量化的问题。基于传播的归因方法可以分为前向传播和反向传播两大类。
3.1 前向传播影响
在计算机视觉领域中,最简单的形式是像素翻转,即修改输入图像中的一个或多个像素,以识别与预测结果相关的图像特征。如果改变某个像素的值对分类结果有显著影响,那么该像素可能对应于模型在预测过程中识别为重要的特征(或特征的一部分)。
在生物序列中,我们可以修改核苷酸来确定经过训练的模型中的特征重要性,这种策略称为计算机模拟诱变(ISM),因为该方法与体外DNA诱变具有类似原理。
计算机模拟诱变(ISM)
在实践中,给定一个长度为 𝐿的输入DNA序列 𝑋,我们依次选择输入序列中的每个索引 𝑖(核苷酸位置),并针对该位置的三个其他备选核苷酸生成新的序列,仅更改第 𝑖个位置的碱基。模型在替代序列和原始序列上的预测差异通常称为归因分数。对所有核苷酸重复这一过程,会生成一个 4×𝐿的矩阵,称为归因图,并可以将其可视化为序列标志图(sequence logo)。
已有研究表明,ISM在效果上优于其他基于归因的方法。尽管ISM通常用于记录扰动对模型最终输出层的影响,但它也可以用于揭示隐藏神经元的归因。
计算效率优化策略
在多个输入样本上对每个核苷酸逐一执行ISM会带来巨大的计算开销(每个输入序列的复杂度为 3𝐿)。为了节省计算资源,可以将分析限制在具有较高预测分数的序列等有最大潜在价值的子集上。
其他策略则利用神经网络特定的架构来跳过部分冗余计算,例如,仅计算某个卷积filters的感受野内的值。这些策略包括快速ISM和加速ISM。这些方法使得在单核苷酸层面高效应用ISM成为可能,但仍无法在计算上全面检查所有可能的核苷酸组合。
部分遮蔽与motif识别
与逐个核苷酸执行ISM相比,还可以修改输入序列的较长片段,以识别依赖于多个碱基对组合的重要motif(类似于实验室中的扫描诱变)。这种遮蔽方法被用于发现增强子-基因对、特定方向的CTCF(CCCTC结合因子)结合位点以及顺式调控元件的边界。相比于随机遮蔽,通过已知转录因子(TF)motif的诱变可以获得更高的解释性,但这需要事先了解motif的具体位置。例如,可以扫描给定序列中的TF PWM,获得每个核苷酸位置的扫描分数,然后使用ISM对高分段进行改变。
基于合成序列的扫描与分析
部分遮蔽的想法还可以推广到合成序列,这些序列在特定位置包含特定的k-mer子序列。这种方法可以提供更高分辨率的洞察,帮助分析motif的位置、间距或侧翼序列的影响,而无需依赖我们对TF结合模式的有限认知。正如生物学规律所预测的,子序列所在的序列上下文会对结果产生影响。
在计算上,为了减少偏差,可以通过在合成序列中保留二核苷酸组成和motif的位置信息来获得更可靠的结果。
3.2 反向传播影响
反向传播方法通过计算模型在给定输入序列上的导数,来近似模拟计算机模拟诱变(ISM),评估对序列的微小改变对模型预测的影响。
由于神经网络是由多个非线性函数组合而成,模型的梯度需要通过链式法则,使用反向传播过程(即在网络中反向传播偏导数)进行计算。这会产生一个函数,并需要在特定输入上进行评估,从而生成一个梯度向量。
生成的梯度向量的大小与输入特征数量相同。然后,将该梯度向量与输入值逐元素相乘,即可得到一个基于梯度的归因图。近年来的方法,如GradCAM及其变体,通过局部加权特征重要性来改善梯度近似的质量。
梯度方法的主要局限:饱和问题
集成梯度法(Integrated Gradients):
https://arxiv.org/pdf/1703.01365
输入特征的冗余会导致重要性值被低估。例如,一个调控序列中可能包含同一结合motif的多个副本,模型的整体敏感性会在这些副本之间分散。为了解决这个问题,提出了Reference- based的梯度方法,例如集成梯度法。集成梯度法不是在单点上评估梯度,而是在以下路径上进行积分:
其中, 是输入 的基线(也称为Reference)版本。这种方法能更敏感地评估输入扰动对模型预测的影响。在基因组序列的场景中,可以将单核苷酸或二核苷酸乱序序列用作合理的基线。集成梯度法不会遇到饱和问题,因为梯度是相对于基线 计算的,在TF结合的示例中,基线不包含任何结合位点。
增强集成梯度(Enhanced Integrated Gradients,EIG)
是集成梯度法的改进版,它进一步考虑了基线与样本之间的所有非线性路径。EIG在与各种基线的对比测试中表现出色,并识别出A1CF为肝脏剪接程序的一个新调控因子。
https://doi.org/10.1186/s13059-020-02055-7
梯度方法的数值不稳定性
梯度方法在通过反向传播计算深度神经网络梯度时,面临数值不稳定性问题。即使对于连续的神经网络模型 ,其梯度也可能存在不连续性。例如,如果模型使用了ReLU激活函数,则输入的微小变化可能导致梯度的剧烈跳变,从而导致梯度估计不可靠。
DeepLIFT
https://proceedings.mlr.press/v70/shrikumar17a/shrikumar17a.pdf
不同于集成梯度法,它在网络的每个节点上计算输入与参考之间的差异,并通过一次反向传播将这些差异从输出层传递回输入层,生成近似于梯度的归因分数。DeepLIFT有多种规则来分配归因分数,其中一种规则被证明是Shapley值的近似。
Shapley值是合作博弈论中的一种数学框架,用于按特征对预测结果的边际贡献分配重要性。这一框架已被用于推导特征归因算法,并提供了一个理论基础,用于统一包括DeepLIFT和DeepSHAP在内的多种特征归因算法。
3.3 从局部传播结果到全局解释
为了将基于传播方法生成的每个序列的归因图推广为对重要motif的全局理解,需要对多个输入示例的结果进行聚合。TFMoDISco 是一种专门为DNA输入序列设计的工具,通过对归因图进行聚类来识别全局重要的序列motif。例如,TFMoDISco 曾被用于识别对端粒酶逆转录酶(TERT)启动子功能重要的序列特征。
https://arxiv.org/pdf/1811.00416v4
然而也存在聚类的典型挑战,例如:
如何确定聚类的数量。 如何定义相似性度量标准。 如何调整聚类的分辨率。
针对这些挑战,最近有一些方法专门设计用于聚合基于部分遮蔽方法的结果,并提供了额外的统计保证。例如,Koo等人展示了这些方法可以揭示对预测RNA-蛋白相互作用重要的序列特征。
https://journals.plos.org/ploscompbiol/article?id=10.1371/journal.pcbi.1008925
4.识别特征之间的相互作用
神经网络的强大之处在于其能够模拟特征之间的非线性相互作用。在基因调控的背景下,人们普遍认识到,转录因子之间的协同作用等相互作用能够解释单个TF独立作用之外的活性。因此,研究人员希望检测出神经网络识别的特征之间的相互作用,这些相互作用可能代表转录因子的协同行为。
4.1 基于模型的相互作用识别
由于神经网络的深层网络层会逐级组合低层学习到的特征,一种显而易见的相互作用识别策略是分析更深层的神经元。例如,Bogard等人通过检查激活第二层filters的序列,识别并验证了RNA结合蛋白在选择性多聚腺苷酸化中的相互作用。
https://doi.org/10.1016/j.cell.2019.04.046
在计算机视觉应用中,基于优化的方法在从大量随机输入(如图像)中搜索最大化激活给定隐藏神经元的输入时表现最佳。
自注意力机制是一种广泛使用的注意力机制变体,在sequence-to-activity模型中,它可以直接表示碱基对之间的相互作用。自注意力机制可以替代CNN模型中的池化层,在这一层中,模型生成一个 𝐿×𝐿的注意力矩阵,表示输入序列中每对碱基之间的注意力强度。这一矩阵可以作为碱基对协同作用的表示形式。
在一个预测基因表达的模型中,如果输入序列覆盖转录起始位点周围的一个较大区域(例如200kb),自注意力机制可能捕捉到增强子-启动子之间的相互作用,这些相互作用对调控该基因的表达起着重要作用。在预测TF结合的模型中,自注意力机制可以揭示输入序列不同位置之间的协同TF结合,或更广泛地突出输入序列中对TF结合重要的区域。
4.2 通过数学传播解释特征相互作用
计算机模拟诱变(ISM)在相互作用分析中的局限性
在估计潜在的特征相互作用时,ISM 变得计算量极大。因为需要为每对特征单独测试输入,而随着特征数量的线性增加,测试的数量呈二次增长。
ISM 仍可以在某些限制条件下可行应用。例如,可以针对包含特定motif对的序列进行目标分析,或通过在随机序列中插入两个motif进行更广泛的分析。在这种情况下,ISM可以通过突变一个motif(单个位点或整个motif),并将突变后的预测结果与原始序列的预测结果进行比较。该方法不仅可以发现motif之间的加性和非加性效应,还可以评估motif间距的影响。
为了评估motif间距的依赖性,可以将两个特征(如转录因子motif或k-mer片段)插入随机基因组序列中,然后将其中一个特征固定在某个位置(如序列中央),而另一特征沿序列逐步滑动。该程序还可以应用于测试两个相同motif的多聚化效应。为了减少噪声或统计不稳定性,可以在多个序列上重复进行。
深度特征交互图(DFIM)
DFIM在前向和反向传播算法之间实现了一种折中。与ISM的二次增长相比,DFIM的计算量随特征数量线性增长,因为它需要多次通过网络。在DFIM方法中,通过扰动源特征并保持其他特征不变,计算输入DNA序列中任意一对特征(源特征和目标特征)之间的特征交互分数(FIS)。FIS表示在扰动源特征时,目标特征的重要性分数的变化。
基于反向传播的二阶梯度分析
像集成梯度法这样的反向传播方法也可以扩展用于评估成对特征交互。除了计算一阶导数,还可以计算模型预测的二阶导数,即集成Hessian矩阵(Integrated Hessians)。该方法生成一个二阶导数矩阵 𝐻,其中 𝐻(𝑖,𝑗)表示特征 𝑖 如何调节特征 𝑗 的影响或反之亦然。如果 𝐻(𝑖,𝑗)的值较高,则表明这两个特征之间存在显著相互作用。
需要注意的是,集成Hessian无法应用于某些激活函数,如ReLU激活函数,因为ReLU的二阶导数在大部分区域内为0,缺乏有意义的信息。尽管集成Hessian理论上可以高效评估相互作用(例如揭示DNA序列中每一对碱基对之间的相互作用),但这种方法尚未在基因组学应用中得到系统测试。
5.使用先验知识构建透明模型
解释深层隐藏节点更加困难,因为每个隐藏节点都对应于输入的复杂非线性函数,且通常不对应于可观察的具体量。
透明神经网络模型是指那些隐藏节点被构建为与生物学单元物理对应的模型,其粒度水平对人类理解有帮助。为了构建具有内在可解释性的模型,需要利用先验知识来设计网络架构。例如,可以根据已知的TF结合motif初始化filters。
深层网络会基于这些输入特征的组合构建模型,模拟生物系统的更高层次结构。
例如,第二层可能代表motif之间的共结合关系,而更高层可能对应于生物通路等。尽管转录因子相互作用和通路归属的先验知识通常较为有限,已有研究通过Gene Ontology等资源提供的部分信息,编码神经元之间的二元关系,或者通过正则化在不同层的单元之间柔性地建立连接。通过检查这样的模型,可以洞察某个特定环境下的这些先验交互是否存在。
5.1 DCell 和 P-NET 模型的透明性应用
DCell
https://www.nature.com/articles/nmeth.4627
DCell 建模了基因型与酵母生长速率之间的关系。该模型的第一层节点代表基因,第二层节点则基于Gene Ontology 数据库的层次结构定义为功能组。DCell 的透明性帮助解释了PMT1 和 IRE1 基因突变如何影响生长速率。这两个基因与200多个Gene Ontology子系统相关,但只有内质网未折叠蛋白反应节点相比野生型受到了显著影响。实验验证进一步确认了这一子系统与双基因突变体之间的关系。
P-NET
P-NET 模型从多组学数据集中构建了分子变量的透明表示。模型的透明性帮助研究者发现了前列腺癌转移的新型生物标志物,如MDM4。与DCell和P-NET类似,其他研究人员也构建了具有生物物理解释的神经网络,其中单元和参数能够直接对应生物学意义。
https://www.nature.com/articles/s41586-021-03922-4
5.2 神经加性模型(NAMs)的简化透明架构
神经加性模型(Neural Additive Models, NAMs),该模型牺牲了一部分传统神经网络的容量以实现参数的直接解释。尽管该模型只能检测线性特征关系(但这些关系仍然可以从数据中新学得),其在某些基因组学应用中的表现与更复杂的模型相比也具有竞争力。然而,该模型的主要缺陷是无法学习特征之间的潜在交互(如motif之间的非线性关系或motif效应对间距和侧翼序列的依赖性)。
https://arxiv.org/pdf/2004.13912
5.3 透明模型的局限性
透明建模方法的主要限制是需要自己具备系统的先验信息。
对于那些实体或其层次结构尚未充分表征的任务,或无法通过实验测量这些实体的任务,这种方法可能不适用。
我们在解释透明模型的节点时需要谨慎,因为这些方法可能无法确保节点与生物实体之间的严格对应关系。例如,CNN中初始化为TF motif的filters在训练过程中可能会偏离初始motif。此外,强制透明化的技术可能降低模型性能。例如,硬编码转录因子之间的二元关系或基因与通路的归属关系,可能会导致模型的准确性下降(尽管使用柔性正则化技术时,这种下降可能较轻微)。
6.总结
尽管本文主要讨论了sequence-to-activity模型的可解释性,但所描述的可解释人工智能(xAI)方法适用于更广泛的基因组学任务,如表型分析、基因表达、多组学测序和单细胞测序模型的解释。然而,当模型的因果关系不如序列模型那样清晰时,模型解释将更加复杂和具有挑战性。因此,模型解释的目标和实用性与具体的应用场景密切相关,必须根据任务需求选择合适的解释方法。
全局解释与局部解释的选择
全局解释:适用于理解整个生物过程,帮助提出可实验验证的机制假设。例如,分析基因网络中的关键调控因子。 局部解释:用于分析单个样本的预测结果,如评估患者的遗传风险或疾病进展。
训练数据质量与虚假关联的影响
解释方法的核心是在训练数据中发现模式并进行推断。然而,训练数据中的虚假关联可能导致解释结果失真。
数据集小或存在伪影时的风险:模型可能通过学习非生物学的“捷径”提高准确率,但这些模式往往缺乏实际的生物学意义。 模型解释作为调试工具:解释过程能够揭示隐藏的错误模式或批次效应。例如,在医学影像研究中,模型解释暴露了模型依赖数据批次的隐性特征,从而促使研究者改进模型。
模型预测精度对解释结果的影响
模型解释质量高度依赖于模型的预测精度。
高精度模型:能够可靠地反映给定输入或突变的生物学后果。 低精度模型:解释结果可能误导。例如,在预测基因表达或表型的任务中,当模型性能不理想时,对模型预测结果的解读需要格外谨慎,尤其是针对特征之间的相互作用。
一些特征组合在训练数据中仅出现极少次数,导致模型的解释结果对这些稀有情况可能不准确。
不可识别性问题与解释的可靠性
由于DNN模型的参数数量远多于训练样本数量,模型的训练结果对数据和初始参数高度敏感,这就导致了不可识别性问题。
敏感性:模型参数的学习受到训练样本的随机性和初始化的影响。 影响:基于模型的解释方法容易受到不可识别性问题的影响,但所有解释技术都在一定程度上面临这一问题。为降低这种风险,可以比较多个数据集和多次训练结果。
未来的发展方向:
当前尚未达成共识哪种xAI方法最有效,部分原因在于用户目标的多样性。即使目标一致,不同xAI方法仍可能提供不同视角的解释,并且解释结果有时会与生物学常识不符。
建立xAI的最佳实践:随着研究的积累,将形成一套标准化的解释方法。 成分析工具:将xAI方法融入易于使用的工具,方便不同领域的研究人员。 应对复杂关系的需求:随着生物学数据集规模不断增长,模型解析复杂特征关系的能力变得至关重要。
Novakovsky G, Dexter N, Libbrecht MW, Wasserman WW, Mostafavi S. Obtaining genetics insights from deep learning via explainable artificial intelligence. Nat Rev Genet. 2023;24(2):125-137. doi:10.1038/s41576-022-00532-2: https://doi.org/10.1038/s41576-022-00532-2