A Survey of Geometric Graph Neural Networks: Data Structures, Models and Applications
几何图形神经网络综述:数据结构、模型和应用
https://arxiv.org/abs/2403.00485
摘要
几何图是一种具有几何特征的特殊图,对于建模许多科学问题至关重要。与通用图不同,几何图通常表现出平移、旋转和反射的物理对称性,这使得它们无法被当前的图神经网络(GNN)有效处理。为了解决这个问题,研究人员提出了一系列具有不变性/等变性特性的几何图神经网络,以更好地表征几何图的几何和拓扑结构。鉴于该领域的当前进展,迫切需要对与几何GNN相关的数据结构、模型和应用进行全面调查。在本文中,基于必要但简洁的数学预备知识,我们从几何消息传递的角度提供了现有模型的统一视图。此外,我们总结了应用以及相关数据集,以促进后续研究的方法开发和实验评估。最后,我们还讨论了几何GNN的挑战和未来潜在方向。
索引术语:科学系统,几何图,图神经网络,等变性,不变性
1 引言
许多科学问题,特别是在物理学和生物化学领域,需要处理以几何图形式呈现的数据[24]。与典型的图数据不同,几何图还为每个节点分配了一种特殊类型的节点特征,即几何向量。例如,一个分子/蛋白质可以被视为一个几何图,其中原子的3D位置坐标是几何向量;在一个一般的多体物理系统中,粒子的3D状态(位置、速度或自旋)是几何向量。值得注意的是,几何图表现出平移、旋转和/或反射的对称性。这是因为控制原子(或粒子)动力学的物理定律无论我们将物理系统从一处平移或旋转到另一处都是相同的。在处理这种类型的数据时,将对称性的归纳偏置纳入模型设计中是至关重要的,这促使了几何图神经网络(GNN)的研究。
构建允许这种对称性约束的GNN长期以来一直是方法设计的一个挑战。先驱方法如DTNN [222]、DimeNet [135]和GemNet [136],将输入的几何图转换为对旋转或平移不变的基于距离/角度/二面角的标量,构成了不变GNN家族。注意到不变GNN的表达能力有限,EGNN [216]和PaiNN [219]在消息传递和节点更新中额外引入了几何向量,以在每一层中保留方向信息,从而导致了等变GNN。借助群表示理论这一有用工具,TFN [242]、SE(3)-Transformer [67]和SEGNN [23]通过将不变标量和等变向量视为由高阶球谐张量参数化的可操纵向量,推广了它们,从而产生了高阶可操纵GNN。在这些基础方法的基础上,几何GNN在各种系统的不同应用中取得了显著的成功,包括物理动力学模拟[67, 216]、分子性质预测[15, 152]、蛋白质结构预测[9]、蛋白质生成[267, 110]和RNA结构排序[245]。图1展示了几何GNN在代表性任务上相对于传统方法的优越性能。
为了促进几何GNN的研究,本文进行了一项系统的调查,重点关注方法和应用,其结构如下:
在第2节中,我们介绍了群论的必要预备知识以及等变性/不变性的正式定义;在第3节中,我们提出了几何图作为一种通用数据结构,将在整个调查中作为现实世界数据与模型(即几何GNN)之间的桥梁;在第4节中,我们将现有模型总结为不变GNN(第4.2节)和等变GNN(第4.3节),后者进一步分为基于标量化模型(第4.3.1节)和高阶可操纵模型(第4.3.2节);此外,我们还在第4.4节中介绍了几何图变换器;在第5节中,我们提供了见证了几何GNN在基于粒子的物理系统、分子、蛋白质、复合物以及其他领域(如晶体和RNA)中成功的应用的综合集合。
本调查的目标是提供数据结构、模型设计和应用的全面概述,这构成了一个完整的输入-输出管道,对机器学习从业者在各种科学任务中应用几何GNN具有指导意义。最近,已经提出了几个相关的调查,主要关注几何GNN的方法[52]、化学数据的预训练GNN[276]、分子的表示学习[89, 7]以及人工智能在各种科学系统中的通用应用[299]。与它们相比,本调查强调几何图神经网络,不仅涵盖了几何GNN的理论基础,还提供了跨物理学、生物化学和材料科学领域的相关应用的详尽总结。同时,我们在第6节中讨论了未来的前景和有趣的研究方向。我们还发布了Github仓库,收集了与几何GNN相关的参考文献、数据集、代码、基准测试和其他资源。
2 对称性的基本概念
在本节中,我们将简要介绍与对称性相关的基本概念。如果读者熟悉理论背景,可以跳过本节,直接进入第3节的方法部分。
2.1 变换与群
通过定义对称性,我们指出一个感兴趣的对象在一组变换下保持不变。例如,空间中任意两点之间的距离保持不变,无论我们如何同时旋转或平移这两点。在数学上,一组变换形成一个群(更多细节请参阅[58])。
我们在下面提供了一些在本论文应用中常用的例子:
- **E(d)** 是一个欧几里得群,由旋转、反射和平移组成,作用于d维向量。
- **T(d)** 是欧几里得群的一个子群,由平移组成。
- **O(d)** 是一个正交群,由旋转和反射组成,作用于d维向量。
- **SO(d)** 是一个特殊正交群,仅由旋转组成。
- **SE(d)** 是一个特殊欧几里得群,仅由旋转和平移组成。
- **李群** 是一个群,其元素形成一个可微流形。实际上,上述所有群都是李群的特定例子。
- **S_N** 是一个置换群,其元素是包含N个元素的给定集合的置换。
2.2 群表示
虽然上面抽象地定义了群运算“·”,但借助群表示,它可以被实现为矩阵乘法。群G的一个表示是一个群同态ρ(g): G → GL(V),它将群元素g ∈ G作为输入,作用于某个向量空间V的一般线性群上,满足ρ(g)ρ(h) = ρ(g · h),对于所有g, h ∈ G。当V = R^d时,GL(V)包含所有d×d的可逆矩阵,并且ρ(g)将矩阵分配给元素g。
对于正交群O(d),其常见的群表示之一是由满足O(d×d)定义的;对于特殊正交群SO(d),其群表示被限制为行列式为1的正交矩阵,记为R。平移群T(d)的情况有点繁琐,可以在射影空间中使用齐次坐标推导出来;为了简化,我们在这里直接将平移定义为向量加法而不是矩阵乘法。请注意,群的表示不是唯一的,这将在第4.3.2节中进一步说明。
2.3 等变性与不变性
设X和Y分别是输入和输出向量空间。函数f : X → Y被称为关于G等变的,如果当我们对输入应用任何变换时,输出也通过相同的变换或某种可预测的行为发生变化。形式上,我们有:
群表示的选择有助于专门化不同场景。当⇢X和⇢Y都是平凡表示时,即⇢X(g) = ⇢Y(g) = I²,函数φ成为平凡函数;当⇢Y(g) = I时,函数φ被称为不变函数,这表明不变性只是等变性的一个特殊情况。
可以验证等变性诱导了以下理想属性。(i) 线性:任何等变性函数的线性组合仍然是等变性的。(ii) 可组合性:两个等变性函数的组合(如果它们可以组合)产生一个等变性函数。因此,网络每一层的等变性意味着整个网络是等变性的。(iii) 可继承性:如果一个函数相对于群G1和群G2是等变性的,那么这个函数必须是相对于这两个群的直积等变性的,即G1⊕G2在相应的乘积群操作或群表示定义下。这意味着单独证明每个变换的等变性足以证明联合变换的等变性。
在以下上下文中,变量x被实例化为一个几何图,群变换⇢(g)成为几何图的变换,函数φ被设计为一个不变/等变GNN。
3 数据结构:从图到几何图
本节正式定义了图和几何图,并描述了它们之间的区别。表1总结了我们在本文中使用的符号。
3.1 图
传统上对图的研究通常关注其关系拓扑。例如,社交网络、引文网络等。在AI驱动的药物设计(AIDD)领域,它们通常被称为2D图[275]。
作为一个具体的例子,分子可以被视为图,其中节点v_i被实例化为原子,节点特征H是原子序数的一热编码,每个原子一行。边A要么是化学键的存在,要么是基于原子之间在截止阈值下的相对距离构建的,相应的边特征e_ij可以被分配为化学键的类型和/或相对距离。
3.2 几何图
在许多应用中,我们处理的图不仅包含拓扑连接和节点特征,还包含某些几何信息。同样以分子为例,我们可能还会了解到欧几里得空间中的一些几何量,例如原子在3D坐标中的位置4。这些量特别有趣,因为它们封装了丰富的方向信息,描绘了系统的几何形状。有了几何信息,人们不仅可以局限于对图拓扑的有限感知,还可以扩展到整个系统在3D空间中的配置,其中重要的信息,如相邻节点的相对方向和速度等方向量,可以更好地利用。因此,在本节中,我们从几何图的定义开始,这些图通常被称为3D图[24]。
4 模型:几何GNN
在本节中,我们首先回顾拓扑图上消息传递神经网络(MPNN)的一般形式。然后,我们介绍能够处理几何图的不同类型的几何GNN:不变GNN、等变GNN以及几何图变换器。最后,我们简要介绍了讨论几何GNN表达能力的工作。图4展示了本节中几何GNN的分类。
4.1 消息传递神经网络
图神经网络(GNN)借助消息传递机制在图上操作,通过通过邻居聚合更新节点嵌入来促进信息沿图结构传播。具体来说,消息传递GNN通过在每层中迭代以下消息传递过程来实现拓扑图G上的(G),
4.2 不变图神经网络
进入几何领域,有许多任务要求我们提出的模型对欧几里得变换保持不变。例如,在分子属性预测任务中,预测的能量应该保持不变,不管所有原子坐标的任何旋转/平移。嵌入这种归纳偏差至关重要,因为它基本上符合我们3D世界的物理规则。
其中消息计算为连续卷积滤波器与邻居嵌入的乘积,函数均为多层感知机(MLP)。
**DimeNet [135]**。通过观察到仅使用相对距离无法编码方向信息,DimeNet提出了方向消息传递,它不仅将相对距离作为输入,还将相邻边之间的角度作为输入。计算每个方向边(从j到i)的消息嵌入的主要组件由以下公式给出:
**GemNet [136]**。为了实现普遍表达能力,GemNet进一步考虑了二面角角度,基于四节点组制定了二跳方向消息传递。基本上,它用以下形式替换了DimeNet [135]中方程(7)的消息嵌入:
除了上述模型外,SphereNet [167] 是另一种流行的具有不变性的图神经网络(GNN)。与 GemNet 类似,SphereNet 也利用相对距离、角度和扭转角来进行几何建模,这能够区分几乎所有的3D图结构。此外,SphereNet 提出的球形消息传递(SMP)使得在大规模分子上进行快速且准确的3D分子学习成为可能。ComENet [258] 是另一种类型的不变模型,它完全且高效地融合了3D信息。ComENet 仅通过1-hop邻域内的消息传递来确保模型的全局完整性,从而避免了像 SphereNet 中的扭转角或 GemNet 中的二面角那样耗时的计算。还有一些其他研究 [199, 309, 298, 292] 利用四元数代数来表示3D旋转群,这在数学上确保了推理过程中的 SO(3) 不变性。特别是,Yue 等人 [292] 构建了一个四元数消息传递模块,以区分由键扭转引起的分子构象。
4.3 等变图神经网络
与仅更新不变特征的不变图神经网络(GNNs)相比,等变图神经网络(GNNs)能够同时更新不变特征和等变特征,因为许多实际任务(如分子动力学模拟)需要等变输出。更重要的是,如文献[127]所示,对于稀疏几何图而言,等变GNNs的表达能力严格强于不变GNNs
4.3.1 基于标量化的模型
这一类工作首先将3D坐标转换为不变标量,这与不变图神经网络(GNNs)的设计相似,但它通过进一步恢复处理过的标量的方向来更新等变特征,从而在不变GNNs的基础上进行了改进。
3.2.2 高阶可操控模型
为了简单起见,方程(33)中的可操纵量都是单一类型的。通过在每种输入-输出类型的组合上应用它,并相应地分配不同的可学习参数,可以将其推广到多类型情况,从而得到如下一般形式:
有了上述构建块,我们在下文中介绍几种流行的高阶可操纵模型,其中每个节点更新的可操纵变量为。
TFN [242]。在我们的高阶可操纵操作的公式化中,张量场网络(Tensor Field Network,TFN)计算以下等变点卷积:
**SEGNN [23]**。SEGNN将TFN从等变点卷积增强为一般等变消息传递。
其中Gate(·)是[268]中引入的门控非线性,Swish(·)是Swish激活[202],是从CG张量积中读出的标量,将进一步用于控制方程(43)中非线性的尺度。值得注意的是,方程(42)和(43)中的CG积和非线性在[23]的实现中执行了两次。类似于多层感知机(MLP)的设计,它们被称为可操纵MLP。
更新函数也采用了提出的可操纵MLP。详细来说,
除了上述介绍的方法外,还有许多方法可以构建具有高阶可操纵特征的等变模型。Cormorant [5]利用通道式CG积(一种简化且更高效的方程(33)形式,独立作用于每个输入通道)和通道连接来制定输入图系统中的一体和二体相互作用。NequIP [15]通过进一步引入DimeNet [135]中使用的径向贝塞尔函数和多项式包络函数,改进了TFN [242]中的卷积层,以获得更好的相互作用距离嵌入,从而提高了模型的性能。SCN [310]将每个节点嵌入视为一组球面函数(即球谐函数),然后通过基于3D边方向旋转嵌入来进行消息传递,最后通过离散球面傅里叶变换更新节点嵌入。其后续工作eSCN [192]提出了一种在SO(2)上进行数学等价的等变卷积的简化算法,以降低SO(3)上等变卷积的计算复杂度。为了实现大多数先前论文中二体建模之外的高阶相互作用,MACE [13]和Allegro [188]提出了一种简化算法来构建张量积项,灵感来自物理学中称为原子团簇展开(ACE)的新技术[46, 51, 21]。
4.4 几何图变换器
受变换器[252]在许多领域(如自然语言处理和计算机视觉)取得显著成功的启发,已有努力将这些基于自注意力的架构应用于图甚至几何图的数据结构,这些努力在本调查的范围内进行了总结。如图4所示,这些方法源于不同类型的几何表示,包括不变表示、基于标量化的等变表示和高阶可操纵表示,这些在第4节中已经详细阐述。下面我们详细讨论这些变换器
通过不变注意力,更新后的特征很容易保证满足SE(3)-等变性。
此外,LieTransformer [106]通过在李群上的提升和采样之上构建注意力,扩展了LieConv [64]的思想。GVP-Transformer在[96]中引入,利用GVP-GNN [124]作为结构编码器,并在提取的表示上应用通用变换器,在学习蛋白质逆折叠方面表现出强大的性能。Equiformer [152]提出用MLP注意力和非线性消息传递替换变换器中的点积注意力,建立在高阶可操纵张量的空间上。EquiformerV2 [153]进一步在架构中引入了eSCN [192]以实现高效建模,并引入了更多技术增强,如专门设计的注意力重新归一化和层归一化,以获得更好的经验性能。最近,Geoformer [263]开发了一个称为原子间位置编码(IPE)的不变模块,基于ACE的不变基,以增强注意力块中多体贡献的表达能力。
由于先前的变换器通常专注于特定领域,无论是蛋白质还是小分子。EPT [120]提出了一种新的预训练框架,旨在协调小分子和蛋白质的几何学习。它通过基于PaiNN的变换器框架上的块增强表示,统一了多领域分子的几何建模。
4.5 表达能力的理论分析
在机器学习中,衡量网络表达能力的一个重要标准是其是否具有普遍逼近性质。在几何图的学习任务中,这是指任何几何图的函数是否可以通过几何GNN以任意精度逼近。[54]首次尝试探索这个问题,证明了高阶可操纵模型(即TFN [242])在点云(即完全连接的几何图)上的普遍性,表明TFN可以拟合任何等变多项式。GemNet [136]进一步证明,只需球面表示而不是[54]证明中所需的完整SO(3)表示,普遍性就成立。最近,GWL框架[127]定义了几何版本的Weisfeiler-Lehman(WL)测试[269],从区分几何图的角度研究了在稀疏图上操作的几何GNN的表达能力,并讨论了各种不变和等变GNN在理论和实验上的表达能力差异。GWL论文得出的一个关键结论是,GWL比不变GWL更强大,显示了等变GNN相对于不变GNN的优势。对于完全连接的几何图,不变GWL与GWL具有相同的表达能力。
还有其他工作仅研究消息计算函数的普遍性[254, 102]。他们探索了基于标量化模型的表达能力(如EGNN),Villar等人[254]证实,基于标量化的方法可以普遍逼近任何不变/等变向量的函数。此外,SGNN [91]从等变性推广到子等变性,描述了当部分对称性被外部力场(如重力)破坏的情况,并最终设计了一种普遍形式的子等变函数。
5 应用
在本节中,我们系统地回顾了与几何图学习相关的应用。我们根据现有方法所针对的系统类型对其进行分类,这导致了任务在粒子、(小)分子、蛋白质、分子+分子(Mol+Mol)、分子+蛋白质(Mol+Protein)、蛋白质+蛋白质以及其他领域的分类,如表3所示。我们还分别在表4和表5中提供了单实例和多实例任务相关数据集的总结。值得一提的是,我们的讨论主要集中在使用几何GNN的方法上,尽管其他方法(如基于序列的方法)可能在某些应用中适用。
5.1 粒子任务
在物理学中动态建模的背景下,粒子表示作为一种抽象和统一的概念。刚体、弹性体甚至流体都可以被建模为一组粒子[91]。在这种基于粒子的建模下,感兴趣的物理对象对应于定义4中指定的几何图~G,其中不同的粒子被建模为不同的节点,粒子之间的物理相互作用(如吸引力/排斥力、碰撞、滚动和滑动)被表示为边连接。
5.1.1 物理动力学模拟
几何GNN已广泛应用于表征一般物理动力学的过程。一个典型的例子是N体模拟,最初由[133]提出,旨在建模由N个相互作用的粒子组成的原型系统的动力学。虽然它是在理想条件下构建的,但N体系统能够通过容纳各种相互作用,代表从量子物理到天文学的各种物理现象。其他例子包括涉及更复杂对象(包括流体、刚体、可变形体和人体运动)的物理场景模拟。
数据集:当前方法使用的数据集属于以下几类:1)N体数据集系列。原始的N体数据集[133]提供了一个能够模拟三种类型系统的环境,包括1D相位耦合振荡器、2D弹簧和2D带电球体。[67]中的作者进一步将N体推广到包含3D情况。最近,[102]通过在粒子之间添加几何约束来设计受限N体,导致各种系统的组合,包括孤立粒子、棍棒和铰链。后来,[92]推导出的系统进一步引入了由多个粒子通过刚性棍棒相互连接的复杂物体之间的相互作用。2)场景模拟数据集。[151]的论文提出了四个模拟环境:FluidFall、FluidShake、BoxBath和RiceGrip,前两个专注于流体建模,第三个测试流体-刚体相互作用,最后一个涉及建模具有弹性/塑性属性的可变形物体。类似于BoxBath,[214]创建的Water-3D随机初始化水状态并构建高分辨率水场景。Kubric[84]和MIT Pushing[290]可以用来评估面相互作用。Physion[17]是一个大规模数据集,涉及更多真实多样的物体,由更复杂的物理相互作用驱动,包括重力、摩擦、弹性等因素。
方法:许多研究致力于使用GNN学习模拟复杂的物理系统,包括Interaction Network[14]、NRI[133]、HRN[186]、DPI-Net[151]、HOGN[213]、GNS[214]、C-GNS[212]、HGNS[274]、GNS*[2]和FIGNet[3]。然而,所有这些方法都采用了典型的GNN,它们不了解3D世界的完整对称性,只有其中的一部分考虑了平移等变性。自从SE(3)-Transformer[67]的工作以来,旋转-平移等变性被引入到基于注意力的几何GNN中,以解决N体问题。后来,EGNN[216]提出了一个更有效的E(n)-等变GNN,使用已经在§4.3.1中详细说明的标量化策略。
与EGNN相比,SEGNN [23] 提出了通过利用高阶度表示来实现一般 SE(3)-等变的消息传递。最近,GMN [102] 开发了多通道等变建模,专门用于由棍子或铰链组成的约束 N 体系统。在 GMN 的基础上,EGHN [92] 设计了等变池化和等变解池化来处理具有层次结构的复杂系统。同时,SGNN [91] 将对称性从等变性推广到子等变性,这可能使其在受重力等因素影响的场景中表现出色。传统的做法在整个时间间隔内使用固定的速度估计,而 NCGNN [87] 则使用牛顿-科茨数值积分在多个时间点估计速度。还有一些其他工作基于时空设置来处理物理模拟。LoCS [137] 利用 GRU 记录过去帧的记忆,并额外引入旋转不变性以提高模型的泛化能力;EqMotion [280] 将每个节点的历史轨迹提炼成一个多维向量,然后设计了一个等变模块和一个交互推理模块来预测未来的帧;ESTAG [155] 采用等变离散傅里叶变换和等变时空注意力机制来建模物理动力学。SEGNO [166] 结合了具有等变性质的二阶图神经 ODE,以减少长期物理模拟中的滚动误差。
5.2 小分子上的任务
在几何图的使用之前,分子通常由一维字符串(如SMILES[45]或SMARTS[159])或二维拓扑图表示,这两种方式都忽略了分子的几何信息,导致在涉及原子间关键空间相互作用的任务中性能不佳。这里,我们只介绍应用几何图来表示分子的工作。
5.2.1 分子性质预测
分子性质预测一直是计算生物化学和机器学习中的一个基本任务。正如 MoleculeNet [275] 所指出的,常见的性质可以细分为四个类别:量子力学、物理化学、生物物理学和生理学。借助几何图神经网络,我们现在能够额外考虑分子的几何结构,这在确定分子的量子化学性质方面已被证明非常重要。
数据集:目前有三个流行的数据源用于评估此任务,包括 QM9 [203]、MD17 [35] 和 Open Catalyst Project (OCP) [248]。QM9 数据集包含 131k 个最多有九个重原子的小型有机分子,每个分子都带有 13 个属性标签,范围从最高占据分子轨道到偶极矩的范数。MD17 是一个包含八个小有机分子的分子动力学模拟集合,其目标是预测每个分子的能量和原子力,给定非平衡和轻微移动系统的原子坐标。OCP 包含超过 100M 个原子结构训练示例,用于催化剂以帮助应对气候变化,每个示例由一个称为吸附物的分子放置在一个称为催化剂的板上。OCP 提供了两个用于基准测试的数据集 OC20 [30] 和 OC22 [248],其中有三种任务类型,其中初始结构到松弛能量的任务(IS2RE)是挑战中使用的任务。
方法:大多数在 § 4 中介绍的方法都在分子性质预测任务上进行了评估。为了避免重复介绍,我们不再详细描述每种方法,只指定它们在上述三个基准中的哪一个上进行了评估。具体来说,不变图神经网络(包括 SchNet [221]、DimeNet [135]、SphereNet [40] 和 GemNet [136])、等变图神经网络(包括 Cormorant [5] 和 PaiNN [219])和等变图变换器(包括 TorchMD-Net [241] 和 Equiformer [152])都使用 QM9 和 MD17 进行性能比较。其他方法如 NequIP [15] 在 MD17 上进行,而 LieConv [64]、EGNN [216] 和 SE(3)-Transformer [67] 在 QM9 上进行评估。SEGNN [23]、Graphormer [288, 228]、Equiformer [152]、SCN [310] 和 eSCN [192] 利用更具挑战性的基准,即 OC20 甚至 OC22 进行性能评估,揭示了在催化剂设计中应用几何图神经网络的令人鼓舞的有效性。
5.2.2 分子动力学模拟
分子动力学(MD)模拟旨在模拟由同一分子内原子之间的内部相互作用、不同分子之间的外部相互作用或溶剂和力场等环境相互作用驱动的分子时间演化过程。
数据集:MD17 [35]、AdK [224]、OCP [248]、DW-4 [140]、LJ-13 [140] 和快速折叠蛋白质 [158] 是机器学习社区中可用的分子动力学模拟数据集。MD17 [35] 通常用于分子性质预测,也包含通过 DFT 生成的八个分子的轨迹。AdK 平衡轨迹数据集由 MDAnalysis 软件 [83] 中的 CHARMM27 力场模拟,涉及在 300 K 和 1 巴的 NPT 条件下,带有显式水和离子的脱辅酶腺苷酸激酶的分子动力学轨迹,其中蛋白质的原子位置每 240 ps 保存一次,总共 1.004 μs 作为帧。除了常见的松弛能量预测任务外,OCP 还发布了一个用于分子动力学的数据集分割,该分割在放松状态的随机采样子集上计算短时间、高温从头算分子动力学轨迹。DW-4 是一个相对简单的系统,仅由嵌入在二维空间中的 4 个粒子组成,这些粒子受成对粒子之间的能量函数支配,而 LJ-13 由 Leonnard-Jones 势能给出,包含嵌入在三维空间中的 13 个粒子。DW-4 和 LJ-13 中的能量函数都满足 E(3) 等变性。快速折叠蛋白质包含 12 种结构多样的蛋白质,包括 Chignolin、Trp-Cage、BBA 等,其中模拟在显式溶剂中进行,帧间距在 100 μs 到 1 ms 之间。
方法:作为 EGNN [216] 的多通道版本,GMN [102] 特别关注物理动力学,通过考虑原子之间的几何约束(如化学键),并在 MD17 的分子动力学模拟任务中取得了有希望的结果。EGHN [92] 开发了一个带有等变池化/解池化层的 UNet [211] 的等变版本,以更好地揭示蛋白质等大分子的层次结构,在 AdK 数据集上达到了最先进的性能。NequIP [16] 使用高阶几何张量和 E(3) 等变卷积层学习原子间势能和力,在 MD17 上实现了高数据效率和量子化学水平的精度。通过观察到 GMN 和其他相关几何图神经网络方法仅学习速度的常数积分,Newton–Cotes GNN [87] 基于牛顿-科茨公式进行多个速度估计来预测积分,并在理论和经验上证明了其有效性。最近,ESTAG [155] 将动力学模拟重新表述为时空预测任务,通过利用过去时期的轨迹来恢复非马尔可夫相互作用,其性能远优于典型的时空图神经网络和其他没有时空建模的等变图神经网络。
考虑到量子尺度上分子动力学的不确定性,一些方法旨在拟合分子的平衡分布,而不是预测单一的分子构象。通过利用连续归一化流,E-CNF [140] 通过不变的质心先验密度和等变向量场预测 SE(3) 等变分子构象,显示出比不变流更好的生成能力。后来,E-ACF [182] 采用增强归一化流 [100] 从分子动力学轨迹中学习分子的目标分布,通过将原子笛卡尔坐标投影到 SE(3) 不变向量空间来保持 SE(3) 等变性。进一步,ITO [218] 利用分数匹配扩散模型在多个时间尺度上进行随机动力学,采用扩展的 SE(3) 等变 PaiNN 架构 [220],展示了在不同分子尺度上的显著泛化能力。
5.2.3 分子生成
分子生成在药物发现和材料设计中扮演着核心角色。其目标是通过机器学习生成具有所需特性的新型分子。
数据集:QM9 [203] 和 GEOM [8] 是用于分子生成的两个主要数据集。特别是,QM9 包含约 134k 个有机分子,包含分子的三维结构(例如,三维空间中每个原子的坐标)和每个分子的广泛化学性质。GEOM 是一个大规模数据集,包含超过 3700 万个分子构象,为每个单独的二维分子结构提供多样化的构象集合。
方法:当前的方法可以分为两类:构象生成和从头生成。构象生成是给定二维图表示生成三维构象。传统方法 [154] 专注于两阶段策略:首先预测距离,然后重建坐标,但如果预测的距离无效,可能会导致不现实的结构。为了避免这个问题,ConfVAE [283] 将生成任务重新表述为 VAE [132] 框架下的双层优化问题,其中距离预测和构象生成以端到端的方式联合优化。同时,ConfGF [225] 通过使用去噪分数匹配估计原子间距离的梯度场,然后通过退火朗之万动力学生成构象。后来,DGSM [173] 进一步扩展了 ConfGF,额外建模非键原子之间的长程相互作用。GeoMol [69] 以 SE(3) 不变的方式同时预测包括键距离和扭转角在内的局部三维结构,而不是昂贵地优化力场。DMCG [308] 通过迭代优化初始坐标预测来生成原子的三维坐标,并通过设计的损失函数考虑不变性,而不预测中间值如原子间距离。由于扩散模型的成功,GeoDiff [284] 利用图场网络学习 SE(3) 不变分布,而 Torsional Diffusion [125] 在扭转角空间而不是欧几里得空间中操作,由 TFN [242] 预测并作为外在到内在的分数模型。
至于从头生成,由于生成模型的丰富进展,一系列方法被提出。基于 Schnet [221],G-SchNet [77] 引入了一个自回归模型来直接生成三维分子结构,同时保持物理约束。cG-SchNet [78] 进一步扩展了 G-SchNet 以进行属性引导生成。受益于流模型的生成能力,E-NFs [215] 将生成转化为求解连续时间 ODE 的任务,其中动力学由 EGNN [216] 预测。通过利用扩散的力量,EDM [95] 通过使用 EGNN [216] 增强连续和离散特征的去噪过程,利用 E(3) 等变性。GeoLDM [285] 进一步将几何特征映射到潜在空间,在其中进行潜在扩散。基于 EDM,EEGSDE [12] 将生成过程表述为等变 SDE,并采用精心设计的能量函数来指导生成。最近,MDM [101] 考虑了不同距离下的原子间力(例如范德华力),并注入变分噪声以提高大分子和生成多样性的性能。为了解决原子-键不一致问题,MolDiff [195] 引入了一个联合原子-键扩散框架和键引导,以确保原子更适合键合。
5.2.4 分子预训练
鉴于分子标签的获取成本高昂,无标签的分子表示模型预训练在实际应用中变得至关重要且不可或缺。这些预训练模型可以直接迁移或微调用于特定的下游任务,如预测结合亲和力和分子稳定性,从而缓解数据稀缺并提高训练效率。以往的研究主要集中在利用非几何信息进行模型预训练,包括 SMILES 表示法 [260]、化学图 [97]、功能团 [210] 等。最近,人们对基于分子三维几何结构的自我监督预训练越来越感兴趣。
数据集:PCQM4Mv2 [98] 是一个全面的量子化学数据集,包含从 OGB 基准中提取的 337 万个分子,最初作为 PubChemQC 项目 [190] 的一部分进行整理。QM9 [203] 是另一个流行的数据集,涵盖了量子化学结构和性质,包含 134k 个分子。QMugs [111] 在 QM9 的基础上提供了更大规模的类药物分子集合,总计 665k 个分子。GEOM [8] 是一个能量注释的分子构象数据集,包含从多个数据集(如 QM9 和 CREST 程序 [197])中获取的 3700 万个分子构象。Uni-Mol [306] 构建了一个包含 1900 万个分子的构象数据集。它利用 ETKGD 和 Merck 分子力场在 RDKit 中进行优化,为每个分子生成 11 个随机构象,总计 209 万个构象。
方法:多种研究探讨了去噪目标,通过从扰动输入中恢复原始信号来预训练模型。具体来说,GeoSSL-DDM [162] 基于原子距离制定了去噪目标。Uni-Mol [306] 提出了位置去噪和 3D 分子构象与候选蛋白质结合口袋之间的联合训练。GNS-TAT [293] 建立了坐标去噪与分子构象的势能之间的联系。MGMAE [61] 提出了一种在高掩码比率下对异质原子-键图进行重建的训练策略。3D-EMGP [117] 进一步提出预测由黎曼-高斯去噪分布估计的原子伪力场,以确保 E(3) 不变的预训练损失。除了去噪目标,GraphMVP [160] 利用 2D 分子图和 3D 分子构象之间的相关性,构建了一个对比目标来预训练模型。与 GraphMVP 类似,Transformer-M [171] 利用位置编码和注意力偏置来在一个 Transformer 模型中编码 2D 和 3D 结构。同时,3D-Infomax [231] 通过尝试最大化 2D 分子图嵌入与相应 3D 图的学习表示之间的互信息(MI)来利用这种对应关系。MoleculeSDE [161] 扩展了 3D-Infomax [231],并利用群对称随机微分方程模型在 3D 几何和 2D 拓扑之间建立联系,具有更紧密的 MI 界限。
5.3 蛋白质上的任务
5.3.1 蛋白质性质预测
与分子性质预测类似,蛋白质性质预测是计算生物学中的一个关键 E(3) 不变任务。大多数先前的工作仅使用残基序列来预测蛋白质性质。得益于几何结构建模的发展,越来越多的注意力集中在使用几何图神经网络通过探索三维结构来估计蛋白质的功能性质。根据预测粒度,蛋白质性质预测任务分为蛋白质级、残基级和原子级预测,详细如下。
蛋白质级预测:许多任务旨在预测给定蛋白质结构的功能或特定分数。(1) 酶委员会(EC)编号预测 [82] 是一个流行的蛋白质级分类任务,旨在预测给定酶的催化反应类别。(2) 基因本体(GO)术语预测 [82] 旨在预测与基因本体相关的功能类别,给定蛋白质结构,其数据通常分为三个轨道:分子功能(MF)、生物过程(BP)和细胞组分(CC)。(3) 蛋白质结构排序学习给定蛋白质结构的质量评分函数,该函数估计候选蛋白质与天然结构之间的结构相似性。它在计算生物学中起着至关重要的作用,因为它帮助研究人员从潜在结构集合中识别出最准确或生物学上最重要的蛋白质构象。(4) 蛋白质定位预测旨在预测蛋白质的亚细胞位置 [4],这对于理解蛋白质的功能和帮助研究许多人类疾病的病理机制至关重要。(5) 适应度景观预测主要关注预测残基突变对蛋白质适应度的影响。典型的目标函数包括 β-内酰胺酶 [281]、腺相关病毒(AAV)、热稳定性 [42] 和荧光与稳定性 [204]。
现有文献中有丰富的蛋白质级表示模型。DeepFRI [82] 和 LM-GVP [265] 提出了一种两阶段架构,采用语言模型提取氨基酸序列信息,并采用基于图的模型同时学习氨基酸之间的相互作用。值得注意的是,LM-GVP 使用等变模型 GVP [124] 作为基于图的模型。GearNet [303] 提出了一种关系图卷积层,以更好地捕捉蛋白质的三维几何结构,并利用多视图对比预训练更好地利用未标记数据。对于结构排序,TM-Align [300] 是一种典型的但非基于深度学习的方法,计算量大。得益于几何图神经网络的表达能力,[124, 56, 32] 采用等变图神经网络模型如 GVP [124] 和 TFN [242] 来实现模型质量评估(MQA)。此外,TFN [242] 也用于 PAUL [55] 中蛋白质-蛋白质复合物的排序。
残基级预测:Atom3D [247] 提出了残基身份(RES)预测,旨在预测给定局部上下文中心的氨基酸类型。该任务的性能衡量模型是否能捕捉个体氨基酸之间的结构依赖性,这对于蛋白质工程至关重要。
原子级预测:原子级预测的主要形式在于口袋检测,这需要预测蛋白质上的原子是否属于潜在配体的结合位点。先前的方法通常设计算法来寻找和排序蛋白质表面的空腔 [146, 148],或将蛋白质结构体素化并使用 3D-CNN 进行监督训练 [121, 189]。值得注意的是,随着等变图神经网络的发展,一系列工作正在利用几何图神经网络实现更好的性能(ScanNet [250]、EquiPocket [301]、PocketMiner [180])。
5.3.2 蛋白质生成
在生成什么方面,蛋白质生成的方法分为蛋白质折叠(或蛋白质结构预测)、蛋白质逆折叠和蛋白质结构与序列协同设计。
蛋白质折叠旨在生成给定输入蛋白质氨基酸序列的折叠结构。这一任务在药物设计领域具有重要意义。折叠结构通过以下方式生成:
方法:AlphaFold 系列 [223, 128] 和 RoseTTAFold 系列 [9, 10] 代表了当代蛋白质折叠技术的前沿。它们采用了一种复杂的多轨道架构,能够高效处理多序列比对(MSA)、氨基酸成对距离图和几何结构。在这些进展的基础上,RoseTTAFold2 [10] 通过改进注意力机制和增强三轨道架构,扩展了 AlphaFold2 [128] 和 RoseTTAFold [9] 的能力,显著提升了性能。此外,RFAA [145] 进一步扩展了 RoseTTAFold 的多功能性,涵盖了蛋白质以外的各种生物分子设计,包括核酸、小分子和金属。相比之下,ESMFold [156] 和 HelixFold-Single [60] 代表了传统方法的转变,放弃了 MSA 的要求。相反,它们直接从一级序列数据中学习预测蛋白质结构,显著提高了推理效率。此外,EigenFold [126] 引入了一种新的谐波扩散过程,将蛋白质结构投影到特征模态上,从而防止相邻节点的解体。
方法:典型的方法如 Ingraham 等人 [109] 和 Tan 等人 [239, GCA] 将包括距离和二面角角度的不变特征作为输入,以确保生成过程中的不变性。最近,基于 E(3) 等变的 GVP [124],ESM-IF [96] 进一步结合了更多的结构信息进行生成,同时保持输出序列的不变性。类似地,LM-Design [305] 将结构嵌入整合到语言模型中,以提高逆折叠的性能。ProteinMPNN [44] 使用不变架构嵌入骨架,并自回归地预测氨基酸概率,同时强制执行所需的约束。PiFold [75] 额外结合了距离、角度和方向特征,并提出了 PiGNN 以非自回归地生成序列。
蛋白质结构与序列协同设计旨在生成氨基酸序列和折叠结构,这可以正式推导为:
方法:RFdiffusion [267] 通过将高斯噪声引入坐标并将布朗运动噪声引入方向,改进了 RoseTTAFold [9],随后逐步去噪结构并使用 ProteinMPNN [44] 恢复序列。同时,Chroma [110] 引入了一个革命性的可编程扩散框架,通过对称性、形状和语义等约束实现多样化的条件生成和属性的精确目标。Chroma 和 RFDiffusion 都从结构生成开始,然后通过另一个模块进行相应序列的后续采样。与这两项工作不同,PROTSEED [226] 通过编码器-解码器框架联合设计结构和序列,其中编码器具有三角函数感知能力以学习上下文特征,解码器是 SE(3) 等变的,以表达序列和结构。
数据集:ATOM3D [247] 编译了几个常用的蛋白质设计任务数据集。CASP [147] 是一个著名的蛋白质结构预测竞赛。在这项竞赛中,参与者提交预测的结构进行评估,特别是在实验结构未公开的情况下。社区随后评估这些提交的质量。此外,SCOPe [29]、CATH [191] 和 AlphaFoldDB [251] 是蛋白质设计的有价值资源,提供包含蛋白质结构及其相应序列的数据集。SCOPe 和 CATH 包含分段的蛋白质结构域,而 AlphaFoldDB 拥有超过 200 万个由 AlphaFold2 [128] 预测的完整结构。此外,基于 ESMFold [156] 的预测,ESM 宏基因组图谱拥有约 7.72 亿个宏基因组蛋白质结构。
5.3.3 蛋白质预训练
与分子预训练任务类似,蛋白质预训练也旨在学习蛋白质的表示,这些表示可用于下游任务。
对称性保留:对于 H 中的输出向量是等变的,对于 H 中的输出标量是不变的。
数据集:对于蛋白质序列预训练方法,UniProt [39] 是一个中央存储库,包含蛋白质序列和功能信息。它通过 UniRef [236] 进行组织,通常将成对序列同一性阈值设置为 50% 和 100%(称为 UniRef50 和 UniRef100)以消除冗余。BFD [233] 则是一个更大的序列数据集,通过合并 UniProt 和来自宏基因组测序项目的蛋白质序列形成。此外,NetSurfP-2.0 [134] 为蛋白质二级结构预测提供了标签,分为 3 态和 8 态,为监督训练提供了宝贵的资源。在蛋白质结构预训练和分类领域,SCOPe [29]、CATH [191] 和 AlphaFoldDB [251] 具有重要意义。它们提供了全面的蛋白质结构存储库,促进了该领域的研究和进步。
方法:先前的蛋白质预训练方法如 ESM-1b [205]、ESM2 [156]、ProtTrans [57]、xTrimoPGLM [31] 和 ProtGPT2 [63],基于序列掩码和预测,受到 NLP 语言模型成功的启发。读者可以参考 Wu 等人 [273] 的调查了解更多关于蛋白质语言模型的介绍。最近,注意力集中在基于三维结构信息的预训练模型上。例如,GearNet [303] 基于具有多类型消息传递的不变图神经网络,利用了包括序列和结构之间的对比学习、距离/二面角预测和残基类型预测在内的多个预训练目标。其他工作如 ProFSA [71] 和 DrugCLIP [72] 也利用对比学习来学习 SE(3) 不变特征,但更关注口袋预训练,其中还结合了口袋-配体相互作用知识。Guo 等人 [88] 采用蛋白质三级结构进行预训练,结合 SE(3) 不变特征,以确保高效保留 SE(3) 等变性。
5.4 分子+分子任务
本小节介绍输入为“分子+分子”的任务,包括接头设计和化学反应。
5.4.1 接头设计
基于片段的分子设计需要预测接头,即一个小分子,以便将两个或多个分子组件组合成具有理想性质的新分子。接头在维持多结构域蛋白质或融合蛋白质的适当方向、灵活性和稳定性方面非常重要。
对称性保留:如果我们对输入片段同时施加旋转或平移操作,输出坐标应相应变换,而原子特征保持不变。
数据集:ZINC [234] 中连接分子的接头可以通过计算合成,类似于 Hussain 和 Rea [105] 所采用的方法。相反,CASF [235] 提供了实验验证的分子用于接头设计。与通常生成成对片段的 ZINC 和 CASF 不同,DiffLinker [107] 生成了一个包含三个或更多片段的新数据集,取自 GEOM [8]。
方法:DeLinker [108] 和 3DLinker [103] 使用 VAE [132] 创建接头的三维结构。然而,它们的局限性在于只能连接两个片段,当面对任意数量的片段时效果不佳。相比之下,DiffLinker [107] 最近通过利用配置为处理多个片段的 E(3) 等变扩散模型成功解决了这一挑战。
5.4.2 化学反应
在化学反应中,识别和表征过渡态(TS)结构对于理解反应机制至关重要。这一过程涉及定位符合特定约束(如 SE(3) 不变性)的 TS 结构,以最小化系统的势能(PE)。
对称性保留:通常,输出即 TS 结构对于施加到每个输入结构上的独立变换(例如旋转)是不变的。如果输入和输出始终固定在同一三维坐标空间内,那么该任务是等变的,即对两个输入结构施加相同的变换,输出 TS 也会以相同的方式变换。
数据集:TSNet [112] 精心组装了一个名为 SN 2-TS 的数据集,其中包含与 S N 2 反应相关的反应物、过渡态(TS)和产物的结构。Transition1x [217] 提供了 960 万个密度泛函理论(DFT)计算的资源,涵盖了反应路径上分子构型的力和能量。这个广泛的数据集为旨在预测反应的模型训练提供了宝贵的信息。
方法:OA-ReactDiff [49] 引入了一个扩散模型,旨在生成过渡态(TS)结构。该模型通过构建局部框架确保了分数函数的 SE(3) 等变性。此外,等变骨架模型被调整为适应多个对象。另一方面,TSNet [112] 采用等变图神经网络(GNN)模型 TFN [242] 来预测 TS 结构。最初,TFN 在广泛的化学数据(如 QM9 [203])上进行预训练,以学习有用的表示。然后,它针对预测过渡结构的任务进行微调。
5.5 分子+蛋白质任务
“分子+蛋白质”任务得到了广泛研究,例如配体结合亲和力预测、蛋白质-配体对接和基于口袋的分子采样。
5.5.1 配体结合亲和力预测
配体结合亲和力预测任务涉及估计蛋白质(受体)和小分子(配体)之间的相互作用强度 [143]。在这一领域的准确预测为设计和优化候选药物提供了显著优势。此外,它们有助于优先考虑化合物进行实验评估,从而简化药物发现过程。
对称性保留:显然,结合亲和力在任何变换下都不会改变。
数据集:CrossDocked2020 [66] 包含超过 2200 万个配体-受体复合物及其相应的结合亲和力值,这些复合物是通过将配体对接进同一结合口袋的多个受体结构生成的。PDBbind [168] 提供了准确可靠的结合亲和力数据,使研究人员能够评估计算方法在预测蛋白质和配体之间结合强度方面的表现。
方法:MaSIF [68] 利用测地空间表示蛋白质表面,将几何和化学特征分配给补丁,并使用旋转不变性处理这些特征,从而促进蛋白质-配体相互作用的预测。ProtNet [257] 考虑了不同层次的 3D 蛋白质表示(例如,氨基酸层次、骨架层次和全原子层次)来完成亲和力预测任务。GET [143] 通过统一分子和蛋白质表示的不同层次来扩展这一概念。TargetDiff [86] 引入了一个扩散过程,逐步向坐标和原子类型添加噪声。该过程由 SE(3) 等变图神经网络(GNN)引导,结合结合自由能项,引导生成朝向高亲和力姿态。HGIN [304] 构建了一个层次不变图模型,以预测蛋白质突变导致的结合亲和力变化。BindNet [62] 设计了两个预训练任务,利用 Uni-Mol [306] 作为编码器,共同学习蛋白质和配体相互作用。
5.5.2 蛋白质-配体对接
该任务旨在预测施加在蛋白质和分子上的变换(例如旋转和平移),以便它们能够以最小的均方根偏差对接在一起。
数据集:PDBbind [168] 是蛋白质-蛋白质对接的主要数据集,包含超过 2200 万个配体对接进各自受体结构的姿态。通常,当前的方法根据时间顺序对数据集进行分割,利用这种组织进行训练和评估。
方法:最近,EquiBind [232] 和 TankBind [170] 通过利用等变图神经网络解决了盲对接问题。TankBind 还引入了三角函数约束以增强化合物合理性。为了进一步提高性能,DiffDock [41] 提出了一个在三组(T(3)、SO(3) 和 SO(2))上操作的扩散过程。相比之下,DESERT [169] 提供了一种独特的方法,首先勾勒出口袋形状,然后生成分子结构以绑定这些口袋。这种方法缓解了实验绑定数据稀缺的问题,并且不依赖于预定义的口袋-药物对。最近,FABind [193] 设计了具有几何感知能力的 GNN 层和高效的交互模块(例如界面消息传递),以统一口袋预测和对接阶段,从而实现快速准确的预测。
5.5.3 基于口袋的分子采样
基于口袋的分子采样技术旨在生成能够与蛋白质或其他生物分子目标上的特定口袋结合的小分子。
数据集:CrossDocked2020 [66] 是基于对接口袋采样分子的重要资源,包含约 2250 万个对接的蛋白质-配体对。
方法:Pocket2Mol [194]、SBDD [172] 和 FLAG [302] 采用自回归方法生成以结合位点为条件的分子,操作粒度为原子或基序。相比之下,TargetDiff [86] 通过使用非自回归的 3D 等变扩散偏离了这种方法。这种方法使得所有原子能够同时生成,从而提高了效率。
5.6 蛋白质+蛋白质任务
“蛋白质+蛋白质”任务包括蛋白质界面预测、蛋白质-蛋白质结合亲和力预测、蛋白质-蛋白质对接、抗体设计和考虑抗体与抗原之间相互作用的肽设计。
5.6.1 蛋白质界面预测
许多生物过程是通过生物分子之间的相互作用完成的,这需要蛋白质-蛋白质界面预测,即识别蛋白质表面上可能与其他蛋白质相互作用的区域。
对称性保留:一旦选择了相互作用的蛋白质,无论对每个伙伴施加何种刚性变换,界面中的原子都是确定的,从而导致每个蛋白质的不变问题:
方法:dMaSIF [237] 和 SASNet [244] 通过在蛋白质三维结构上进行三维卷积来保持旋转不变性。此外,DeepInteract [184] 结合了更多的结构特征,如距离、方向和酰胺角,采用几何变换器,也取得了有竞争力的性能。
5.6.2 结合亲和力预测
蛋白质-蛋白质相互作用是生物分子活性的基础,对于许多生物过程中的关键功能至关重要。估计蛋白质之间的结合亲和力不仅有助于更深入地理解蛋白质的作用机制,而且也是设计具有特定功能的蛋白质(如高度特异性的抗体和高亲和力的配体)的基石。
对称性保留:这是一个不变任务,因为结合强度 s 在施加到蛋白质对的任何平移或旋转下保持不变。
数据集:PDBbind [259] 数据集由从蛋白质数据库(PDB)精心挑选的复合结构组成,并附有通过严格实验方法量化的结合亲和力。蛋白质-蛋白质亲和力基准版本 2 [130, 255] 包含 176 个多样化的蛋白质-蛋白质复合物,每个复合物都附有详细的亲和力注释。SKEMPI(突变蛋白质相互作用的速率和能量结构数据库)[183] 是一个经过精心策划的数据库,描述了由于突变导致的结合亲和力和动力学参数的变化。SKEMPI 2.0 [115] 是原始 SKEMPI 数据库的改进和扩展版本。
方法:mmCSM-PPI [209] 提出了一种结合亲和力预测方法,使用基于图的签名来封装蛋白质结构的物理化学和几何特性,并结合补充特征以反映各种机制。使用图签名和补充特征训练的 Extra Trees 模型在 SKEMPI 2.0 数据集上取得了有希望的结果。GeoPPI [164] 利用蛋白质的三维构象来确定几何表示,通过自监督学习方法体现蛋白质结构的拓扑特征。随后,这些表示作为梯度提升树的输入,有助于预测由于突变导致的蛋白质-蛋白质结合亲和力的变化。GET [143] 引入了一个双层设计,确保等变性,同时统一不同层次的表示。GET 在 PDB 数据集上实现了最先进的性能。
5.6.3 蛋白质-蛋白质对接
我们在 § 5.5.2 中研究了蛋白质和分子之间的对接姿态预测。在这里,我们研究蛋白质和蛋白质之间的类似问题。
对称性保留:这与公式 (66) 相同。
方法:Equidock [70] 使用 SE(3) 等变图神经网络和最优传输技术来通过对齐关键点预测变换。HMR [262] 将此任务从 3D 欧几里得空间转换到 2D 黎曼流形,保持旋转不变性。DiffDock-PP [131] 扩展了 DiffDock [41](一种扩散生成模型)到蛋白质对接任务,并取得了最先进的性能。此外,在 dMaSIF [238] 中,采用了一种基于能量、SE(3) 等变的模型,结合物理先验来推断对接区域。将对接视为优化问题,EBMDock [272] 采用几何深度学习从蛋白质残基中提取特征,并学习界面中涉及的残基之间的距离分布。多指标蛋白质对接可以通过 AlphaFold-Multimer [59] 和 SyNDock [116] 解决。最近,ElliDock [291] 预测 SE(3) 等变的椭圆抛物面作为蛋白质对的结合界面,并将刚性蛋白质-蛋白质对接任务转化为表面拟合,同时确保相同的自由度。还有一些工作针对抗体-抗原对接,这是蛋白质对接的一个子领域。HSRN [122] 提出了一个分层框架,以迭代方式处理对接。通过利用 tFold-Ab [271] 和 AlphaFold2 [128] 的能力,tFold-Ag [271] 生成抗体/抗原特征,并使用对接模块预测具有灵活性的复合结构。
5.6.4 抗体设计
抗体是由免疫系统产生的 Y 形对称蛋白质,能够识别并结合特定抗原。抗体设计主要集中在由重链和轻链组成的可变域上,每条链上交替排列着 3 个互补决定区(CDRs)和 4 个框架区。这 6 个 CDRs 在很大程度上决定了抗体的结合特异性和亲和力,尤其是 CDR-H3(即重链上的第 3 个 CDR),这是设计的主要范围。
方法:抗体在治疗学和生物学领域具有重要意义,因此许多工作致力于设计具有理想结合特异性和亲和力的抗体([141, 142, 123, 227, 73, 253, 178, 174])。RefineGNN [123] 首次尝试仅设计重链上的 CDRs。然后,MEAN [141] 和 DiffAb [174] 扩展到完整设置,其中整个复合物(即抗原、重链和轻链)没有 CDRs 作为上下文给出。值得注意的是,MEAN [141] 采用类似 GMN [102] 的多通道架构来编码残基的骨架原子,并提出了一种等变注意力机制来捕捉不同几何组件之间的相互作用。逐步地,MEAN 升级为 dyMEAN [142],提出了一种动态多通道编码器来捕捉残基的全原子几何结构,并处理更具挑战性的设置,其中需要生成抗体的整个结构和对接姿态,而不是作为上下文给出。DiffAb [174] 提出了一个用于抗体设计的扩散生成模型。类似地,AbDiffuser [178] 也采用了基于扩散的生成模型,但进一步将每个侧链投影到 4 个伪碳原子以捕捉全原子几何结构,并通过序列中的占位符处理长度变化。ADesigner [240] 提出了一个交叉门 MLP 来促进序列和结构的整合。与上述方法不同,AbODE [253] 探索了用于抗体设计的图 PDE。进一步,Gao 等人 [73] 利用预训练的抗体语言模型来提高序列-结构协同设计的质量,而 tFold-Ab [271] 也采用预训练语言模型(即 ESM-PPI),以及特征更新(即 Evoformer-Single)和结构模块,以实现从序列直接高效准确地预测抗体结构。
5.6.5 肽设计
肽由短的氨基酸序列组成,介于小分子和蛋白质之间,在各种生物功能中起着关键作用。其独特的位置使得功能肽设计在生物研究和治疗应用中特别有吸引力 [65, 149]。
任务定义:与抗体设计类似,肽设计通常涉及为靶蛋白上的给定结合区域生成结合肽。将目标表示为,将肽表示为,我们可以将任务形式化如下:
对称性保留:类似于抗体设计,模型的输出需要在序列分布上保持不变性,在结构分布上保持 E(3) 群的等变性。
数据集:PepBDB [270] 收集了 13k 个蛋白质-肽复合物,其中肽含有少于 50 个残基,来自蛋白质数据库 [19]。Tsaban 等人 [249] 策划了一个多样且非冗余的数据集,包含 96 个蛋白质-肽复合物,肽的长度在 4 到 25 个残基之间,称为长非冗余(LNR)数据集。Kong 等人 [144] 进一步收集了 6k 个非冗余蛋白质-肽复合物,肽的长度也在 4 到 25 个残基之间,并根据受体的序列同一性进行训练和验证的划分,使用 LNR 作为测试集。
方法:传统方法依赖于经验能量函数在残基或片段级别上采样和优化序列和结构 [20, 26],而几何分子设计的最新进展为深度生成模型提供了启示。HelixGAN [279] 专注于具有 α-螺旋的肽子家族。RFDiffusion [267] 最初设计用于蛋白质生成,也探索了针对特定目标的肽设计的监督微调。PepGLAD [144] 更进一步,通过几何潜在扩散模型处理序列-结构协同设计。
5.7 其他领域的任务
我们简要回顾了在晶体和 RNA 等其他领域的应用。
5.7.1 晶体性质预测
在材料科学领域,晶体结构性质的预测是新材料的创新基石。与由有限数量的原子组成的分子或蛋白质不同,晶体以其在整个无限三维空间中的周期性重复为特征。主要的挑战之一是使用几何图神经网络捕捉这种独特的周期性。
数据集:Materials Project (MP) [113] 和 JARVIS-DFT [38] 是两个常用的数据集。特别是,MP 是一个开放访问数据库,包含超过 150k 个晶体结构,其多种性质通过 DFT 计算收集。JARVIS-DFT 是 Joint Automated Repository for Various Integrated Simulations (JARVIS) 的一部分,也通过 DFT 计算,并提供了材料如太阳能效率和磁矩等更多独特的性质。
方法:为了考虑周期性,CGCNN [277] 提出了多边图构建,以模拟跨越周期边界的相互作用。MEGNet [33] 在消息传递过程中额外更新全局状态属性。ALIGNN [36] 为原子键图及其线图组合了两个 GNN,以捕捉原子三元组之间的相互作用。ECN [129] 将空间群对称性引入 GNN,以获得更强大的表达能力。Matformer [287] 利用自连接边,将晶格矩阵 ~L 显式引入基于变换器的框架。为了利用大量未标记数据,Crystal Twins [177] 应用了两个对比框架,Barlow Twins [294] 和 SimSiam [34] 来预训练 CGCNN 模型,而 MMPT [289] 提出了一个互斥掩码策略,强制模型从晶体的两个不相交部分学习表示。
5.7.2 晶体生成
除了预测三维晶体的不变性质外,几何图神经网络的快速发展也为从头材料设计铺平了道路,其目标是生成现有数据库之外的新晶体结构。
任务定义:晶体生成方法通常将几何图神经网络整合到深度生成框架中,旨在从给定数据集中学习分布,通过从学习到的分布中采样来生成新晶体:
对称性保留:与性质预测任务类似,学习到的分布也需要在 E(3) 群和周期性方面保持不变。
数据集:CDVAE [278] 收集了三个数据集,分别命名为 Perov-5 [27, 28]、Carbon-24 [196] 和 MP-20 [113],以评估生成模型在不同晶体分布上的表现。
方法:CDVAE [278] 将基于扩散的解码器整合到基于 VAE 的框架中,首先从潜在空间预测晶格参数,然后根据预测的晶格更新原子类型和坐标。SyMat [175] 通过将原子类型生成为置换不变集,并使用坐标分数匹配进行边更新,改进了这种方法。DiffCSP [118] 最初旨在从给定成分预测晶体结构,也擅长从头生成结构。DiffCSP 采用分数坐标而不是笛卡尔坐标,并通过基于扩散的框架联合生成晶格矩阵、原子类型和坐标。DiffCSP++ [119] 扩展了 DiffCSP,增加了晶格族和 Wyckoff 坐标的条件,以保持空间群约束。最近,MatterGen [295] 进一步推动了联合扩散方法,并将晶格扩散过程专门化为立方优先和旋转固定。
5.7.3 RNA 三维结构排序
RNA,即核糖核酸,是一种关键的分子类型,其作用远超传统上作为 DNA 和蛋白质合成之间的中介。其功能在很大程度上依赖于其复杂的三维结构,因此 RNA 的三维构象的预测和排序至关重要。这种结构复杂性使 RNA 能够参与基因调控、细胞通信和催化,突显了其在基本生命过程中的重要性。因此,RNA 处于分子生物学和生物技术研究的前沿。
任务定义:在这里,我们将三维 RNA 结构排序任务定义为从一组不精确的结构中识别出最能准确反映 RNA 实际形状的结构。换句话说,需要评分模型 ✓ 评估每个候选三维 RNA 结构(表示为几何图)与真实结构之间的均方根偏差(RMSD):对称性保留:这显然是一个不变任务,因为候选结构与真实结构之间的 RMSD 值在施加于候选结构的任何平移或旋转下保持不变。
方法:ARES [246] 利用 e3nn [79] 来建模 RNA 的三维结构,确保在更新原子特征时的等变性和不变性。ARES 然后聚合所有原子的特征来预测 RMSD 值。相比之下,PaxNet [296] 采用了一个两层多重图来建模 RNA 的三维结构。一层捕捉局部相互作用,另一层关注非局部相互作用。
数据集:ARES [246] 使用 FARFAR2-Classics 数据集 [43] 中的 18K 条记录作为其训练和验证集。此外,他们还构建了两个测试集:第一个测试集从 FARFAR2-Puzzles 数据集 [43] 中选出;第二个测试集根据特定标准策划,并使用 FARFAR2 rna denovo 应用程序构建。
6 讨论与未来展望
尽管在这一领域取得了很大进展,但仍有许多开放的研究方向。我们讨论几个例子如下。
几何图基础模型。近期 AI 研究的进展,如 GPT 系列 [200, 201, 25] 和 Gato [207] 等模型的显著进步,通过在各种任务和领域中采用统一的基础模型带来了巨大的优势。基础模型减少了为各个领域手动设计归纳偏置的必要性,放大了训练数据的量和多样性,并有望随着数据、计算资源和模型复杂性的增加而进一步增强。自然地,我们可以模仿这种成功到几何领域。然而,这仍然是一个有趣的开放问题,尤其是考虑到以下设计空间。1. 任务空间:如何预训练一个对各种下游任务普遍有益的大规模模型?2. 数据空间:如何构建一个能够同时提取跨越不同类型或尺度几何数据的丰富信息的基础模型?3. 模型空间:如何在容量和表达能力方面真正扩展模型,以便更多知识可以被捕获和存储在模型中?尽管一些初步工作(如 EPT [120])设法在小分子和蛋白质上预训练一个统一模型,但仍然缺乏一个能够处理更多种类输入数据和任务的通用模型。
模型训练与现实世界实验验证之间的有效循环。与视觉和 NLP 中的典型应用不同,科学中的任务通常需要昂贵的劳动力、计算资源和仪器来生成数据、进行验证和记录结果。现有研究通常采用开环风格,即事先收集数据集,并在这些数据集上离线评估提出的模型。然而,这种方法存在两个显著问题。首先,构建的数据集通常很小且不足以训练几何图神经网络,尤其是对于配备大规模参数的数据饥渴基础模型。其次,仅在独立数据集上评估模型可能无法反映来自现实世界的反馈,导致对模型真实能力的评估不太可靠。这些问题可以通过在模型预测和实验验证之间建立闭环来有效解决,从而训练和测试几何图神经网络。一个显著的例子是 GNoME [181],它集成了一条端到端管道,包括图网络训练、DFT 计算和自主实验室,用于材料发现和合成。预计这种研究范式将在未来与科学应用相关的研究中变得越来越重要。
与大型语言模型(LLMs)的整合。大型语言模型(LLMs)已被广泛证明拥有丰富的知识,涵盖各个领域。此外,还开发了特定领域的语言模型代理(LMAs),在特定领域表现出高水平的专业知识 [22, 165]。鉴于许多讨论的任务与自然科学(如物理学、生物化学和材料科学)密切相关,这些领域通常需要对特定领域知识的深入理解,因此通过将 LLM 代理整合到几何图神经网络(GNNs)的训练和评估管道中,增强现有知识库变得具有吸引力。这种整合有望通过利用 LLMs 提供的全面知识表示来增强 GNNs 的能力,从而可能提高这些模型在科学应用中的性能和鲁棒性。尽管已有一些工作利用 LLMs 进行某些任务,如分子性质预测和药物设计,但它们仅在基序 [114, 163] 或分子图 [297] 上操作。将它们与几何图神经网络连接起来,使管道能够处理三维结构信息并进行预测和/或生成三维结构,仍然具有挑战性。
放松等变性。尽管等变性无疑对增强数据效率和促进跨不同数据集的泛化至关重要,但值得注意的是,严格遵守等变性原则有时会过度约束模型,可能损害其性能。因此,深入研究提供一定程度放松等变性约束的方法具有重要意义。通过探索在保持等变性和适应性之间取得平衡的方法,研究人员可以开辟增强模型实际效用的新途径。这种探索不仅可以丰富我们对模型行为的理解,还可以为开发更稳健和多功能的解决方案铺平道路,具有更广泛的应用性。
7 结论
在这篇综述中,我们系统地研究了几何图神经网络(GNNs)的进展,通过数据结构、模型及其应用的视角。我们将几何图指定为数据结构,它在存在几何信息的情况下推广了图的概念,并允许在某些变换下保持关键的对称性。我们将几何 GNNs 作为模型,包括不变 GNNs、基于标量化/高阶可控等变 GNNs 和几何图变换器。我们通过数据和任务的分类法详尽讨论了它们的应用,包括物理学、生物化学和其他领域(如材料和 RNA)中的单实例和多实例任务。我们还讨论了几何 GNNs 的挑战和未来潜在方向。
https://arxiv.org/abs/2403.00485