Geometric Deep Learning | 几何深度学习:网格、群、图、测地线和规范 (一)

文摘   2024-07-08 19:00   中国香港  

点击上方“CVPaper”,选择加"星标"或“置顶

顶刊论文解读,第一时间分享

题目:Geometric Deep Learning: Grids, Groups, Graphs, Geodesics, and Gauges

几何深度学习:网格、群、图、测地线和规范

作者:Michael M. Bronstein, Joan Bruna, Taco Cohen, Petar Veličković

1 引言

在过去的十年中,数据科学和机器学习经历了一场实验革命,深度学习方法就是这种革命的典范。实际上,许多以前被认为无法实现的高维学习任务——如计算机视觉、围棋对弈或蛋白质折叠——在适当的计算规模下是可行的。值得注意的是,深度学习的本质是由两个简单的算法原则构建的:首先,表示或特征学习的概念,通过适应性、通常是分层的特征来捕捉每个任务的适当规律性;其次,通过局部梯度下降学习,通常实现为反向传播。
尽管在高维空间中学习通用函数是一个复杂的估计问题,但大多数感兴趣的任务并非通用任务,而是具有源于物理世界低维性和结构的基本预定义规律性。本系列旨在通过统一的几何原理揭示这些规律性,并将其应用于广泛的应用领域。
利用大系统的已知对称性是一种对抗维数灾难的强大而经典的方法,并构成了大多数物理理论的基础。深度学习系统也不例外,自早期以来,研究人员就适应神经网络以利用物理测量中出现的低维几何,例如图像中的网格、时间序列中的序列或分子中的位置和动量,以及它们相关的对称性,如平移或旋转。在我们的阐述过程中,我们将这些模型以及许多其他模型描述为几何规律性的自然实例。
这种“几何统一”努力具有 Erlangen 计划的精神,具有双重目的:一方面,它提供了一个共同的数学框架来研究最成功的神经网络架构,如 CNN、RNN、GNN 和 Transformers;另一方面,它提供了一种构建性的程序,将先验物理知识纳入神经架构,并为未来尚未发明的架构提供原则性构建方法。
在继续之前,值得注意的是,我们的工作涉及表示学习架构和利用数据中的对称性。许多激动人心的管道可能会使用这些表示(如自监督学习、生成建模或强化学习),但这些不是我们的中心焦点。因此,我们不会深入回顾诸如变分自编码器(Kingma 和 Welling,2013)、生成对抗网络(Goodfellow 等,2014)、归一化流(Rezende 和 Mohamed,2015)、深度 Q 网络(Mnih 等,2015)、近端策略优化(Schulman 等,2017)或深度互信息最大化(Hjelm 等,2019)等影响深远的神经管道。尽管如此,我们相信我们将关注的原则在所有这些领域都具有重要意义。
此外,虽然我们试图尽可能广泛地展示我们的几何蓝图的力量,但我们的工作并不试图准确地总结几何深度学习的全部现有研究。相反,我们深入研究了几种流行架构,以展示这些原则并将其与现有研究联系起来,希望我们提供了足够的参考文献,以便读者能够有意义地将这些原则应用于他们遇到或设计的任何未来几何深度架构。

2 高维学习

监督机器学习,在其最简单的形式化中,考虑一组 个观测值 ,从定义在 上的基础数据分布 中独立同分布地抽取,其中 分别是数据域和标签域。这种设置的决定性特征是 是一个高维空间:通常假设 是一个大维度 的欧几里得空间。
让我们进一步假设标签 是由一个未知函数 生成的,使得 ,学习问题归结为使用参数化函数类 来估计函数 。神经网络是这种参数化函数类的常见实现,在这种情况下, 对应于网络权重。在这种理想化的设置中,标签中没有噪声,现代深度学习系统通常在所谓的插值状态下运行,其中估计的 满足 对所有 。学习算法的性能是通过使用某种损失 在从 中抽取的新样本上的期望性能来衡量的
其中平方损失 是最常用的损失之一。
因此,一个成功的学习方案需要为 编码适当的规律性或归纳偏置,通过构建函数类 和使用正则化来实现。我们将在下面的部分简要介绍这一概念。

2.1 通过函数规律性的归纳偏置

现代机器学习在大规模、高质量数据集下运行,这些数据集与适当的计算资源相结合,激励了设计具有插值这些大数据能力的丰富函数类 。这种心态与神经网络非常契合,因为即使是最简单的架构选择也能产生稠密的函数类。一个集合 如果其闭包
被称为在 中稠密。这意味着 中的任何一点都与 中的一点任意接近。一个典型的通用逼近结果表明,例如由两层感知器表示的函数类
上的连续函数空间中是稠密的。近似几乎任意函数的能力是各种通用逼近定理的主题;在 1990 年代,应用数学家和计算机科学家证明并普及了几种这样的结果(例如,参见 Cybenko(1989);Hornik(1991);Barron(1993);Leshno 等(1993);Maiorov(1999);Pinkus(1999))。
然而,通用逼近并不意味着缺乏归纳偏置。给定具有通用逼近的假设空间 ,我们可以定义一个复杂度度量 并将我们的插值问题重新定义为
即,我们在我们的假设类中寻找最规则的函数。对于标准函数空间,这个复杂度度量可以定义为一个范数,使 成为一个 Banach 空间,并允许我们利用泛函分析中的大量理论结果。在低维度中,样条函数是函数逼近的主力。它们可以如上所述进行公式化,使用一个范数捕捉经典的平滑性概念,例如二阶导数的平方范数
在神经网络的情况下,复杂度度量 可以用网络权重表示,即 。网络权重的 范数,称为权重衰减,或所谓的路径范数(Neyshabur 等,2015)在深度学习文献中是流行的选择。从贝叶斯角度看,这种复杂度度量也可以解释为感兴趣函数的先验的负对数。更一般地,这种复杂度可以通过将其纳入经验损失中显式地强制执行(导致所谓的结构风险最小化),或隐式地作为某种优化方案的结果。例如,众所周知,在欠定的最小二乘目标上的梯度下降会选择具有最小 范数的插值解。将这种隐式正则化结果扩展到现代神经网络是当前研究的主题(例如,参见 Blanc 等(2020);Shamir 和 Vardi(2020);Razin 和 Cohen(2020);Gunasekar 等(2017))。总之,一个自然的问题出现了:如何定义有效的先验,以捕捉真实世界预测任务的预期规律性和复杂性?

2.2 维度灾难

在低维度()下进行插值是一个经典的信号处理任务,通过使用越来越复杂的规律性类别(如样条插值、小波、曲波或脊波)可以非常精确地控制估计误差,而高维问题的情况则完全不同。
为了传达这个想法的本质,让我们考虑一个经典的规律性概念,它可以很容易地扩展到高维:1-利普希茨函数 ,即满足 对于所有 的函数。这个假设只要求目标函数在局部是平滑的,即如果我们稍微扰动输入 (通过范数 测量),输出 不能变化太大。如果我们对目标函数 的唯一了解是它是 1-利普希茨的,那么我们期望需要多少观测值来确保我们的估计 将接近 ?图 2 显示了这个问题的答案在维度 上必然是指数级的,这表明随着输入维度的增加,利普希茨类增长得“太快了”:在许多即使是适度维度的应用中,样本数量将大于宇宙中的原子数。如果用全局平滑性假设(如 Sobolev 类 )代替利普希茨类,情况也不会好转。
一个函数 属于 Sobolev 类 ,如果 并且广义的 阶导数是平方可积的:
其中 的傅里叶变换。实际上,经典结果(Tsybakov,2008)建立了 Sobolev 类的最小最大逼近和学习率为 ,表明对 的额外平滑性假设仅在 时改善统计情况,这在实践中是不现实的假设。
全连接神经网络定义了允许更灵活规律性概念的函数空间,通过考虑权重上的复杂度函数 获得。特别是,通过选择促进稀疏性的正则化,它们能够打破这种维度灾难(Bach,2017)。然而,这要以对目标函数 的性质做出强假设为代价,例如 依赖于输入的低维投影集合(参见图 3)。在大多数现实世界的应用中(如计算机视觉、语音分析、物理学或化学),感兴趣的函数往往表现出复杂的长程相关性,不能用低维投影表示(图 3),使得这种假设不现实。因此,有必要通过利用物理域的空间结构和 的几何先验来定义另一种规律性来源,如我们在后面中描述的那样。

图 2:我们考虑一个利普希茨函数 ,其中 被放置在每个象限中,并且 是一个局部支持的利普希茨“突起”。除非我们在大多数 个象限中观测到该函数,否则我们在预测它时会产生一个恒定的误差。这个简单的几何论证可以通过最大差异的概念形式化(von Luxburg 和 Bousquet,2004),定义为利普希茨类的 ,它测量两个独立的 样本期望之间的最大预期差异。确保 需要 ;对应的样本 定义了域的 -网。对于直径为 1 的 维欧几里得域,其大小以 指数级增长。

图 3:如果假设未知函数 可以很好地近似为 ,其中某个未知的 并且 ,那么浅层神经网络可以捕捉到这种归纳偏置,参见例如 Bach(2017)。在典型的应用中,这种对低维投影的依赖是不现实的,如本例所示:低通滤波器将输入图像投影到低维子空间;虽然它传达了大部分语义信息,但大量信息丢失。
(连载)

CVPaper
这里有知识和乐趣,感悟和哲理,一起来嗨!!!
 最新文章