如何训练你的HiPPO:具有广义正交基投影的状态空间模型

科技   2024-09-09 22:45   上海  

How to train your hippo: State space models with generalized orthogonal basis projections

如何训练你的HiPPO:具有广义正交基投影的状态空间模型

HiPPO: High-order Polynomial Projection Operators


后续更强更通用模型:

AI集大成!Scallop:神经符号编程语言: 符号、概率、可解释等强化学习等


https://arxiv.org/abs/2206.12037


摘要

线性时不变状态空间模型(SSM)是工程和统计学中的经典模型,最近通过结构化状态空间序列模型(S4)在机器学习中显示出非常大的潜力。S4的核心组成部分涉及将 SSM 状态矩阵初始化为一个特定的矩阵,称为 HiPPO 矩阵,这在处理长序列方面对 S4 的能力至关重要。然而,S4 实际上使用的特定矩阵是先前针对特定时变动态系统推导出来的,而将这个矩阵作为时不变 SSM 使用并没有已知的数学解释。因此,S4 模型长距离依赖的实际理论机制仍然没有解释清楚。我们推导出了 HiPPO 框架的更一般和直观的公式,它为 S4 提供了一个简单的数学解释,即将其分解为指数扭曲的 Legendre 多项式,解释了其捕获长距离依赖的能力。我们的推广引入了一个理论上丰富的 SSM 类,也让我们能够推导出更直观的 S4 变体,用于其他基底,如傅里叶基底,并解释了训练 S4 的其他方面,例如如何初始化重要的时间尺度参数。这些见解将 S4 在长距离竞技场基准测试中的表现提高到 86%,在最困难的 Path-X 任务中提高到 96%。

1 引言

结构化状态空间模型(S4)是一种基于连续时间动态系统的新型深度学习模型,已在多种序列建模任务中显示出潜力[7]。它被定义为线性时不变(LTI)状态空间模型(SSM),这赋予了它多重属性[6]:作为 SSM,S4 可以作为离散时间递归进行模拟,以提高在线或自回归设置中的效率,并且作为 LTI 模型,S4 可以转换为卷积,以在训练时实现并行化和计算效率。这些属性赋予了 S4 显著的计算效率和性能,特别是在建模连续信号数据和长序列时。

尽管 S4 有潜力,但其模型的多个方面仍然不为人所充分理解。最值得注意的是,Gu 等人[7]声称 S4 的长距离效应来自于用他们称之为 HiPPO 矩阵的特定矩阵实例化它。然而,这个矩阵实际上是先前针对特定时变系统推导出来的[5],而将这个矩阵用于时不变 SSM 并没有数学解释。因此,S4 真正建模长距离依赖的机制实际上并不知道。除了这种初始化之外,S4 的参数化和训练的其他方面仍然不为人所充分理解。例如,S4 涉及一个重要的时间尺度参数 ∆,并建议了一种参数化和初始化此参数的方法,但没有讨论其含义或提供理由。

这项工作旨在全面阐述 S4 的几个理论方面。这项工作的主要贡献是提出了一个更清晰、更直观且更通用的 HiPPO 框架公式。这一结果直接概括了这一研究线之前所有已知的结果[5, 6, 7, 13]。作为这个框架的直接结果:

• 我们证明了 S4 状态矩阵 A 的理论解释,解释了 S4 通过相对于无限长、指数衰减的度量分解输入来捕获长距离依赖的能力(图 1(左))。

• 我们推导出了新的 HiPPO 矩阵和相应的 S4 变体,它们概括了其他优秀的基函数。例如,我们的新方法 S4-FouT 产生了截断的傅里叶基函数。这种方法因此自动捕获滑动傅里叶变换(例如 STFT 和频谱图),这是作为手工信号处理工具无处不在的,并且还能表示任何局部卷积,从而概括了传统的 CNN(图 1(中))。

• 我们对时间尺度 ∆ 提供了一个直观的解释,它精确地解释为控制模型捕获的依赖长度。我们的框架使得如何为给定任务初始化 ∆,以及如何初始化其他参数(特别是最后一个 SSM 参数 C)以使深度 SSM 保持方差和稳定变得透明。

在实证上,我们在合成函数重建和记忆任务上验证了我们的理论,展示了状态空间模型在几个设置中的实证性能是由理论预测的。例如,我们的新 S4-FouT 方法,可以证明地将一个尖峰函数编码为其卷积核,在连续记忆任务中的表现优于其他 SSM 和其他模型,当正确初始化 ∆ 时。最后,我们展示了原始的 S4 方法仍然在非常长的依赖范围内表现最佳,在 Long Range Arena 上达到了 86% 的平均新最佳水平,在其他 S4 变体也难以应对的最困难的 Path-X 任务上达到了 96%。


2 背景

2.1 状态空间模型:一种连续时间潜在状态模型

状态空间模型(SSM)由简单的微分方程(1)和(2)定义。它将一维输入信号 u(t) 映射到 N 维潜在状态 x(t),然后投影到一维输出信号 y(t)。

在本文的剩余部分,我们将假设 D = 0 并为了简化而省略它,除非特别提及。

SSMs 通常可以具有随时间变化的动态,即矩阵 A, B, C, D 是 t 在(1)和(2)中的函数。然而,当它们是常数时,系统是线性时不变的(LTI),相当于一个卷积系统(3)。函数 K(t) 称为脉冲响应,也可以定义为当输入 u(t) = δ(t) 是脉冲或狄拉克δ函数时系统的输出。我们将这些称为时不变状态空间模型(TSSM)。这些特别重要,因为与卷积的等价性使得 TSSMs 可以并行化并且计算速度非常快,这对于 S4 的效率至关重要。

我们将分别考虑 SSMs 的(A, B)参数和 C 参数。我们将将 SSM 称为元组(A, B, C)(指的是(3))或(A, B)(指的是定义 1),当上下文不含糊时。我们还将在上下文明确为时不变的情况下省略 TSSM 中的 T。

 具有时间尺度的离散 SSM。要应用于离散输入序列(u0, u1, ...)而不是连续函数 u(t),必须通过一个代表输入分辨率的步长 ∆ 来离散化(1)。从概念上讲,输入 uk 可以被视为对隐含的连续信号 u(t) 的采样,其中 uk = u(k∆)。类似于 SSM 既可以作为动态系统(1)也可以作为连续卷积(3)的等价形式,离散时间 SSM 可以作为递归或离散卷积来计算。计算离散时间 SSM 的机制已在以前的工作中讨论过 [6, 7]。对于我们的目的,我们只需要以下事实:对于先前工作中使用的标准离散化方法,以步长 ∆ 离散化状态空间(A, B)完全等同于以步长 1 离散化状态空间(∆A, ∆B)。这允许将 ∆ 简单地视为调节 SSM 参数(A, B)而不是表示步长。

先前工作中一个不太理解的问题是如何解释和选择这个 ∆ 参数,特别是当输入 uk 并不实际来自均匀采样的潜在连续信号时。S4 指定在范围中以对数均匀方式初始化 ∆,但没有提供具体的理由。在第 3.3 节中,我们展示了 ∆ 的一个更简单的解释,直接以离散输入序列中的依赖长度为术语。


2.2 HiPPO:高阶多项式投影算子HiPPO: High-order Polynomial Projection Operators

S4 被定义为一个 TSSM,其中(A, B)用一个特定公式(4)初始化。这在 [7] 中被称为 HiPPO 矩阵,但实际上只是 [5] 中导出的几个这样的特殊矩阵之一。为了区分 S4 的其他变体,我们提到使用这个 HiPPO SSM 的完整 S4 方法为 S4-LegS。本文考虑的其他情况包括先前工作中的 LegT(5)和我们引入的 FouT(6)。

这些矩阵最初是出于对输入信号进行“在线记忆”的问题而提出的。关键思想是,对于适当选择的 SSM 基 A, B,那么在任何时间 t,当前状态 x(t) 都可以用来近似重构直到时间 t 的整个输入 u(图 2)。

主要的理论思想如下。假设基函数满足定义 2。

在时间不变正交状态空间模型(TOSSM)的情况下,Kn(t, s) =: Kn(t − s)(仅依赖于 t − s),这给出了我们的定义 1,其中度量 ω(t − s) := ω(t, s) 和基 pn(t − s) := pn(t, s)。

为了更具体地说明术语,pn(t) 和 ωn(t) 分别被称为正交 SSMs(定义 2)的基和度量,而 Kn(t) 被称为 SSM 基核,这更一般地适用于所有 SSMs(定义 1)。从上下文、符号和“核”一词指的是 Kn(t) 可以明确区分。

对于 OSSMs,(p, ω) 和 K 由彼此唯一确定,所以我们可以通过任何一个来引用 OSSM。一个方向是显而易见的:(p, ω) 通过 Kn(t, s) = pn(t, s)ω(t, s) 确定 K。


HiPPO 可以被视为一个框架,用于推导出满足(7)的特定 SSMs。原始的 HiPPO 方法及其推广 [5, 6] 主要关注 pn 是正交多项式的情况,并且特别寻找(7)的解,这些解最终被证明是 SSMs。我们已经在定义 2 中重新表述了 HiPPO 的定义,直接从 SSMs 开始。

我们讨论之前引入的两个最重要的情况。

HiPPO-LegT。(5)是一个 TOSSM,它近似于截断的 Legendre 多项式(图 3)。


这个特定的系统是 HiPPO 的前身,也被称为 Legendre 延迟网络(LDN)或 Legendre 记忆单元(LMU)[13, 14]。这个系统的最初动机并不是通过 HiPPO 的在线函数逼近公式,而是通过寻找一个最优的 SSM 近似来表示具有脉冲响应 K(t) = δ(t − 1) 的延迟网络,该网络代表时间滞后 1 个时间单位的输出(图 3)。我们在第 3.2 节中陈述并提供了这个结果的另一种证明,即定理 9。

HiPPO-LegS。与作为线性时不变系统(LTI)的 HiPPO-LegT 情况(即 TOSSM)不同,HiPPO-LegS 矩阵(4)旨在用于时变系统。与 HiPPO-LegT 不同,后者在滑动窗口 [t - 1, t] 上重构到截断的 Legendre 多项式,HiPPO-LegS 在“缩放”窗口 [0, t] 上重构到 Legendre 多项式;由于窗口随时间变化,系统不是时不变的(图 2)。


然而,S4 模型在时不变 SSM(1)中应用了完全相同的公式(4),即省略了项,这在数学上没有解释。换句话说,虽然是一个 OSSM,但人们不知道 TSSM (A, B) 是否是一个 TOSSM。鉴于 SSM 模型的性能对这些矩阵 A [7, 9] 非常敏感,为什么这种方法有效仍然是一个谜。在第 3 节中,我们将证明(4)实际上确实对应于一个 TOSSM。

LSSL。虽然 HiPPO 最初只展示了涉及 Legendre 多项式的上述两种情况(以及另一种称为 LagT 的情况,涉及 Laguerre 多项式,这不会成为本工作的重点),后续工作表明,存在对应于所有正交多项式族的 OSSM。我们更一般的框架也将包含这些结果。

命名约定。我们使用 HiPPO-[SSM] 来指代适用于在线函数逼近的固定 OSSM (A, B),其中 [SSM] 是一个后缀(例如 LegS, LegT),它缩写了相应的基函数(例如 scaled Legendre, truncated Legendre)。S4-[SSM] 指的是相应的可训练层 (A, B, C),其中 C 是随机初始化的,通过 S4 的表示和计算算法 [7] 进行训练。


3 广义 HiPPO:一般正交基投影

在第 3.1 节中,我们证明了 LTI HiPPO-LegS 实际上是一个 TOSSM 并展示了其基函数的封闭公式。在第 3.2 节中,我们包括了更多关于有限窗口 SSMs 的具体结果,包括引入一种基于截断傅里叶函数的新方法 HiPPO-FouT,以及证明了之前建立的猜想。第 3.3 节展示了 TOSSMs 的更一般性质,这些性质为解释和初始化 SSM 参数(如时间尺度 ∆)提供了指导。

我们的主要内容,即完全通用的结果,是附录 C.2 中的定理 12,它描述了一种非常通用的方法来派生各种 SSM 基函数 Kn(t, s) 的 OSSMs。这个结果可以以多种方式实例化,以概括这一研究线之前的所有结果。

3.1 解释 S4-LegS

我们展示了(4)中的矩阵 (A, B) 与定理 5 中定义的 Legendre 多项式 Ln 有着深刻的联系。


作为推论 3.1 的更具体的推论,我们恢复了矩阵(4)中的原始时变解释,以及将 LegS 作为时不变系统的实例化。如果我们设置,那么我们就在定理 5 中恢复了尺度不变的 HiPPO-LegS OSSM。



3.2 有限窗口时不变正交 SSM

在本节的剩余部分,我们限制在时不变 SSM 设置(3)中。定理 12 的第二个重要实例涵盖了 SSM 基函数 Kn(t) 中存在不连续性的情况,这需要无限维 SSM 来表示。当 Kn(t) 支持在有限窗口上时,最发生重要的类型的不连续性,这些 TSSM 代表滑动窗口变换。

我们首先基于广泛使用的傅里叶基导出一种新的滑动窗口变换(第 3.2.1 节)。我们还证明了将有限窗口方法与延迟网络相关联的结果(第 3.2.2 节)。

3.2.1 S4-FouT

利用不必然要求多项式作为基函数的更一般框架(定理 12),我们导出了一个投影到截断傅里叶函数的 TOSSM。

这个 SSM 对应于傅里叶级数分解,这是信号处理中的一种无处不在的工具,但表示为状态空间模型。对于状态大小 N = 1024,基在图 1(中间)中进行了可视化。

使用这些表现良好的基函数的好处是,我们可以利用傅里叶分析的经典结果。例如,很明显,取截断傅里叶基的线性组合可以表示 [0, 1] 上的任何函数,因此 S4-FouT 可以表示任何局部卷积(即现代卷积神经网络的层)。


3.2.2 近似延迟网络

这些有限窗口 TSSMs 的一个有趣特性是它们可以近似延迟函数。这被定义为具有脉冲响应 K(t) = δ(t − 1) 的系统:那么 y(t) = (K * u)(t) = u(t − 1),这意味着 SSM 输出输入的时间滞后版本。这种能力与 HiPPO 直观地联系在一起,因为为了做到这一点,系统必须在所有时间 t 记住整个窗口 u([t − 1, t]),换句话说,执行近似函数重构。任何涉及有限窗口的 HiPPO 方法都应该具备这种能力,特别是有限窗口方法 LegT 和 FouT。


定理 8 在图 1 和图 3(右)中进行了可视化。此外,对于有限的 N,LegT 的结果可以更紧密地描述。实际上,这正是 LDN/LMU [13, 14] 的最初动机,它从期望的延迟函数脉冲响应 K(t) = δ(t − 1) 的传递函数反向工作,并注意到 Padé 近似的 SSM 与 Legendre 多项式相关联。这一点当时没有得到完全证明,我们在这里陈述并在附录 C.4 中提供了完整证明。


我们注意到,尽管 LegT(LMU)旨在通过 Padé 近似成为延迟函数的“最优”近似,但它实际上产生的脉冲函数比 FouT(图 3 与图 1)要弱,并且在实证上在测试这一能力的合成任务上表现略逊一筹(第 4.3 节)。这可能是因为拉普拉斯域中的 Padé 近似并不一定能转化为时域中的局部化。


3.3 时不变正交 SSM 的属性:时间尺度和归一化

我们描述了 TOSSMs 的几个一般属性,这些属性让我们能够回答以下问题:

- 所有参数(A, B, C)应该如何初始化,以便 SSM 层被正确归一化?

- ∆ 直观上代表什么,以及在 SSM 模型中应该如何设置它?

结果发现,对于 TOSSMs,这两个问题密切相关,并且有直观的解释。

封闭属性。首先,几个基本变换保留了 TOSSMs 的结构。考虑一个具有基函数 pn(t) 和度量 ω(t) 的 TOSSM (A, B)。那么,对于任何标量 c 和酉矩阵 V,以下也是具有相应基函数和度量的 TOSSMs(附录 C.5,命题 13):

归一化。训练深度学习模型的一个标准方面通常涉及激活的规模或方差。这已经成为深度学习模型训练动态理论研究的主题,涉及诸如梯度爆炸/消失问题 [11] 等,以及大量确保方法得到适当归一化的归一化方法,从简单的 Xavier/He 初始化 [4, 10] 到 BatchNorm 和 LayerNorm [1, 12],以及这些方法的许多现代变体和分析 [3]。以下命题成立,因为对于 TOSSM,x(t) 可以被解释为在希尔伯特空间中正交函数上的投影(命题 2)。

请注意,通过简单地重新缩放 B 可以满足概率度量要求。推论 3.4 表明 TOSSM 保留了输入的方差,这是深度学习层正确归一化的关键条件。

请注意,C 的初始化与深度神经网络中的标准线性层不同,后者通常根据其维度(如 N - 1/2 [4])进行缩放。

时间尺度。如第 2 节所讨论的,从连续时间转换到离散时间涉及一个参数 ∆,该参数代表离散化的步长。当直接处理离散数据时,这是一个不直观的量,特别是如果它不是从潜在的连续过程中采样的。

我们观察到以下事实:对于所有标准离散化方法(例如欧拉法、后向欧拉法、广义双线性变换、零阶保持 [6]),离散化系统仅依赖于 (A, B) 和 ∆ 通过它们的乘积 (∆A, ∆B)。这意味着在步长 ∆ 下离散化的 SSM (A, B) 在计算上等同于在步长 1 下离散化的 SSM (∆A, ∆B)。

因此,∆ 可以被视为基础 SSM 的标量缩放,而不是改变输入的速率。在 TOSSMs 的背景下,这只是缩放了底层的基和度量(标量缩放)。更广泛地说,缩放一个通用 SSM 只是改变了它的时间尺度或演化速率。


最直观的例子是对于有限窗口 TOSSM,如 LegT 或 FouT。以步长 ∆ 离散化这个系统等同于考虑系统 (∆A, ∆B) 以步长 1 运行,这产生了正好支持在上的基函数。时间尺度 ∆ 的解释引出了先前连续时间结果的简单离散时间推论。例如,LegT 和 FouT 在离散时间中代表 1/∆ 个元素的滑动窗口。

这次讨论激发了以下定义。正确归一化的 TOSSMs (A, B) 将模拟预期长度为 1 的依赖性,而 ∆ 调节它以模拟长度为的依赖性,允许对 TOSSM 的上下文大小进行细粒度控制。

根据这个定义,HiPPO-LegS 是时间尺度归一化的。这激发了 S4 在 (0.001, 0.1) 中以对数均匀方式初始化 ∆ 的做法,覆盖了合理的时间尺度(预期长度 10 到 1000)的几何范围。在第 4 节中,我们将展示当已知依赖性长度时,可以更精确地选择时间尺度。

我们最后指出,HiPPO-LegT 和 -FouT 是用度量 ■[0, 1] 导出的。然而,为了根据定义 4 正确归一化它们,我们选择将矩阵减半,使它们相对于 正交。

在我们的实验中使用的 S4-FouT 和 S4-LegT 方法使用了这些减半的版本。


3.4 讨论

表 1 总结了本节介绍的 TOSSMs 的结果,包括 Gu 等人 [5] 中定义的原始 HiPPO 方法以及我们的新方法。

我们注意到,原始的 HiPPO 论文还包括另一种基于拉盖尔多项式的方法,称为 LagT。由于拉盖尔多项式是关于 e−t

正交的,因此该系统旨在表示指数衰减的度量。然而,这种方法有些异常;它的表现通常比其他方法稍差,并且在经验上发现需要不同的超参数。例如,Gu 等人 [5] 发现,在置换 MNIST 数据集上,对于大多数 HiPPO 方法,将 ∆ 设置为大约 1/784 确实是最佳的,正如理论预测的那样。然而,HiPPO-LagT 在设置得更高时表现更好,最高可达 ∆ = 1.0。事实证明,这种方法以一种方式改变了基,使得它不是关于指数衰减度量正交的,而是关于常数度量 ■[0, ∞) 正交的,并且具有 ∞ 的时间尺度;这解释了为什么 ∆ 的超参数需要设置得更高。

总之,我们不推荐使用原始的 HiPPO-LagT,尽管它最初的动机是表示与指数衰减度量正交。相反,HiPPO-LegS(作为时间不变的 SSM)实际上表示指数衰减度量。

LSSL 和一般多项式 线性状态空间层 [6] 在 HiPPO 的基础上,将其整合到完整的深度 SSM 模型中,并且还推广了 HiPPO 理论,表明所有正交多项式都可以定义为某些 (A, B) 的 SSM 核。我们的框架更加强大,并且立即作为推论产生了 LSSL 的主要结果(附录),还可以用于非多项式方法(例如 FouT)。

这些结果表明,所有正交多项式基,包括截断和缩放的变体,都有相应的 OSSM 与多项式核。如果我们将这种特殊情况定义为多项式 OSSM(POSSM),那么我们已经推导出所有原始的 HiPPO 都是 POSSM。


4 实验

我们研究了我们提出的 S4 变体的经验权衡。我们将基于本文介绍的 TOSSM 的几个 S4 变体与称为 S4D 的更简单的对角 SSM 进行比较,这些 SSM 不是正交 SSM [8]。对应于我们的主要贡献,我们假设:

• S4-LegS 在稀疏记忆任务中表现出色,因为它表示非常平滑的卷积核,这些卷积核在无限长的度量下记忆输入(推论 3.3,图 1)。相反,它在密集信息的短程任务中不太合适,因为它会平滑信号。

• S4-FouT 在密集记忆任务中表现出色,因为它可以表示尖峰函数,这些函数可以在特定范围内挑选过去的元素(第 3.2.2 节)。然而,它在非常长程任务中不太合适,因为它表示一个有限的(局部)窗口。

• 可以根据给定任务中已知的时间依赖性精确初始化 ∆ 以提高性能。


4.1远程竞技场

 长程竞技场(LRA)基准是一套序列分类任务,旨在对长序列建模的序列模型进行压力测试。我们将 S4 的先前最佳状态再提高了 6 个百分点(表 2)。验证了我们的假设,S4-LegS 在最难的长程任务(Path-X)中表现非常强,该任务涉及长度为 16384 的稀疏依赖关系,FouT 无法解决,因为它是有限窗口方法。Path-X 任务还验证了第 3.3 节中的时间尺度理论。为了设置这些结果,我们根据任务中已知的依赖长度降低了 ∆ 的初始化。图 4 说明了正确设置 ∆ 的重要性。


4.2 理论:函数重建,时间尺度,归一化

图5证实了在线函数重建的HiPPO理论(命题2)对于提出的TOSSMs LegS和FouT。

我们额外构建了一个合成的重建任务(针对均匀度量),以测试S4变体是否可以学习重建。输入是一个白噪声序列u ∈ ❘4000。我们使用一个单层线性S4模型,状态大小N = 256和H = 256个隐藏单元。模型需要使用它们在最后一个时间步骤的输出,一个向量y4000 ∈ ❘256,通过一个线性探针重建输入的最后1000个元素。具体来说,损失函数是最小化\(\| u_{3000:4000} - Wy_{4000} \|_2^2\),其中W ∈ ❘1000×256是一个学习到的矩阵。

图6显示,理论上针对均匀度量进行重建的方法S4-LegT和S4-FouT,比其他方法要好得多。我们包括了在[8]中提出的新的对角变体(S4D),这些是通常表现良好的更简单的SSM方法,但在这个任务上没有学习到正确的函数。我们还包括了一种方法S4-(LegS/FouT),它通过简单地将SSM核的一半初始化为每个LegS和FouT度量来结合LegS和FouT度量。尽管拥有较少的S4-FouT核,但这仍然表现得和纯S4-FouT初始化一样好。

最后,我们验证了第 3.3 节中的归一化理论,该理论预测,对于适当归一化的 TOSSM,投影参数 C 应以单位方差初始化,这与深度神经网络的标准初始化相反,后者通过与 N 的大小(在这种情况下 N = 64)相关的因子进行归一化。表 3 显示了在 Sequential CIFAR (sCIFAR) 和 Speech Commands (SC) 数据集上使用最多 150K 参数的模型的分类结果。这复制了 [8, 第 5 节] 中“消融模型”的设置。结果显示,使用 C 的标准差 1.0 略优于其他选择,尽管差异通常很小。


4.3 记忆:延迟(连续复制)任务

接下来,我们研究合成重建能力如何转移到其他任务。延迟任务要求模型学习一个序列到序列的映射,其输出是输入延迟固定时间周期(图 7a)。对于循环模型,此任务可以解释为要求模型维护一个记忆缓冲区,该缓冲区不断记住它看到的最新元素。这种能力是勒让德记忆单元(Legendre Memory Unit)的原始动机,它是 HiPPO-LegT 的前身,专门设计用于解决此任务,因为它可以编码尖峰核(图 3)。在图 7b 中,我们看到我们的新 S4-FouT 实际上优于 S4-LegT,当时间尺度 ∆ 设置正确时,两者都优于所有其他方法。我们注意到,这个延迟仅为 1000 个时间步的任务对于 LSTM 和 Transformer 等基线来说太难了,它们在经验上没有比随机猜测学得更好(RMSE 0.43)。


5 总结:如何训练你的HiPPO

- SSMs代表卷积核,这些卷积核是由基函数(由A和B参数化)的线性组合(由C参数化)。

- HiPPO是一个通用的数学框架,用于生成与预定的良好行为基函数族相对应的矩阵A和B。我们推导出与指数缩放的勒让德族(LegS)和截断傅里叶函数(FouT)相对应的HiPPO矩阵。

  - HiPPO-LegS对应于原始的S4方法,产生非常平滑、长距离的核族(图1),在所有S4变体中仍然是处理长距离依赖性的最佳方法。

  - HiPPO-FouT是一种有限窗口方法,它包括局部卷积(例如,概括了普通的CNN,推论3.6),并捕获重要的变换,如滑动DFT或STFT。

- 独立于离散化的概念,时间尺度Δ简单地解释为控制依赖性的长度或SSM核的“宽度”。最直观地,对于如FouT这样的有限窗口方法,核的长度正好是1/Δ,它概括了深度学习中使用的标准局部卷积。

- 本工作的伴随论文基于这里介绍的理论,定义了一个使用对角状态矩阵的S4的简化版本(S4D),这些是对我们引入的正交SSM的近似,并且可以继承S4的强大建模能力[8]。它还包括在更多数据集上比较各种状态空间模型的实验,包括这里引入的S4变体(S4-LegS和S4-FouT)。






CreateAMind
ALLinCreateAMind.AGI.top , 前沿AGI技术探索,论文跟进,复现验证,落地实验。 鼓励新思想的探讨及验证等。 探索比大模型更优的智能模型。
 最新文章