如何训练你的HiPPO：具有广义正交基投影的状态空间模型

科技 2024-09-09 22:45 上海

How to train your hippo: State space models with generalized orthogonal basis projections

如何训练你的HiPPO：具有广义正交基投影的状态空间模型

HiPPO: High-order Polynomial Projection Operators

后续更强更通用模型：

https://arxiv.org/abs/2206.12037

摘要

线性时不变状态空间模型（SSM）是工程和统计学中的经典模型，最近通过结构化状态空间序列模型（S4）在机器学习中显示出非常大的潜力。S4的核心组成部分涉及将 SSM 状态矩阵初始化为一个特定的矩阵，称为 HiPPO 矩阵，这在处理长序列方面对 S4 的能力至关重要。然而，S4 实际上使用的特定矩阵是先前针对特定时变动态系统推导出来的，而将这个矩阵作为时不变 SSM 使用并没有已知的数学解释。因此，S4 模型长距离依赖的实际理论机制仍然没有解释清楚。我们推导出了 HiPPO 框架的更一般和直观的公式，它为 S4 提供了一个简单的数学解释，即将其分解为指数扭曲的 Legendre 多项式，解释了其捕获长距离依赖的能力。我们的推广引入了一个理论上丰富的 SSM 类，也让我们能够推导出更直观的 S4 变体，用于其他基底，如傅里叶基底，并解释了训练 S4 的其他方面，例如如何初始化重要的时间尺度参数。这些见解将 S4 在长距离竞技场基准测试中的表现提高到 86%，在最困难的 Path-X 任务中提高到 96%。

1 引言

结构化状态空间模型（S4）是一种基于连续时间动态系统的新型深度学习模型，已在多种序列建模任务中显示出潜力[7]。它被定义为线性时不变（LTI）状态空间模型（SSM），这赋予了它多重属性[6]：作为 SSM，S4 可以作为离散时间递归进行模拟，以提高在线或自回归设置中的效率，并且作为 LTI 模型，S4 可以转换为卷积，以在训练时实现并行化和计算效率。这些属性赋予了 S4 显著的计算效率和性能，特别是在建模连续信号数据和长序列时。

尽管 S4 有潜力，但其模型的多个方面仍然不为人所充分理解。最值得注意的是，Gu 等人[7]声称 S4 的长距离效应来自于用他们称之为 HiPPO 矩阵的特定矩阵实例化它。然而，这个矩阵实际上是先前针对特定时变系统推导出来的[5]，而将这个矩阵用于时不变 SSM 并没有数学解释。因此，S4 真正建模长距离依赖的机制实际上并不知道。除了这种初始化之外，S4 的参数化和训练的其他方面仍然不为人所充分理解。例如，S4 涉及一个重要的时间尺度参数 ∆，并建议了一种参数化和初始化此参数的方法，但没有讨论其含义或提供理由。

这项工作旨在全面阐述 S4 的几个理论方面。这项工作的主要贡献是提出了一个更清晰、更直观且更通用的 HiPPO 框架公式。这一结果直接概括了这一研究线之前所有已知的结果[5, 6, 7, 13]。作为这个框架的直接结果：

• 我们证明了 S4 状态矩阵 A 的理论解释，解释了 S4 通过相对于无限长、指数衰减的度量分解输入来捕获长距离依赖的能力（图 1（左））。

• 我们推导出了新的 HiPPO 矩阵和相应的 S4 变体，它们概括了其他优秀的基函数。例如，我们的新方法 S4-FouT 产生了截断的傅里叶基函数。这种方法因此自动捕获滑动傅里叶变换（例如 STFT 和频谱图），这是作为手工信号处理工具无处不在的，并且还能表示任何局部卷积，从而概括了传统的 CNN（图 1（中））。

• 我们对时间尺度 ∆ 提供了一个直观的解释，它精确地解释为控制模型捕获的依赖长度。我们的框架使得如何为给定任务初始化 ∆，以及如何初始化其他参数（特别是最后一个 SSM 参数 C）以使深度 SSM 保持方差和稳定变得透明。

在实证上，我们在合成函数重建和记忆任务上验证了我们的理论，展示了状态空间模型在几个设置中的实证性能是由理论预测的。例如，我们的新 S4-FouT 方法，可以证明地将一个尖峰函数编码为其卷积核，在连续记忆任务中的表现优于其他 SSM 和其他模型，当正确初始化 ∆ 时。最后，我们展示了原始的 S4 方法仍然在非常长的依赖范围内表现最佳，在 Long Range Arena 上达到了 86% 的平均新最佳水平，在其他 S4 变体也难以应对的最困难的 Path-X 任务上达到了 96%。

2 背景

2.1 状态空间模型：一种连续时间潜在状态模型

状态空间模型（SSM）由简单的微分方程（1）和（2）定义。它将一维输入信号 u(t) 映射到 N 维潜在状态 x(t)，然后投影到一维输出信号 y(t)。

在本文的剩余部分，我们将假设 D = 0 并为了简化而省略它，除非特别提及。

SSMs 通常可以具有随时间变化的动态，即矩阵 A, B, C, D 是 t 在（1）和（2）中的函数。然而，当它们是常数时，系统是线性时不变的（LTI），相当于一个卷积系统（3）。函数 K(t) 称为脉冲响应，也可以定义为当输入 u(t) = δ(t) 是脉冲或狄拉克δ函数时系统的输出。我们将这些称为时不变状态空间模型（TSSM）。这些特别重要，因为与卷积的等价性使得 TSSMs 可以并行化并且计算速度非常快，这对于 S4 的效率至关重要。

我们将分别考虑 SSMs 的（A, B）参数和 C 参数。我们将将 SSM 称为元组（A, B, C）（指的是（3））或（A, B）（指的是定义 1），当上下文不含糊时。我们还将在上下文明确为时不变的情况下省略 TSSM 中的 T。

具有时间尺度的离散 SSM。要应用于离散输入序列（u0, u1, ...）而不是连续函数 u(t)，必须通过一个代表输入分辨率的步长 ∆ 来离散化（1）。从概念上讲，输入 uk 可以被视为对隐含的连续信号 u(t) 的采样，其中 uk = u(k∆)。类似于 SSM 既可以作为动态系统（1）也可以作为连续卷积（3）的等价形式，离散时间 SSM 可以作为递归或离散卷积来计算。计算离散时间 SSM 的机制已在以前的工作中讨论过 [6, 7]。对于我们的目的，我们只需要以下事实：对于先前工作中使用的标准离散化方法，以步长 ∆ 离散化状态空间（A, B）完全等同于以步长 1 离散化状态空间（∆A, ∆B）。这允许将 ∆ 简单地视为调节 SSM 参数（A, B）而不是表示步长。

先前工作中一个不太理解的问题是如何解释和选择这个 ∆ 参数，特别是当输入 uk 并不实际来自均匀采样的潜在连续信号时。S4 指定在范围中以对数均匀方式初始化 ∆，但没有提供具体的理由。在第 3.3 节中，我们展示了 ∆ 的一个更简单的解释，直接以离散输入序列中的依赖长度为术语。

2.2 HiPPO：高阶多项式投影算子HiPPO: High-order Polynomial Projection Operators

S4 被定义为一个 TSSM，其中（A, B）用一个特定公式（4）初始化。这在 [7] 中被称为 HiPPO 矩阵，但实际上只是 [5] 中导出的几个这样的特殊矩阵之一。为了区分 S4 的其他变体，我们提到使用这个 HiPPO SSM 的完整 S4 方法为 S4-LegS。本文考虑的其他情况包括先前工作中的 LegT（5）和我们引入的 FouT（6）。

这些矩阵最初是出于对输入信号进行“在线记忆”的问题而提出的。关键思想是，对于适当选择的 SSM 基 A, B，那么在任何时间 t，当前状态 x(t) 都可以用来近似重构直到时间 t 的整个输入 u（图 2）。

主要的理论思想如下。假设基函数满足定义 2。

在时间不变正交状态空间模型（TOSSM）的情况下，Kn(t, s) =: Kn(t − s)（仅依赖于 t − s），这给出了我们的定义 1，其中度量 ω(t − s) := ω(t, s) 和基 pn(t − s) := pn(t, s)。

为了更具体地说明术语，pn(t) 和 ωn(t) 分别被称为正交 SSMs（定义 2）的基和度量，而 Kn(t) 被称为 SSM 基核，这更一般地适用于所有 SSMs（定义 1）。从上下文、符号和“核”一词指的是 Kn(t) 可以明确区分。

对于 OSSMs，(p, ω) 和 K 由彼此唯一确定，所以我们可以通过任何一个来引用 OSSM。一个方向是显而易见的：(p, ω) 通过 Kn(t, s) = pn(t, s)ω(t, s) 确定 K。

HiPPO 可以被视为一个框架，用于推导出满足（7）的特定 SSMs。原始的 HiPPO 方法及其推广 [5, 6] 主要关注 pn 是正交多项式的情况，并且特别寻找（7）的解，这些解最终被证明是 SSMs。我们已经在定义 2 中重新表述了 HiPPO 的定义，直接从 SSMs 开始。

我们讨论之前引入的两个最重要的情况。

HiPPO-LegT。（5）是一个 TOSSM，它近似于截断的 Legendre 多项式（图 3）。

这个特定的系统是 HiPPO 的前身，也被称为 Legendre 延迟网络（LDN）或 Legendre 记忆单元（LMU）[13, 14]。这个系统的最初动机并不是通过 HiPPO 的在线函数逼近公式，而是通过寻找一个最优的 SSM 近似来表示具有脉冲响应 K(t) = δ(t − 1) 的延迟网络，该网络代表时间滞后 1 个时间单位的输出（图 3）。我们在第 3.2 节中陈述并提供了这个结果的另一种证明，即定理 9。

HiPPO-LegS。与作为线性时不变系统（LTI）的 HiPPO-LegT 情况（即 TOSSM）不同，HiPPO-LegS 矩阵（4）旨在用于时变系统。与 HiPPO-LegT 不同，后者在滑动窗口 [t - 1, t] 上重构到截断的 Legendre 多项式，HiPPO-LegS 在“缩放”窗口 [0, t] 上重构到 Legendre 多项式；由于窗口随时间变化，系统不是时不变的（图 2）。

然而，S4 模型在时不变 SSM（1）中应用了完全相同的公式（4），即省略了项，这在数学上没有解释。换句话说，虽然是一个 OSSM，但人们不知道 TSSM (A, B) 是否是一个 TOSSM。鉴于 SSM 模型的性能对这些矩阵 A [7, 9] 非常敏感，为什么这种方法有效仍然是一个谜。在第 3 节中，我们将证明（4）实际上确实对应于一个 TOSSM。

LSSL。虽然 HiPPO 最初只展示了涉及 Legendre 多项式的上述两种情况（以及另一种称为 LagT 的情况，涉及 Laguerre 多项式，这不会成为本工作的重点），后续工作表明，存在对应于所有正交多项式族的 OSSM。我们更一般的框架也将包含这些结果。

命名约定。我们使用 HiPPO-[SSM] 来指代适用于在线函数逼近的固定 OSSM (A, B)，其中 [SSM] 是一个后缀（例如 LegS, LegT），它缩写了相应的基函数（例如 scaled Legendre, truncated Legendre）。S4-[SSM] 指的是相应的可训练层 (A, B, C)，其中 C 是随机初始化的，通过 S4 的表示和计算算法 [7] 进行训练。

3 广义 HiPPO：一般正交基投影

在第 3.1 节中，我们证明了 LTI HiPPO-LegS 实际上是一个 TOSSM 并展示了其基函数的封闭公式。在第 3.2 节中，我们包括了更多关于有限窗口 SSMs 的具体结果，包括引入一种基于截断傅里叶函数的新方法 HiPPO-FouT，以及证明了之前建立的猜想。第 3.3 节展示了 TOSSMs 的更一般性质，这些性质为解释和初始化 SSM 参数（如时间尺度 ∆）提供了指导。

我们的主要内容，即完全通用的结果，是附录 C.2 中的定理 12，它描述了一种非常通用的方法来派生各种 SSM 基函数 Kn(t, s) 的 OSSMs。这个结果可以以多种方式实例化，以概括这一研究线之前的所有结果。

3.1 解释 S4-LegS

我们展示了（4）中的矩阵 (A, B) 与定理 5 中定义的 Legendre 多项式 Ln 有着深刻的联系。

作为推论 3.1 的更具体的推论，我们恢复了矩阵（4）中的原始时变解释，以及将 LegS 作为时不变系统的实例化。如果我们设置，那么我们就在定理 5 中恢复了尺度不变的 HiPPO-LegS OSSM。

3.2 有限窗口时不变正交 SSM

在本节的剩余部分，我们限制在时不变 SSM 设置（3）中。定理 12 的第二个重要实例涵盖了 SSM 基函数 Kn(t) 中存在不连续性的情况，这需要无限维 SSM 来表示。当 Kn(t) 支持在有限窗口上时，最发生重要的类型的不连续性，这些 TSSM 代表滑动窗口变换。

我们首先基于广泛使用的傅里叶基导出一种新的滑动窗口变换（第 3.2.1 节）。我们还证明了将有限窗口方法与延迟网络相关联的结果（第 3.2.2 节）。

3.2.1 S4-FouT

利用不必然要求多项式作为基函数的更一般框架（定理 12），我们导出了一个投影到截断傅里叶函数的 TOSSM。

这个 SSM 对应于傅里叶级数分解，这是信号处理中的一种无处不在的工具，但表示为状态空间模型。对于状态大小 N = 1024，基在图 1（中间）中进行了可视化。

使用这些表现良好的基函数的好处是，我们可以利用傅里叶分析的经典结果。例如，很明显，取截断傅里叶基的线性组合可以表示 [0, 1] 上的任何函数，因此 S4-FouT 可以表示任何局部卷积（即现代卷积神经网络的层）。

3.2.2 近似延迟网络

这些有限窗口 TSSMs 的一个有趣特性是它们可以近似延迟函数。这被定义为具有脉冲响应 K(t) = δ(t − 1) 的系统：那么 y(t) = (K * u)(t) = u(t − 1)，这意味着 SSM 输出输入的时间滞后版本。这种能力与 HiPPO 直观地联系在一起，因为为了做到这一点，系统必须在所有时间 t 记住整个窗口 u([t − 1, t])，换句话说，执行近似函数重构。任何涉及有限窗口的 HiPPO 方法都应该具备这种能力，特别是有限窗口方法 LegT 和 FouT。

定理 8 在图 1 和图 3（右）中进行了可视化。此外，对于有限的 N，LegT 的结果可以更紧密地描述。实际上，这正是 LDN/LMU [13, 14] 的最初动机，它从期望的延迟函数脉冲响应 K(t) = δ(t − 1) 的传递函数反向工作，并注意到 Padé 近似的 SSM 与 Legendre 多项式相关联。这一点当时没有得到完全证明，我们在这里陈述并在附录 C.4 中提供了完整证明。

我们注意到，尽管 LegT（LMU）旨在通过 Padé 近似成为延迟函数的“最优”近似，但它实际上产生的脉冲函数比 FouT（图 3 与图 1）要弱，并且在实证上在测试这一能力的合成任务上表现略逊一筹（第 4.3 节）。这可能是因为拉普拉斯域中的 Padé 近似并不一定能转化为时域中的局部化。

3.3 时不变正交 SSM 的属性：时间尺度和归一化

我们描述了 TOSSMs 的几个一般属性，这些属性让我们能够回答以下问题：

- 所有参数（A, B, C）应该如何初始化，以便 SSM 层被正确归一化？

- ∆ 直观上代表什么，以及在 SSM 模型中应该如何设置它？

结果发现，对于 TOSSMs，这两个问题密切相关，并且有直观的解释。

封闭属性。首先，几个基本变换保留了 TOSSMs 的结构。考虑一个具有基函数 pn(t) 和度量 ω(t) 的 TOSSM (A, B)。那么，对于任何标量 c 和酉矩阵 V，以下也是具有相应基函数和度量的 TOSSMs（附录 C.5，命题 13）：

归一化。训练深度学习模型的一个标准方面通常涉及激活的规模或方差。这已经成为深度学习模型训练动态理论研究的主题，涉及诸如梯度爆炸/消失问题 [11] 等，以及大量确保方法得到适当归一化的归一化方法，从简单的 Xavier/He 初始化 [4, 10] 到 BatchNorm 和 LayerNorm [1, 12]，以及这些方法的许多现代变体和分析 [3]。以下命题成立，因为对于 TOSSM，x(t) 可以被解释为在希尔伯特空间中正交函数上的投影（命题 2）。

请注意，通过简单地重新缩放 B 可以满足概率度量要求。推论 3.4 表明 TOSSM 保留了输入的方差，这是深度学习层正确归一化的关键条件。

请注意，C 的初始化与深度神经网络中的标准线性层不同，后者通常根据其维度（如 N - 1/2 [4]）进行缩放。

时间尺度。如第 2 节所讨论的，从连续时间转换到离散时间涉及一个参数 ∆，该参数代表离散化的步长。当直接处理离散数据时，这是一个不直观的量，特别是如果它不是从潜在的连续过程中采样的。

我们观察到以下事实：对于所有标准离散化方法（例如欧拉法、后向欧拉法、广义双线性变换、零阶保持 [6]），离散化系统仅依赖于 (A, B) 和 ∆ 通过它们的乘积 (∆A, ∆B)。这意味着在步长 ∆ 下离散化的 SSM (A, B) 在计算上等同于在步长 1 下离散化的 SSM (∆A, ∆B)。

因此，∆ 可以被视为基础 SSM 的标量缩放，而不是改变输入的速率。在 TOSSMs 的背景下，这只是缩放了底层的基和度量（标量缩放）。更广泛地说，缩放一个通用 SSM 只是改变了它的时间尺度或演化速率。

最直观的例子是对于有限窗口 TOSSM，如 LegT 或 FouT。以步长 ∆ 离散化这个系统等同于考虑系统 (∆A, ∆B) 以步长 1 运行，这产生了正好支持在上的基函数。时间尺度 ∆ 的解释引出了先前连续时间结果的简单离散时间推论。例如，LegT 和 FouT 在离散时间中代表 1/∆ 个元素的滑动窗口。

这次讨论激发了以下定义。正确归一化的 TOSSMs (A, B) 将模拟预期长度为 1 的依赖性，而 ∆ 调节它以模拟长度为的依赖性，允许对 TOSSM 的上下文大小进行细粒度控制。

根据这个定义，HiPPO-LegS 是时间尺度归一化的。这激发了 S4 在 (0.001, 0.1) 中以对数均匀方式初始化 ∆ 的做法，覆盖了合理的时间尺度（预期长度 10 到 1000）的几何范围。在第 4 节中，我们将展示当已知依赖性长度时，可以更精确地选择时间尺度。

我们最后指出，HiPPO-LegT 和 -FouT 是用度量 ■[0, 1] 导出的。然而，为了根据定义 4 正确归一化它们，我们选择将矩阵减半，使它们相对于正交。

在我们的实验中使用的 S4-FouT 和 S4-LegT 方法使用了这些减半的版本。

3.4 讨论

表 1 总结了本节介绍的 TOSSMs 的结果，包括 Gu 等人 [5] 中定义的原始 HiPPO 方法以及我们的新方法。

我们注意到，原始的 HiPPO 论文还包括另一种基于拉盖尔多项式的方法，称为 LagT。由于拉盖尔多项式是关于 e−t

正交的，因此该系统旨在表示指数衰减的度量。然而，这种方法有些异常；它的表现通常比其他方法稍差，并且在经验上发现需要不同的超参数。例如，Gu 等人 [5] 发现，在置换 MNIST 数据集上，对于大多数 HiPPO 方法，将 ∆ 设置为大约 1/784 确实是最佳的，正如理论预测的那样。然而，HiPPO-LagT 在设置得更高时表现更好，最高可达 ∆ = 1.0。事实证明，这种方法以一种方式改变了基，使得它不是关于指数衰减度量正交的，而是关于常数度量 ■[0, ∞) 正交的，并且具有 ∞ 的时间尺度；这解释了为什么 ∆ 的超参数需要设置得更高。

总之，我们不推荐使用原始的 HiPPO-LagT，尽管它最初的动机是表示与指数衰减度量正交。相反，HiPPO-LegS（作为时间不变的 SSM）实际上表示指数衰减度量。

LSSL 和一般多项式线性状态空间层 [6] 在 HiPPO 的基础上，将其整合到完整的深度 SSM 模型中，并且还推广了 HiPPO 理论，表明所有正交多项式都可以定义为某些 (A, B) 的 SSM 核。我们的框架更加强大，并且立即作为推论产生了 LSSL 的主要结果（附录），还可以用于非多项式方法（例如 FouT）。

这些结果表明，所有正交多项式基，包括截断和缩放的变体，都有相应的 OSSM 与多项式核。如果我们将这种特殊情况定义为多项式 OSSM（POSSM），那么我们已经推导出所有原始的 HiPPO 都是 POSSM。

4 实验

我们研究了我们提出的 S4 变体的经验权衡。我们将基于本文介绍的 TOSSM 的几个 S4 变体与称为 S4D 的更简单的对角 SSM 进行比较，这些 SSM 不是正交 SSM [8]。对应于我们的主要贡献，我们假设：

• S4-LegS 在稀疏记忆任务中表现出色，因为它表示非常平滑的卷积核，这些卷积核在无限长的度量下记忆输入（推论 3.3，图 1）。相反，它在密集信息的短程任务中不太合适，因为它会平滑信号。

• S4-FouT 在密集记忆任务中表现出色，因为它可以表示尖峰函数，这些函数可以在特定范围内挑选过去的元素（第 3.2.2 节）。然而，它在非常长程任务中不太合适，因为它表示一个有限的（局部）窗口。

• 可以根据给定任务中已知的时间依赖性精确初始化 ∆ 以提高性能。

4.1远程竞技场

长程竞技场（LRA）基准是一套序列分类任务，旨在对长序列建模的序列模型进行压力测试。我们将 S4 的先前最佳状态再提高了 6 个百分点（表 2）。验证了我们的假设，S4-LegS 在最难的长程任务（Path-X）中表现非常强，该任务涉及长度为 16384 的稀疏依赖关系，FouT 无法解决，因为它是有限窗口方法。Path-X 任务还验证了第 3.3 节中的时间尺度理论。为了设置这些结果，我们根据任务中已知的依赖长度降低了 ∆ 的初始化。图 4 说明了正确设置 ∆ 的重要性。

4.2 理论：函数重建，时间尺度，归一化

图5证实了在线函数重建的HiPPO理论（命题2）对于提出的TOSSMs LegS和FouT。

我们额外构建了一个合成的重建任务（针对均匀度量），以测试S4变体是否可以学习重建。输入是一个白噪声序列u ∈ ❘4000。我们使用一个单层线性S4模型，状态大小N = 256和H = 256个隐藏单元。模型需要使用它们在最后一个时间步骤的输出，一个向量y4000 ∈ ❘256，通过一个线性探针重建输入的最后1000个元素。具体来说，损失函数是最小化\(\| u_{3000:4000} - Wy_{4000} \|_2^2\)，其中W ∈ ❘1000×256是一个学习到的矩阵。

图6显示，理论上针对均匀度量进行重建的方法S4-LegT和S4-FouT，比其他方法要好得多。我们包括了在[8]中提出的新的对角变体（S4D），这些是通常表现良好的更简单的SSM方法，但在这个任务上没有学习到正确的函数。我们还包括了一种方法S4-(LegS/FouT)，它通过简单地将SSM核的一半初始化为每个LegS和FouT度量来结合LegS和FouT度量。尽管拥有较少的S4-FouT核，但这仍然表现得和纯S4-FouT初始化一样好。

最后，我们验证了第 3.3 节中的归一化理论，该理论预测，对于适当归一化的 TOSSM，投影参数 C 应以单位方差初始化，这与深度神经网络的标准初始化相反，后者通过与 N 的大小（在这种情况下 N = 64）相关的因子进行归一化。表 3 显示了在 Sequential CIFAR (sCIFAR) 和 Speech Commands (SC) 数据集上使用最多 150K 参数的模型的分类结果。这复制了 [8, 第 5 节] 中“消融模型”的设置。结果显示，使用 C 的标准差 1.0 略优于其他选择，尽管差异通常很小。

4.3 记忆：延迟（连续复制）任务

接下来，我们研究合成重建能力如何转移到其他任务。延迟任务要求模型学习一个序列到序列的映射，其输出是输入延迟固定时间周期（图 7a）。对于循环模型，此任务可以解释为要求模型维护一个记忆缓冲区，该缓冲区不断记住它看到的最新元素。这种能力是勒让德记忆单元（Legendre Memory Unit）的原始动机，它是 HiPPO-LegT 的前身，专门设计用于解决此任务，因为它可以编码尖峰核（图 3）。在图 7b 中，我们看到我们的新 S4-FouT 实际上优于 S4-LegT，当时间尺度 ∆ 设置正确时，两者都优于所有其他方法。我们注意到，这个延迟仅为 1000 个时间步的任务对于 LSTM 和 Transformer 等基线来说太难了，它们在经验上没有比随机猜测学得更好（RMSE 0.43）。

5 总结：如何训练你的HiPPO

- SSMs代表卷积核，这些卷积核是由基函数（由A和B参数化）的线性组合（由C参数化）。

- HiPPO是一个通用的数学框架，用于生成与预定的良好行为基函数族相对应的矩阵A和B。我们推导出与指数缩放的勒让德族（LegS）和截断傅里叶函数（FouT）相对应的HiPPO矩阵。

- HiPPO-LegS对应于原始的S4方法，产生非常平滑、长距离的核族（图1），在所有S4变体中仍然是处理长距离依赖性的最佳方法。

- HiPPO-FouT是一种有限窗口方法，它包括局部卷积（例如，概括了普通的CNN，推论3.6），并捕获重要的变换，如滑动DFT或STFT。

- 独立于离散化的概念，时间尺度Δ简单地解释为控制依赖性的长度或SSM核的“宽度”。最直观地，对于如FouT这样的有限窗口方法，核的长度正好是1/Δ，它概括了深度学习中使用的标准局部卷积。

- 本工作的伴随论文基于这里介绍的理论，定义了一个使用对角状态矩阵的S4的简化版本（S4D），这些是对我们引入的正交SSM的近似，并且可以继承S4的强大建模能力[8]。它还包括在更多数据集上比较各种状态空间模型的实验，包括这里引入的S4变体（S4-LegS和S4-FouT）。

http://mp.weixin.qq.com/s?__biz=MzA5MDMwMTIyNQ==&mid=2649400473&idx=1&sn=843ee35ed404d05ea38020a346cda2db

CreateAMind

ALLinCreateAMind.AGI.top ，前沿AGI技术探索，论文跟进，复现验证，落地实验。鼓励新思想的探讨及验证等。探索比大模型更优的智能模型。