HiPPO 是包括 S4、H3 等一系列 state space model (SSM) 相关模型的理论基石,提出了全新架构,旨在解决序列建模中的长距离依赖问题(long-term dependencies)。长距离依赖建模的核心问题在于如何用有限空间记录累计历史数据的信息,并随输入在线更新。当前主流模型大多有各种各样的问题,包括:
记忆范围有限,有 vanishing gradient 等问题
需要先验,并一定程度上受限于此
缺乏处理长距离依赖关系的理论保证
而这篇论文经数学推导,证明了 HiPPO 理论上可较好地处理长距离依赖关系,并提供了初始化参数,对后续研究产生了深远影响。
论文标题:
HiPPO: Recurrent Memory with Optimal Polynomial Projections
论文地址:
https://arxiv.org/abs/2008.07669
1 基本思路 —— 在线函数近似
我们希望通过某种方式将历史信息存储在一个向量中,借此处理长距离依赖关系。为便于分析,将所有历史输入看作一个关于时间的连续函数
以下将对这一过程进行更详细的说明。
1.1 目的
给定输入函数
1.2 如何判断近似的质量
评判近似质量需要定义一个在函数空间上的距离。我们选择一个概率测度
我们最终想要一个次数有限的结果,因此我们取一个
实际上并不要求如此选取,此处是出于多项式受到广泛研究,有更多现成结论的缘故。
由于对于时刻
1.3 如何找到近似函数
近似函数可用其在
一个希尔伯特空间的正交基
的一组基(可用 Gram-Schmidt 正交化方法将非正交基转换为正交基得到)。特别地,对于
2 HiPPO 架构
HiPPO
HiPPO 定义了两个映射:
:给定连续输入函数 与概率测度 ,将 映射到上文中的近似函数 :将 映射到系数向量
这两个映射的合成称为
2.1 ODE
我们的最终目标是将系数向量表示为递推形式,便于训练与推理。为了达到这一离散的目标,需要在连续情形下先写成 ODE 的形式,再对其离散化。
HiPPO 的另一个关键思想是将系数的计算式对
2.2 如何离散化
在实际操作中,输入输出都相对时间离散,因此需要对上式进行离散化操作,整体分为四步:
接收输入序列
对于时间离散步长
,隐性定义连续函数 ,满足 写出函数
的 ODE 表达式 重新离散为输出序列
通常,这一过程对于时间离散步长
的选择是敏感的。 注意此处的
为向量,与上文中有所不同。
2.3 广义双线性变换法(GBT)
离散化算法的选取有许多种,考虑到后续工作中使用了双线性变换法,此处介绍更为普适的广义双线性变换法(Generalized Bilinear Transformation, GBT)。
记 ODE 为
GBT 通过取两端点的加权平均将右式近似为
当
因此
注意到
为一个关于
此处假定 与 均为时间不变量,若随时间改变,也可用相同思路计算。
在 GBT 中,
3 实例:LegT,LagT,LegS
在选择多项式空间的基础上,根据不同的概率测度,该论文着重分析了三个实例:translated Legendre (LegT),translated Laguerre (LagT),scaled Legendre (LegS)。
下图为三种概率测度的图示,蓝色与紫色部分分别代表
实例图示
由于 LegS 的表现最好,下文将简要带过前两者,并主要关注于 LegS。
3.1 LegS
LegS 选取的概率测度为
3.1.1 正交基
首先,我们需要知道
Legendre 多项式
且有
Legendre 多项式有以下性质:
在当前的测度之下,考虑内积表达式
与 Legendre 多项式计算式中的积分表达与上下限进行比较可知,对 Legendre 多项式进行
此时相差常数倍,因此
3.1.2 系数求导
记
回忆到
观察等式,发现
而对这一结果运用双线性变换法即可得到离散表达,完整结论见下文。需要注意的是, LegS 的离散形式独立于时间离散步长
3.1.3 结论
HiPPO-LegS 中在连续与离散情况下的变化为:
其中
3.2 LegT \& LagT
LegT 选取的概率测度为
对于这两种测度,均有 ODE 为
LegT:
LagT:
4 LegSc的优势与特性
在论文中,指出了三个 HiPPO-LegS 的优势,并分析了近似造成的误差幅度,以下对此进行介绍。
4.1 时间尺度的鲁棒性
LegS 具有时间等变性,也就是说,对任意的
4.2 计算效率高
回忆 GBT 的推导过程,在更新
4.3 对历史信息遗忘速度慢
RNN 的遗忘速度为指数级,而 LegS 为多项式级,具体地有
这是由于
这说明了 LegS 可以处理更长距离的内容。
4.4 误差与输入平滑度的关联
在 HiPPO 中有一步近似操作,其导致的误差与
当
满足 L-Lipschitz 条件时(即对于 ,有 ),则 当
有 阶有界导数时,则
结语
文章根据在线函数近似的思路提出了 HiPPO 架构,解释了可以通过递推式反映历史的根本原因,主要理论核心是对若干概率测度的情形给出了 HiPPO 初始化实例,其中论证了取测度为
参考:https://zhuanlan.zhihu.com/p/613713261