​R-SQAIR:Relational Sequential Attend, Infer, Repeat

科技   2024-10-20 18:00   上海  

R-SQAIR:Relational Sequential Attend, Infer, Repeat

R-SQAIR:关系顺序参与、推断、重复

https://arxiv.org/pdf/1910.05231


 摘要

传统的序列多对象注意力模型依赖于循环机制来推断对象关系。我们通过赋予其一个具有强关系归纳偏置的模块,该模块并行计算推断对象之间的成对交互,从而提出了这种注意力模型(SQAIR)的关系扩展(R-SQAIR)。我们在从视频中进行无监督学习的任务上研究了最近提出的两个关系模块。我们展示了在组合泛化方面相对于序列关系机制的改进。


1. 引言

许多研究表明 [35, 17, 27, 1, 22],婴儿能够以无监督的方式快速发展对直观物理、对象和关系的理解。为了解决现实世界的问题,智能代理应该能够获取这种知识 [31]。然而,人工神经网络在直观物理的理解方面仍远未达到人类水平。

现有的从视觉数据中无监督学习对象和关系的方法可以根据推断单个图像中对象表示的核心机制分为并行 [11, 12, 10] 或序列 [26, 25, 7, 18, 6, 5, 36]。前一组中的一个模型是 Tagger [11],它应用 Ladder Network [20] 进行感知分组。RTagger [19] 用 Recurrent Ladder Network 取代了 Ladder Network,从而将 Tagger 扩展到序列设置。NEM [12] 使用空间混合模型学习对象表示,其关系版本 R-NEM [30] 赋予其并行关系机制。最近提出的 IODINE [10] 迭代细化推断的对象并处理多模态输入。

另一方面,序列注意力模型 AIR [7] 学习在给定图像上每次迭代推断一个对象。与 NEM 不同,它通过硬注意力机制 [26] 提取对象 glimpses,并且只处理相应的 glimpse。此外,它构建了场景的概率表示以建模不确定性。许多最近的模型以 AIR 为核心机制:SQAIR [18] 将 AIR 扩展到序列设置,DDPAE [15] 也是如此。SPAIR [6] 将 AIR 扩展到包含许多对象的场景,SuPAIR [28] 提高了 AIR 中学习和鲁棒性的速度。最近的 MoNET [5] 也使用 VAE 和循环神经网络(RNN)将场景分解为多个对象。这些方法通常通过 RNN 等序列关系机制建模关系,这限制了它们的关系推理能力 [3]。

在这里,我们提出了关系序列注意、推断、重复(R-SQAIR),以从视频数据中学习直观物理的生成模型。R-SQAIR 基于 SQAIR,我们通过一个具有强关系归纳偏置的机制对其进行了增强 [2, 30, 21]。我们显式并行建模对象之间成对关系的模型在概念上比基于 RNN 的序列模型更简单,后者将先前的交互保留在内存中,无法直接建模先前考虑对象交互的影响。我们的实验展示了在新环境中训练模型的泛化性能的改进。


2关系顺序出席推断重复

关系顺序Attend, Infer, Repeat (R-SQAIR)通过一个并行关系机制增强了SQAIR。SQAIR通过利用状态空间模型,借助对象的时间一致性将AIR扩展到顺序设置。它有两个阶段:发现(DISC)和传播(PROP)。PROP从序列中的第二帧开始活跃,通过结合学习每个对象的时间动态的RNN和AIR核心(解释现象),迭代先前传播的对象(解释现象)来传播或忘记前一帧中的对象。DISC阶段使用AIR核心,在传播对象的条件下,发现对象的新外观。有关AIR和SQAIR的完整描述,我们参考先前的工作[7, 18]。R-SQAIR保留了其前身的优势,并提高了它们的关系能力。更具体地说,SQAIR依赖于AIR的核心RNN来建模关系。然而,RNN只有较弱的关系归纳偏置[3],因为它需要顺序地计算对象之间的成对交互,按特定顺序迭代它们。另一方面,R-SQAIR采用具有强关系归纳偏置的网络,可以并行建模对象之间的任意关系。为了构建概念上简单但功能强大的架构,支持组合泛化,我们使用以下两种方法:交互网络(IN)[30]和关系记忆核心(RMC)[21]。

关系模块

**关系记忆核心(Relational Memory Core)**:我们将 IN 建模的效果与通过关系记忆核心 (RMC) 学习的效果进行比较,。RMC(图2)学习将物体分配到不同的记忆槽中,能够保持物体的状态并将该信息与当前物体的表示结合。这通过借鉴增强记忆网络的思想实现,并将记忆槽解释为物体表示。接下来,物体之间的相互作用通过一个多头自注意力机制计算。最后,通过引入顺序交互的递归机制,形成类似二维 LSTM 的架构,记忆矩阵的行表示物体。模型参数在每个物体之间共享,因此可以更改记忆槽的数量,而不会影响模型参数的总数。详细描述请参考之前的研究。


3. 实验

我们在弹跳球数据集上分析了 R-SQAIR 的物理推理能力,该数据集由 64x64 图像的视频序列组成。与 SQAIR 实验一样,我们从图像中裁剪出中心 50x50 像素,使得球可以消失并在之后重新出现。尽管视觉上简单,但该数据集包含高度复杂的物理动力学,并已用于类似研究(R-NEM [30])。该方法通过最大化重要性加权证据下界 IWAE [4] 进行训练,使用 5 个粒子和 32 的批量大小。课程学习从序列长度 3 开始,每 10000 次迭代增加 1,直到最大长度 10。当验证分数在 10 个 epoch 内没有改进时,执行提前停止。

R-SQAIR 的定性评估如图 3 所示。每列代表视频中的一个时间步。第一行是关于在包含 4 个球的视频上训练和评估的 R-SQAIR 模型,对象表示由不同颜色的边界框突出显示。在第二行中,同一模型在包含 6-8 个球的视频数据集上进行评估。请注意,R-SQAIR 在最初几帧中已经分离了对象,并在之后仅细化学习到的表示。在每个时间步,它计算最多 k = 4 个对象表示,通过考虑前一帧中的对象和学习到的动力学。

对于所有 SQAIR 超参数,我们使用默认值,除了潜在变量 zwhat 的维度,设置为 5 而不是 50。这反映了场景中个别对象的低视觉复杂性。出于类似的原因,我们使用的 IN 嵌入维度也设置为 5。我们使用带有注意力系数的 IN 模块版本,以计算效果的加权和。总共,这为默认 SQAIR 实现的 2,726,166 个参数增加了 9,389 个参数。这也表明,改进的性能是学习更好的传播先验的结果,而不仅仅是增加模型参数的数量。

RMC 有更多的超参数可供选择。我们使用 4 个头部的自注意力,每个头部的维度为 10。内存槽的数量为 4,与我们执行的序列注意力步骤总数一致。最后,RMC 可以在每个时间步执行多次注意力计算,每个计算对应一个消息传递阶段。由于我们只对碰撞感兴趣,因此每个时间步只计算一次注意力。这导致 98,880 个参数。比较 SQAIR 模型的大小,我们得出的结论与 IN 的情况类似。请注意,图 3 中的最后一帧是从学习到的传播先验中采样的。这使我们能够评估关系模块的作用,因为它负责学习对象动力学。此外,由于模型是随机的,我们为每个架构训练 5 个模型,并采样 5 个不同的最后一帧。我们根据数据对数似然和关系对数似然比较模型,后者仅考虑当前碰撞的对象(数据集中提供了地面实况)。

在包含 4 个球的测试集上的评估显示,平均数据对数似然从 SQAIR 实现的 399.5(关系 0.21)增加到 R-SQAIR(IN) 的 429.2(关系 1.95)和 R-SQAIR(RMC) 的 457.32(关系 3.62)。图 4 中的误差条表示训练模型中随机样本的标准偏差。

我们通过在包含 6-8 个球的视频的测试集上评估在包含 4 个球的序列上训练的模型来测试 R-SQAIR 的泛化能力。定性(图 3 底部)和定量结果都表明,R-SQAIR 能够泛化,关系对数似然从 SQAIR 实现的 -164.1 增加到 R-SQAIR(IN) 实现的 -96.7 和 R-SQAIR(RMC) 实现的 -97。在包含 6-8 个球的测试集上,R-SQAIR 和 SQAIR 的关系损失之间的较大差距表明 R-SQAIR 具有更高的泛化能力。


 4. 结论

图神经网络是组合泛化的有希望的候选者,这是人工智能研究的核心主题 [3, 31]。我们展示了序列注意力模型可以通过结合显式关系模块受益,该模块并行推断成对对象交互。无需重新训练,模型可以泛化到包含更多对象的场景。其学习到的生成模型可能作为世界模拟器的一部分有用 [24, 23, 13, 33]。




https://arxiv.org/pdf/1910.05231

CreateAMind
ALLinCreateAMind.AGI.top , 前沿AGI技术探索,论文跟进,复现验证,落地实验。 鼓励新思想的探讨及验证等。 探索比大模型更优的智能模型。
 最新文章