NeurIPS 2021-如何利用知识图谱构建世界模型?!一种新的文本世界建模技术!

文摘   2024-05-31 06:55   英国  

论文链接:

https://arxiv.org/pdf/2106.09608

简介

世界模型提高了学习代理在交互式和情境环境中高效运行的能力。这项工作的重点是构建基于文本的游戏环境的世界模型。基于文本的游戏或交互式叙事是强化学习环境,其中代理使用文本自然语言感知世界并与之交互。这些环境包含漫长的、多步骤的谜题或任务,这些谜题或任务交织在一个充满数百个角色、地点和物体的世界中。作者提出的世界模型同时学习:(1)在将世界表示为知识图谱时,预测由代理的行为引起的世界变化;(2) 生成在世界中运行所需的一组上下文相关的自然语言动作。通过利用知识图谱和动作的固有结构,将此任务构建为一组序列生成问题,并引入基于Transformer的多任务架构和损失函数来训练它。对文本世界的零样本消融研究表明,所提出方法显著优于现有的文本世界建模技术以及每个贡献的重要性。

论文贡献

世界模型通常采用概率生成模型的形式,与基于模型的强化学习结合使用,以提高学习代理在各种环境中运行的能力。它们受到人类认知过程的启发,一个关键假设是预测世界将如何响应一个人的行为而变化的能力将帮助您更好地计划要采取的行动。支持这一假设的证据以研究的形式出现,表明使用内部学习的世界模型模拟轨迹可以提高学习在环境中操作的样本效率。

基于文本的游戏中组合大小的动作空间的结果是上下文相关的动作集,即那些最有可能影响环境变化的行为——却被不相关的行为所淹没。例如,在没有树的情况下尝试爬树并不违法,游戏引擎只会做出反应,反馈什么也没有发生。其他游戏尚未考虑的世界建模的一个方面是推断哪些动作在特定上下文中有效。假设所提到的这两个挑战是密切相关的,并且提出了多任务学习同时解决这两个挑战的世界模型,即回答“我可以执行哪些操作?”的问题以及“如果我执行某项特定操作,世界将会发生怎样的变化?”。

这篇论文的工作有四个核心贡献:

(1)展示了如何以后续知识图谱状态表示之间的差异的形式来表示世界的变化。

(2) 提出了 Worldformer,一种新颖的基于多任务 Transformer 的架构,它学习同时生成一组图形差异和一组上下文相关的动作。

(3) 引入了一种损失函数和一种训练方法,通过利用知识图谱和自然语言有效动作可以表示排列不变序列集这一事实,可以更有效地训练 Worldformer——其中项目中标记的排序集合很重要,但集合本身缺乏秩序。

(4) 对不同的前所未见的文本游戏进行的零样本消融研究显示了前三个贡献在超越强大的现有基线方面的重要性。

研究背景

数据集: 使用 JerichoWorld 数据集.它包含丰富的自然语言观察之间的 24,198 个映射,以及:(1) 一组元组 <s, r, o> 形式的知识图谱(例如 s 是一个主语,r是关系,o是对象),以图的形式反映世界状态;(2) 一组保证会导致特定世界状态发生变化的自然语言动作。图 1 展示了丰富的自然语言观察和结构化知识之间的映射示例。训练数据是在多种类型的 27 个文本游戏中收集的,并且在测试集中的 9 个附加游戏中还包含 7,836 个保留实例。

数据集的每个实例都采用形式的元组形式,其中 是两个后续状态,A 是用于在状态之间转换的动作,R 是观察到的奖励。如前所述,元组中的每个状态都包含有关观察 、地面实况知识图 以及该状态 的有效操作的信息。该数据由预言机代理收集,即可以完美解决游戏,探索使用预言机和随机策略的组合来确保游戏状态空间的高覆盖率。

任务: 给定这个数据集,本文重点关注 JerichoWorld 正式定义的两项任务。正如上文提到的,一个成功的世界模型将能够完成这两项任务。

  1. 知识图谱生成: 此任务涉及根据时间步 t 处的文本观察、有效动作和图来预测时间步 t + 1 处的图:,以及针对数据集中所有样本的操作 A。

  2. 有效动作生成 该任务被正式定义为在给定时间步 t 时的文本观察、有效动作和图的情况下,预测时间步 t + 1 时的有效动作序列集合:$V_{t+1} \in S_{t+1},以及数据集中所有样本的动作 A。

方法框架-The Worldformer

作者首先介绍了如何简化知识图生成以预测代理步骤之间的图差异。然后, 提出一种基于 Transformer 的架构和端到端训练方法(包括目标函数),即Worldformer,将两个世界建模任务视为一组序列生成问题。

知识图谱差异生成

图 2 描述了简化知识图谱生成问题的要点。回想一下,知识图谱是有向图,它以一组元组的形式存储为 <s, r, o> ,其中 s 是主语,r 是关系,o 是对象。令后续两个步骤中代表世界状态的知识图为。在每一步中,都会从图 中添加或删除元组,以更新关于世界的信念状态并将其转变为图 。利用这一观察,可以简化知识图谱生成问题。可预测两个图之间的差异,而不是根据  和先验上下文来预测

在图 2 中,在步骤 t 和 t + 1 之间,可以看到 是添加到 的元组集合,而 元组集合是从 中删除的。它们共同构成了图差异。在这里,作者进行了第二个关键观察,可以进一步简化问题。这一观察基于此类世界的普遍适用的属性:(1)位置是固定且唯一的,即位置相对于彼此的位置不会改变; (2) 物体和角色一次只能出现在一个位置; (3) 可以使用诸如 WordNet之类的词汇词典来识别矛盾的对象属性,例如一个对象不能同时处于打开和关闭状态。这些属性能够唯一地识别要从图 中删除的三元组(给定要添加到图 中的三元组)。

总而言之,知识图谱生成任务可以如下进行:预测在时间步 t 处要添加到图 中的节点:(比 本身小得多的集合),将其转换为图 给定文本观察、有效动作和时间步 t 处的图: 和数据集中所有样本的动作 A。

多任务架构

Worldformer 是一个多任务世界模型,它同时学习执行知识图谱和有效动作生成。它建立在这样的假设之上:这些任务中的每一个都包含对另一个任务至关重要的信息——可以在任何时间步执行的有效操作完全取决于当前状态,反之亦然,状态知识图根据先前执行的操作进行更新行动。

图 3 描述了 Worldformer 的架构。该架构的输入是时间步 t 处的文本观察、有效动作和图形: 通过双向文本编码器编码为 。作者使用了类似于 BERT的架构,其中包含原始的预训练权重,然后使用掩码语言模型 (MLM) 损失对从训练数据中获取的观察值进行微调。是最终隐藏层的输出。图编码器接收并将其编码为。它也类似于 BERT,但使用 MLM 损失和短语级掩码方案对训练数据中发现的知识图进行预训练,其中 <s, r, o> 图三元组的整个组成部分(单个下划线部分)图3) 立即被屏蔽。同样, 是最终隐藏层的输出。

被传递到表示聚合器,然后该聚合器将组合的编码状态表示 发送到具有与 GPT-2 相同的通用内部架构的两个自回归解码器之一。在训练过程中,第一个解码器通过交叉注意力直接以 为条件,以 为条件,并将下一个状态 的有效动作作为输入,学习预测向右移动的相同输入序列作为序列到序列模型可以。类似地,第二个解码器直接以 为条件,通过交叉注意力以 为条件,并将下一个状态 的知识图谱作为输入。

序列集生成和训练

作者观察到知识图差异 和有效动作  都是序列集,其中动作或图三元组内标记序列的排序很重要。序列到序列(Seq2Seq)模型中使用的标准自回归解码没有考虑这种排列不变性。文中将图和动作预测任务构建为序列集(SOS)问题的生成——扩展了 Deep Sets提出的简单集合预测问题定义,以解释序列集的具体结构。该问题结构随后用于制定训练方法,让自回归解码器更好地解释 SOS 结构。

对于图 3 中的两个解码器,通过编码器 X 获得目标序列 和一些输入上下文。标准自回归技术将目标序列上的分布分解为条件链具有从左到右因果结构的概率。

其中θ表示整体网络参数。然后,这可以用于在每一步制定具有交叉熵的最大似然训练损失。

将 Y 中的元素分组为其序列形式的集合:

将输出序列集的分布分解为以下概率链:

 首先对分布进行因式分解,使得 的每个元素独立于集合中的其他元素,但集合中元素 的标记以该元素内的先前标记为条件。这反过来又为我们提供了最大似然序列集损失,可用于训练模型以输出序列集。

在时间步 t 处有观察序列: 编码为 ,图 编码为 ,所有这些组合成 ,时间步 t + 1 处的输出序列集是图差异 和有效动作 $V_{t+1}。在两个解码器中,得到一个综合损失:

这种损失用于同时跨两个任务对 Worldformer 进行多任务训练。

验证

表 1:指定模型的两项任务的结果。总体表示大小加权平均值。所有实验均在三个随机种子上进行,KG 预测的任何总体类别的标准偏差不超过 ±3.2,有效动作预测的标准偏差不超过 ±1.2。粗体结果表示最高的总体得分。星号 (*) 表示最高结果明显高于所有替代方案(方差分析检验 p < 0.05,随后进行事后配对 Tukey 检验)。† 表示该结果并未明显高于 Worldformer。

表 1 描述了该任务在所有游戏中的结果。可以看到,在图形级别指标上,Worldformer 的表现明显优于所有其他基线。在token级别指标上,Worldformer 和 QA 方法具有可比性 - 这两种方法之间的差异在统计上不显着 (p = 0.18),但均显着 (p < 0.05) 高于所有其他方法。QA 方法和其他提取方法突出显示形成图形的输入观察的部分,并且特别适合标记级别指标。JerichoWorld 开发人员指出,这些方法容易过度提取,即提取的文本多于与输入观察严格相关的文本,有助于标记级别重叠,但会导致图形级别指标急剧下降。当文本描述不完整或隐藏时,例如,基于提取的方法会出现其他故障模式。只有当玩家打开箱子时,箱子里的东西才会通过文本观察显示出来。由于接受过训练,Worldformer 能够对箱子中的内容做出明智的猜测,从而提供了规则和 QA 系统无法提供的前瞻性形式。

更详细的内容和实施过程请访问点击论文原文地址 https://arxiv.org/pdf/2106.09608

喜欢的话,请别忘了点赞👍➕关注哦~

感恩与你一路成长


多模态机器学习与大模型
多模态机器学习与大模型 致力于推荐、分享、解读多模态机器学习相关的前沿论文成果,讨论大语言模型先进技术,助力AI研究者进步。 合作交流请+V:Multimodal2024,谢谢❤️
 最新文章