代理和实体之间微妙而高度动态的互动是使群体导航变得困难的重要因素。为了以结构化的方式建模这些互动,本研究将导航场景公式化为一个异质时空图。在图3a中,在每个时间,本研究的异质时空图由一组节点和一组边组成。节点包括检测到的人类和机器人。此外,障碍物节点代表所有障碍物的点云。在每个时间,连接不同节点的空间边表示节点之间的空间互动。不同的空间互动对机器人决策的影响不同。具体来说,虽然本研究可以控制机器人,但无法控制人类,因此机器人与人类(RH)之间的互动有直接影响,而人类与人类(HH)之间的互动对机器人动作的影响是间接的。例如,作为间接影响,如果人类 A 强行让人类 B 转向机器人的前方,那么机器人必须根据 A 和 B 之间的互动做出反应。此外,由于代理是动态的,而障碍物是静态的,代理之间的互动是相互的,而静态障碍物对代理的影响是单向的。因此,本研究将空间边分为三种类型:人类与人类边(HH,图3中的蓝色)、障碍物-代理边(OA,橙色)和机器人-人类边(RH,红色)。这三种边允许本研究将空间互动分解为 HH、OA 和 RH 函数。每个函数由一个具有可学习参数的神经网络来参数化。
在图3b中,本研究从异质时空图中推导出了本研究的网络架构。本研究将 HH 和 RH 函数表示为具有注意力机制的前馈网络,分别称为和。本研究将 OA 函数表示为一个带有连接的多层感知机(MLP),将时间函数表示为门控递归单元(GRU)。本研究使用 W 和 f 来表示可训练的权重和全连接层。代理之间的注意力:注意力模块为所有连接到机器人或人类节点的边分配权重,使得节点可以关注重要的边或互动。这两个注意力网络类似于带有填充掩码的缩放点积注意力,它使用查询 Q 和键 K 来计算注意力得分,并将归一化的得分应用于值 V,从而得到加权值 v。
其中 d 是查询和键的维度,作为缩放因子。掩码 M 用于处理每个时间步检测到的人类数量变化,正如本研究将在下文中扩展的那样。人类-人类注意力:为了学习每个 HH 边对机器人在时间 t 的决策的重要性,本研究首先使用一个 HH 注意力网络,按人类之间的自注意力对每个观察到的人类进行加权。在 HH 注意力中,当前的人类状态被拼接并通过具有权重、和的线性层传递,以获得、和 其中 是 HH 注意力的注意力大小。 其中、和 分别是第 i 个人类的查询嵌入、键嵌入和值嵌入。该过程用于指示每个人类的可见性,使得机器人可以对检测到的每个人进行“注意”,这个过程可以提升机器人对于环境中人群的感知能力,同时更契合本文对人和环境进行分离的主题。
■ 2.3. 训练过程
本研究在仿真器中使用近端策略优化(PPO)训练整个网络,如图2(a)所示。在每个时间步 t,仿真器提供所有构成 st 的状态信息,这些信息被输入到 HEIGHT 网络中。网络输出状态 V(st) 的估计值和机器人动作 π(at|st) 的对数概率,二者用于计算 PPO 损失并更新网络中的参数。在训练过程中,机器人从动作分布 π(at|st) 中采样动作。在测试过程中,机器人选择具有最高概率的动作 at。机器人动作 at 被输入到仿真器中,以计算下一个状态 st+1,然后循环继续进行。没有任何监督学习,本研究的方法不受专家演示性能的限制。然而,为了提高低训练数据效率这一强化学习固有问题,HEIGHT也可以通过模仿学习和强化学习的结合进行训练,本文主要的训练环境和真实环境如图5所示。通过以上的一种结构化和原则性的方法来设计机器人策略网络,用于在受限环境中的群体导航可以更好的提升机器人在拥挤环境中的导航避障性能。通过将复杂的场景分解为独立的组件,本研究将复杂问题拆解为更小的函数,这些函数用于学习相应的函数参数。通过结合上述所有组件,端到端可训练的 HEIGHT 使得机器人能够对所有配对互动进行时空推理,从而实现更好的导航性能。