点击下方“ 计算机书童 ”卡片,每天获取顶刊论文解读
题目:MO-MIX: Multi-Objective Multi-Agent Cooperative Decision-Making With Deep Reinforcement Learning MO-MIX:基于深度强化学习的多目标多智能体协同决策 作者:Tianmeng Hu; Biao Luo; Chunhua Yang; Tingwen Huang
摘要 深度强化学习(RL)已被广泛应用于解决复杂的决策问题。在许多现实世界的场景中,任务通常有多个相互冲突的目标,并且可能需要多个智能体进行合作,这些是多目标多智能体决策问题。然而,在这个交叉领域的研究工作还相对较少。现有的方法仅限于单独的领域,并且只能处理具有单一目标的多智能体决策,或者具有单一智能体的多目标决策。在本文中,我们提出了MO-MIX来解决多目标多智能体强化学习(MOMARL)问题。我们的方法基于集中训练与分散执行(CTDE)框架。一个代表目标偏好的权重向量被输入到分散的智能体网络中,作为局部动作价值函数估计的条件,同时使用具有并行架构的混合网络来估计联合动作价值函数。此外,应用探索指导方法来提高最终非支配解集的均匀性。实验表明,所提出的方法可以有效地解决多目标多智能体合作决策问题,并生成近似的帕累托集。我们的方法不仅在所有四种评估指标上显著优于基线方法,而且计算成本更低。
关键词 深度强化学习
多智能体
多目标
决策
帕累托(Pareto)
第一部分 引言 多智能体强化学习(MARL)方法通过强化学习解决多智能体决策问题,通常使用奖励函数来训练智能体在特定任务上进行合作或竞争。优化目标由奖励函数决定,奖励函数为智能体做出的每个决策分配奖励。然而,许多现实世界的问题有多个相互冲突的目标。例如,自动驾驶系统必须考虑两个目标:乘客舒适度和车速。如果效率至关重要,则必须提高车速,这可能导致更多的急刹车或变道行为。另一方面,如果乘客舒适度很重要,则车辆应平稳行驶,这意味着平均速度的降低。相互冲突的目标不能同时达到最优。因此,必须在不同目标之间进行权衡。换句话说,我们为每个目标分配一个权重,以表示对目标的重要性。对于多目标决策问题,常见的解决方案是通过构建合成奖励函数将多目标问题转换为单目标问题,例如,使用多个目标的奖励加权和。通过这种方式,可以通过传统的RL方法找到策略。然而,这种方法有以下缺点:1)只能找到一个优化了固定目标偏好的策略;2)手动寻找最优权重是具有挑战性的。另一种解决方案是多目标强化学习(MORL),它可以学习不同偏好的政策并找到帕累托集近似。MORL框架比单目标RL有明显优势:1)可以找到不同的策略以适应不同的偏好;2)不再需要合成奖励函数。
近年来,在单智能体多目标强化学习领域进行了大量的研究,但这些方法都不能解决多智能体合作决策问题。这是因为单智能体RL算法无法解决以下问题:1)非平稳环境问题:对于一个给定的智能体,所有其他智能体成为环境的一部分,这些智能体的策略在训练过程中不断变化,显著增加了环境的动态性和不稳定性;2)部分可观测问题:智能体只能获得部分环境信息,无法获得其他智能体的观察、动作和奖励;3)信用分配问题:使用联合奖励估计的价值函数无法评估每个智能体的贡献,策略不佳的智能体可能因为其他智能体的行为而获得虚假奖励。
为了应对这些挑战,我们引入了一种新的MOMARL算法,用于学习能够适应不同目标偏好的决策模型。此外,通过输入不同的偏好,我们可以得到一个密集且高质量的策略集合,构成帕累托集近似。所提出的方法不仅能够解决多智能体决策问题,而且还能为不同的偏好生成相应的最优策略。总结来说,我们的主要贡献如下:
我们提出了一种新颖的多目标多智能体合作决策方法,称为MO-MIX,它能够根据不同的输入偏好生成各种策略,并最终实现密集且高质量的帕累托集近似。据我们所知,这是第一个适用于多智能体系统并产生高质量非支配集的多目标强化学习方法。
我们提出了一种探索指导方法。在训练过程中,算法的探索方向受到指导,这可以提高最终帕累托集近似的均匀性。
我们在OpenAI的多智能体粒子环境中评估了我们的算法。为了进行比较,我们构建了一个使用QMIX作为基线的外部循环MOMARL算法。实验结果表明,所提出的MO-MIX方法生成了更高质量的非支配集,在所有四种评估指标上都有明显优势。此外,我们的方法具有显著的效率优势,并且需要的计算成本要少得多。
本文的其余部分组织如下。首先,我们在第二节中回顾了相关工作,包括MARL、MORL和MOMARL。然后,我们在第三节中简要介绍了多目标决策的背景,并提出了MOMARL问题的正式化。第四节详细介绍了所提出的MO-MIX方法。最后,我们在第五节给出实验结果和分析,并在第六节中总结了我们的工作。
第三部分 预备知识 在本节中,我们简要介绍多目标决策的一些概念。然后,我们介绍多目标Dec-POMDP,这是MOMARL的形式化定义。
A. 多目标决策 对于强化学习,一个多目标决策问题可以被表述为:
帕累托最优性 :如果对于任意的策略 和 ,对于所有的 ,都有 ,并且至少存在一个 ,使得 ,则称策略 支配策略 。如果没有其他策略支配某一策略,则称其为帕累托最优策略。任何这样的策略的改进都会导致至少另一个目标的退化。帕累托集 :在多目标决策问题中,没有单一策略可以优化所有目标。理想情况下,需要的是帕累托集,即所有帕累托最优策略的集合。然而,在实际应用中,通常无法获得真正的帕累托边界。相反,可以获得一组非支配策略,这是真实帕累托集的一个近似。非支配集由多个策略组成,在非支配集中,没有策略能在所有目标上优于其他策略。这些策略之间没有优势或劣势,只有对目标的不同偏好。因此,多目标决策的目的是实现一组能够近似目标空间中帕累托边界的高质量策略。B. 多目标Dec-POMDP 多智能体决策问题可以被描述为一个分散部分可观测马尔可夫决策过程(Dec-POMDP),这是马尔可夫决策过程(MDP)的扩展。我们将Dec-POMDP扩展到多目标领域,即多目标Dec-POMDP,包括一个元组 ,其中 是环境的全局状态, 是每个智能体的动作集合, 是对应于m个目标的向量奖励函数, 是概率转移函数。注意奖励向量是团队奖励。在部分可观测环境中,智能体被允许从观测函数 中获取部分观测 ,这是决策的基础。每个智能体根据策略 在每个时间步选择一个动作 。N个智能体选择的动作形成联合动作空间 。然后环境根据转移函数 转换到下一个状态,同时返回向量奖励 。 是折扣因子。未来的奖励通过 进行折扣,旨在平衡即时奖励和长期奖励。 强化学习的目的是要找到使得期望回报最大化的策略 。对于时间步t的状态-动作对 ,回报是未来奖励的折扣和 第四部分 我们的方法 在本节中,我们提出了MO-MIX方法,这是一种端到端的强化学习方法,旨在解决多目标多智能体合作决策问题,可以形式化为多目标Dec-POMDP。首先,我们介绍MO-MIX的两个组成部分:条件智能体网络和多目标混合网络。其次,我们提出了一种探索指导方法,以提高最终非支配解集的均匀性。最后,我们展示了MO-MIX算法的程序。 A. 条件智能体网络 在强化学习中,动作价值函数 是对应于在特定状态 下采取特定动作 的预期累积折扣回报: 策略可以通过选择最大化价值函数的动作来制定。然而,考虑到多目标决策问题,需要一个向量动作价值函数 。我们提出了条件智能体网络(CAN)来估计向量函数 ,它由所有目标的价值函数组成。 CAN由多个多层感知机(MLP)层和一个门控循环单元(GRU)层组成。GRU是一种循环神经网络,可以更好地处理序列信息。我们选择GRU是因为它表现良好且易于计算。GRU的输出与当前时间步的输入以及历史输入都相关。因此,CAN能够利用智能体的整个观测和动作历史,这弥补了局部观测的不足。此外,考虑到需要适应动态权重,我们在GRU后连接了两层MLP以提高网络的表示能力。 在这项工作中,我们不仅要找到一个特定偏好对应的解决方案,还要找到多个非支配解,即找到帕累托集近似。因此,需要使用不同的偏好来训练模型,从而增加非支配集的多样性。为此,将偏好向量作为网络输入的一部分,使得训练好的模型基于输入偏好产生适当的策略。如果没有这种设置,算法将只输出一个特定偏好对应的策略。每个智能体使用独立的CAN来估计他们各自的动作价值函数。网络的输入是智能体的观测和动作信息,以及代表偏好的偏好向量 。输入偏好向量的目的是使神经网络估计具有特定权重的向量 函数。由于观测和动作信息的维度明显大于偏好向量的维度,为了避免模型忽略偏好信息,我们将偏好向量 多次复制。例如,如果有2个目标,原始偏好向量是一个2维向量,我们将复制到14维,然后与状态信息连接作为网络的输入。 我们考虑离散动作空间 ,包括 个动作 。在每个时间步,CAN输出每个可选动作的向量 ,基于智能体的观测历史 。在训练过程中,智能体的行为遵循 -greedy规则,即以概率 选择随机动作,否则选择最优动作。最优动作是根据向量 的标量化定义的,即当前权重 用于加权 ,选择最大化加权和的动作。 图1显示了CAN和智能体动作选择的架构。简而言之,CAN是CTDE框架的分散执行部分。智能体通过选择Q 生成的各自最优动作与环境交互。
然后使用混合网络生成联合动作价值函数的估计,用于计算TD误差以训练CAN。这将在以下部分详细说明。 B. 多目标混合网络 为了处理多智能体系统的非平稳环境问题,需要集中训练,这意味着使用基于全局观测的联合动作价值函数来评估智能体的行为。 我们提出了多目标混合网络(MOMN),这是对当前MARL方法的改进,灵感来自VDN和QMIX的工作。MOMN是一个具有并行架构的混合网络,用于生成多个目标的 值。具体来说, 个智能体的 向量输入到并行网络,每个 向量由 个对应于 个目标的 值组成。为了解决多目标决策问题,MOMN内部被划分为多个独立的并行路径,每个路径包含两个神经网络层。 个智能体的 向量根据目标重新组织,其中对应于某个目标的 值被组合并输入到某个MOMN路径中。最后,每个MOMN路径的输出被连接在一起,产生 ,它是一个由 个目标的 组成的向量,即: MOMN必须混合所有智能体的动作价值向量 以满足单调性约束(2)。为此,使用多个超网络为混合网络的MLP层生成权重和偏差,这与QMIX方法相同。对于每个神经网络层,使用两个超网络来生成其参数。一个用于权重,另一个用于偏差。每个MOMN路径有两层MLP,因此一个路径有四个超网络。每个产生权重的超网络由一个线性层组成,并使用绝对值激活函数以确保输出是非负的。这保证了混合网络的输出满足单调性约束。产生偏差的超网络不需要绝对值激活函数,因为偏差没有非负性约束。对于每个路径的最后一层的偏差,使用两层超网络以及ReLU激活函数。所有超网络都以全局状态 作为输入,这确保了混合网络可以利用全局观测信息。
图2展示了MOMN的架构以及CAN和MOMN之间的连接。图3展示了超网络与一个MOMN路径之间的连接。简而言之,MOMN以CAN的输出作为输入,并输出联合动作价值向量 。同时,MOMN满足单调性约束,使得 因此,智能体可以通过(6)分别选择动作,而整个网络可以以集中的方式进行训练。 C. 探索指导方法 在交互阶段,智能体的最优动作由(6)定义。也就是说,使用当前的偏好权重 对向量 进行标量化,基于标量化的 值选择动作。权重 表示对不同目标的优先级,它不仅决定了智能体行为的评估标准,还决定了算法的探索方向。然而,对目标进行加权并不能保证与偏好相匹配的最终策略。即使在训练过程中始终使用常量 ,有效地将问题转换为单目标问题,也不能保证训练出的策略在该权重下是最优的。在单策略方法中,可能需要仔细调整每个目标的权重,以获得满意的策略。这是因为目标空间的某些部分比其他部分更难实现。例如,考虑一个训练步行机器人的任务,目标有两个:速度和能效。如果重视节能,那么机器人可以简单地保持静止,或者保持非常慢的速度。然而,如果同时要求高速度和低能耗,机器人必须仔细在两个目标之间进行权衡,这需要时间来训练,并且容易收敛到更容易实现的次优策略。 这个问题在MORL中也存在,并反映在最终非支配集的均匀性上。我们提出了一种探索指导方法来缓解这个问题,并提高最终解集的均匀性。具体来说,维护一个非支配集,其中包含到目前为止找到的所有非支配解。在训练阶段,每个情节都采样一个 作为网络的输入。我们将整个偏好空间划分为多个子空间,并根据当前目标空间中非支配解的分布调整不同子空间中偏好的采样概率。实际上,偏好向量是一个角度范围在0-90度的角向量,因此我们根据角度将其均匀划分为四个部分。如果某个子空间中的解更稀疏,则增加其中偏好的采样概率。这允许在性能较差的子空间中采样和训练更多的权重。然后非支配集会定期重置,以确保它反映了当前策略的质量。 D. MO-MIX算法 MO-MIX属于CTDE框架,并使用联合动作价值进行端到端训练。它也是一种时序差分算法。算法的程序在算法1中展示。
具体来说,训练过程被分为交互阶段和更新阶段。在交互阶段,每个智能体根据各自的部分观测选择动作,遵循 -greedy策略。在每个情节的开始,随机采样一个偏好向量 并用作MO-MIX的输入的一部分,如第IV-C节中详细描述的。偏好向量 是一个m维向量。每个维度是一个在0和1之间的权重,表示一个目标的重要性。在算法1中,我们使用一个采样间隔为0.0125的离散偏好采样空间 ,即 。然后执行联合动作 ,环境返回奖励向量和关于下一个状态的信息。经验回放用于存储离策略数据。在每个时间步,存储全局状态、部分观测、联合动作、奖励向量、下一个全局状态和部分观测以及偏好。 在更新阶段,我们从重放缓冲区中采样一批转换,并在此时采样偏好向量。使用一个评估网络 和一个目标网络 来增加算法的稳定性。目标网络是一个慢速更新的网络,定期与评估网络同步。训练数据从经验重放中采样,使用目标网络计算TD目标和损失。我们还参考了Yang等人提出的信封值更新方法。他们的实验表明,该方法在单智能体设置中具有良好的性能。在计算TD目标时,还采样了一些额外的偏好 ,它们被用来发现潜在的最佳更新目标,从而提高学习效率。TD目标 可以按如下方式计算: 评估网络 在每个训练步骤中使用(10)进行更新,并且其参数定期复制到目标网络 。 此外,需要讨论信封MOQ-Learning和我们方法之间的联系。信封MOQ-Learning是由Yang等人提出的一种先进的MORL算法。他们定义了多目标优化操作符 如下: 他们证明了,通过反复将优化操作符 应用于任何多目标价值函数,最终将得到一个与最优价值函数 等价的函数。 我们将优化操作符(11)扩展到多智能体设置,并为多目标多智能体RL设计了TD目标(9)。理论上,信封MOQ-Learning的分析仍然成立。如前所述,MOMN输出联合动作价值函数 ,然后使用(9)和(10)计算TD目标和损失。这是在 上反复应用优化操作符 ,意味着它理论上会收敛到最优的联合动作价值函数 。此外,由于满足了单调性条件(8),根据部分价值函数选择的智能体最优动作等同于根据联合价值函数 选择的动作。 多智能体多目标设置的关键难点在于如何确保算法的效率和稳定性。所考虑问题中的两个主要问题,即“多目标”和“多智能体”,极大地增加了问题的复杂性。在提出的方法中,我们使用了具有并行架构的混合网络,每个路径专注于一个目标,这有助于降低复杂性并使算法能够有效地学习。此外,我们根据当前非支配集提出了一种探索指导方法,这有助于提高算法的稳定性和性能。 第五部分 实验 为了验证所提方法的有效性,我们在OpenAI的多智能体粒子环境(MPE)和StarCraft多智能体挑战(SMAC)环境中进行了实验。 A. 仿真环境 主要的实验结果来自于MPE,这是广泛使用的RL基准测试之一。此外,该算法还在更具挑战性和动态性的SMAC环境中进行了测试。 1) MPE的设置: 我们的实验使用了MPE中的Simple Spread环境,这是一个包含多智能体合作导航任务的环境,需要多个智能体合作并尽可能覆盖所有地标。 我们使用了PettingZoo版本的MPE。每个智能体的动作空间是离散的,智能体可以选择4个基本方向的动作或不采取动作。这意味着离散动作空间为: 环境的全局状态是 ,其中 是所有 个智能体和 个地标的物理状态,包括速度、位置坐标和类型。每个智能体的观测值是 ,其中 表示智能体 在参考框架中获得的观测值,例如相对速度和距离。具体来说,智能体的物理信息定义为 ,其中 是位置, 是 的速度。 是类型,例如颜色和形状。物理状态的转换遵循: 其中 是时间步长间隔。 是智能体当前选择的速度,包括速度大小和方向。 是智能体和障碍物之间的物理力。 是阻尼系数。在智能体 的观测中,相对位置 计算如下: 其中 是随机旋转矩阵,使得每个智能体都有一个不同的私人参考框架。 为了应用多目标决策问题,我们对原始环境进行了修改。考虑一个合作巡逻任务,其中几个智能体应该围绕目标区域,同时不聚集在一个地方。为此,我们设定了两个冲突的目标。 其中 表示智能体 与地标 之间的距离。智能体 获得的奖励对应于目标2是 其中 是智能体 与其他智能体之间的最小距离。系数 和 用于调整 的范围,使其与 的范围相似。在我们的实验设置中, , 。总之, 将驱使所有智能体朝单一位置移动,而 将驱使智能体远离彼此。最终,所有智能体获得的奖励的平均值用作团队奖励。我们处理的是多智能体合作问题,意味着多个智能体必须合作以优化团队奖励。此外,我们使用两个团队奖励,对应两个冲突的目标,形成一个多目标问题。 2) SMAC的设置: SMAC是基于Blizzard的StarCraft II RTS游戏的代表性协作MARL基准测试。在原始SMAC中,只有一个目标,就是赢得战斗。为了测试多目标算法,我们设定了两个冲突的目标,即攻击和逃跑。在每个时间步,智能体 获得的奖励对应于目标1是 其中 是敌方智能体 受到的伤害, 是杀死一个敌人的一次性奖励。智能体 获得的奖励对应于目标2是 其中 是友方智能体 受到的伤害, 是友方被杀的一次性惩罚。最后,我们调整奖励值,使得一回合中的最大累积奖励为150。 B. 基线 目前,没有基于深度RL的第二种多策略MOMARL方法。现有的方法不能解决具有连续状态空间的复杂MARL决策问题。因此,我们设计了一个外部循环多目标方法进行比较。在我们的测试中,单目标QMIX算法在原始MPE任务中表现相当好。此外,Hu等人的工作表明QMIX算法已经超过了许多较新的方法,是表现最好的MARL算法之一。因此,我们选择这个算法构建比较方法。它使用外部循环来搜索偏好,并使用QMIX学习策略。这种方法用作MO-MIX的基线。为了确保公平比较,基线方法和我们提出的方法都在修改后的环境(具有奖励(15)和(16))中进行了测试和比较。这意味着基线方法不使用稀疏奖励配置。算法2显示了算法的过程。
C. 实施细节 我们为条件智能体网络使用了一个64维的GRU层。GRU层之前是一个MLP层,之后是两个MLP层。多目标混合网络由两个MLP层组成,而两层的权重和偏差是使用四个超网络生成的。对于MPE,我们使用5×10^-6的学习率,并训练75,000回合。网络每次更新使用一批数据,批量大小为64。数据的基本单位是一回合,因为GRU以观测历史作为输入。重放缓冲区的大小为12,000,折扣因子γ为0.99。 对于SMAC,重放缓冲区的大小为20,000,批量大小为128。 -greedy策略被用来增加智能体的探索。在训练期间,每个智能体以概率 随机选择动作,而 从1.0开始线性减小。考虑到网络需要适应整个偏好空间,需要更多的探索。我们在一些训练步骤后重置了 。每个回合开始时采样一个偏好 ,这允许训练好的网络适应不同的偏好。我们根据第IV-C节中介绍的方法调整偏好的采样概率。为了确保训练的稳定性,我们使用了一个较长的更新周期,即目标网络每3,500步更新一次。更新周期在训练过程中将逐渐增加。 D. 结果 我们使用了四种评估指标:超体积度量(HV)、间距度量、稀疏度度量和多样性度量。 最终非支配解集的大小用作多样性度量。更高的多样性度量意味着算法可以找到更多的非支配解,这更好。多样性度量定义如下: 超体积度量是目标空间中被参考点和算法获得的非支配解包围的区域的体积。HV值越大,算法的综合性能越好。HV是Pareto兼容的评估方法,意味着如果一个解集P比另一个解集P'更好,那么解集P的超体积度量将大于解集P'的超体积度量。HV定义如下: 其中 是勒贝格度量,用于测量体积。 表示非支配集P中的解的数量, 表示参考点和解集中第i个解形成的超体积。 间距度量是解集中连续点之间的欧几里得距离的标准差,间距值越小,解集越均匀。间距度量定义如下: 其中 表示第i个解与P中下一个相邻解之间的距离, 表示所有 的平均值。 稀疏度度量是解集中连续点之间的平均平方欧几里得距离,稀疏度度量越小,解集越密集。稀疏度度量定义如下: 1) MPE的结果: 对于MO-MIX算法,我们展示了五次独立运行的结果,偏好的采样间隔为0.0125。完整的训练包括75,000回合。对于外部循环QMIX算法,我们进行了41轮训练,每轮使用不同的偏好,每轮持续25,000回合。偏好的采样间隔为0.025。 图4显示了训练过程中平均效用曲线。数据基于MO-MIX算法的五次独立运行,使用滑动平均算法估计局部均值,参数为0.85。浅色部分显示标准差。
图5显示了训练过程中超体积度量的变化曲线。我们每5,000回合对模型进行一次完整测试。偏好的采样间隔为0.0125。通过执行所有输出策略的Pareto分析,移除被支配解。最后,为非支配集计算HV度量。我们使用(-200, -140)作为参考点。
图6显示了由所提出的MO-MIX方法和基线方法生成的非支配集的比较。不同的独立管路显示为不同颜色的点。左图显示了MO-MIX算法的五次独立运行的结果。右图显示了41轮训练后的外环QMIX方法的结果。相同颜色的点由一个非支配集的策略生成。更具体地,点的x值指示通过关于目标1的策略获得的奖励。类似地,y值指示目标2上的策略所获得的奖励。对应于不同偏好的多个策略构成非支配集。由于我们处理的是多智能体合作问题,智能体必须合作才能获得团队报酬,因此非支配集中的策略实际上包含了所有智能体的策略。一旦得到非支配集,用户就可以根据实际需要选择合适的策略。例如,如果用户认为目标1比目标2重要得多,则应在图的右下角区域中选择策略。一个性能良好的多目标算法应该能够生成高质量的非支配集,这些非支配集可以通过前面提到的四个度量来评估。此外,图6提供了一个直观的视图,显示了MO-MIX算法比基线方法生成更好的非支配集。此外,图7示出了在训练的不同阶段的非支配集,其是学习过程的视觉表示。
表I显示了两种方法在不同评估指标上的结果。MO-MIX方法生成的非支配集的超体积值比基线方法高17.27%,表明我们的方法具有更高的综合性能。此外,MO-MIX的结果在间距度量、稀疏度度量和多样性度量上明显优于基线方法。在计算成本方面,MO-MIX算法需要75,000回合的训练才能达到图示的水平,而外部循环QMIX算法需要1,025,000回合,是前者的13倍以上。此外,考虑到偏好的更高采样密度可能会带来更好的结果,我们重新测试了基线方法,将偏好的采样间隔从0.025改为0.01,记为“基线v2”。也就是说,我们进行了101轮训练,每轮使用不同的偏好,总共需要2,525,000回合。实验结果也显示在表I中。结果表明,基线v2与基线相比,性能提升很小,但需要更多的训练回合。这表明,对于外部循环QMIX算法,增加偏好的采样密度不是有效的方法。
图8显示了应用不同偏好采样间隔的MO-MIX算法的结果。图8的子图显示了超体积、多样性、间距和稀疏度度量的曲线。我们绘制了五次实验的平均性能。浅色部分显示标准差。
图9显示了完整的MO-MIX算法与移除了探索指导部分的MO-MIX算法的比较。完整的MO-MIX算法在所有四个评估指标上都优于另一个,这表明了所提出的探索指导方法的有效性。
2) SMAC的结果: 对于SMAC环境,实验在“2s3z”场景中进行。所提出的MO-MIX算法训练了500万步,偏好的采样间隔为0.0125。外部循环QMIX算法训练了41轮,每轮使用不同的偏好,每轮持续100万步。 表II显示了两种方法在不同评估指标上的结果。图10显示了所提出的MO-MIX方法和基线方法生成的非支配集的比较。
实验结果表明,MO-MIX算法在超体积度量上优于基线,在多样性度量、间距度量和稀疏度度量上具有显著优势。基线算法产生的非支配集的多样性和均匀性非常低,这表明它不能有效地近似帕累托前沿。在效率方面,值得注意的是,MO-MIX算法需要500万步的训练,而基线需要4100万步,表明MO-MIX显著更有效。 3) 总结: 上述实验表明了所提方法的有效性。我们注意到,外部循环QMIX方法可以在目标空间的某些部分达到良好的水平。然而,由于目标空间的某些部分比其他部分更容易达到,外部循环QMIX方法经常收敛到这些次优解。这导致最终解可能是重复的或被其他类似解支配。即使我们多次使用许多不同的偏好运行算法,我们仍然没有得到理想的非支配集。相比之下,我们的MO-MIX方法可以更充分地探索偏好空间,并利用不同偏好的训练轨迹。因此,算法可以在整个偏好空间上泛化,并根据输入偏好生成相应的最优策略。通过向训练好的模型输入不同的偏好权重,可以获得密集且高质量的策略集合,这是帕累托集近似。 第六部分 结论 在本文中,我们提出了MO-MIX,这是一种新颖的多目标多智能体强化学习(MOMARL)方法,旨在解决具有连续状态空间的多目标多智能体合作决策问题。我们使用偏好作为条件来估算局部动作价值函数,并使用具有并行架构的多目标混合网络来生成联合动作价值函数的估计。我们的方法可以充分探索偏好空间,并利用具有不同偏好的训练轨迹。因此,算法可以在整个偏好空间上泛化,并根据输入偏好生成相应的最优策略。通过向训练好的模型输入不同的偏好权重,可以获得密集且高质量的策略集合,构成帕累托集近似。在实验中,MO-MIX算法在所有评估指标上明显优于基线方法,同时需要的训练步骤更少。 目前,我们的算法已经在两个冲突目标的情况下进行了测试。对于三个或更多目标,算法在理论上是可以应用的。主要的区别应该是根据目标的数量设置混合网络的轨道数量。然而,进一步的实验尚未进行,这不是一项简单的任务。在未来的工作中,我们的目标是探索具有更多困难任务或目标多样性的更复杂的多目标多智能体问题。 声明 本文内容为论文学习收获分享,受限于知识能力,本文对原文的理解可能存在偏差,最终内容以原论文为准。本文信息旨在传播和学术交流,其内容由作者负责,不代表本号观点。文中作品文字、图片等如涉及内容、版权和其他问题,请及时与我们联系,我们将在第一时间回复并处理。 你是否有这样的苦恼:自己辛苦的论文工作,几乎没有任何的引用。为什么会这样?主要是自己的工作没有被更多的人了解。
计算机书童 为各位推广自己的论文搭建一个平台,让更多的人了解自己的工作,同时促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 计算机书童 鼓励高校实验室或个人,在我们的平台上分享自己 论文 的介绍、解读 等。
稿件基本要求:
• 文章确系个人 论文的解读 ,未曾在公众号平台标记原创发表,
• 稿件建议以 markdown 格式撰写,文中配图要求图片清晰,无版权问题
投稿通道:
• 添加小编微信协商投稿事宜,备注:姓名-投稿
△长按添加 计算机书童 小编