从目标分配到路径规划，哈工大团队提出智能仓库的多智能体深度学习解决方案

文摘 2024-08-28 08:00 美国

随着物流行业的快速发展，智能仓库技术应运而生，旨在提高仓储效率和灵活性。传统仓库依赖传送带等固定设备，虽然能够完成基本的物料搬运任务，但其灵活性差，难以适应不断变化的需求。智能仓库通过引入多智能体系统，利用自主移动的机器人来完成货物的搬运和分拣，大大提升了仓储操作的效率和灵活性。然而智能仓库面临的一个关键挑战是如何有效地进行目标分配和路径规划（TAPF），以确保多个机器人能够高效协同工作，避免路径冲突和资源浪费。

在智能仓库中，TAPF问题涉及为每个机器人分配任务（如搬运货物）并规划其行进路径，以确保任务能够高效完成且路径不发生冲突。TAPF问题的复杂性在于其通常是一个NP难问题，具有巨大的搜索空间。传统方法通常将目标分配和路径规划分开处理，但这种方法忽略了两者之间的相互影响，可能导致次优的解决方案。合理的目标分配不仅可以有效减少机器人的路径长度，提高操作效率，还能帮助避免不同机器人之间的路径冲突。因此，解决TAPF问题对于智能仓库的高效运行至关重要。

8 月 27 日发表的论文《Multi-Agent Target Assignment and Path Finding for Intelligent Warehouse: A Cooperative Multi-Agent Deep Reinforcement Learning Perspective》提出了一种基于合作多智能体深度强化学习（RL）的方法，首次将TAPF问题建模为合作多智能体深度RL问题，并同时解决目标分配和路径规划。具体创新点包括：

首次建模：论文首次将TAPF问题建模为合作多智能体深度RL问题，填补了现有研究的空白。
物理动态特性：在路径规划阶段，论文考虑了机器人的物理动态特性（如速度和加速度），这在以往研究中较为少见。
实验验证：通过实验验证，论文方法在各种任务设置中表现良好，目标分配合理，路径接近最短，且比基线方法更高效。

这些创新点不仅为智能仓库中的TAPF问题提供了新的解决思路，也展示了合作多智能体深度RL在实际应用中的潜力。

论文的研究团队来自哈尔滨工业大学（深圳）控制科学与工程系，成员包括Qi Liu, Jianqi Gao, Dongjie Zhu, Xizheng Pang, Pengbin Chen, Jingxiang Guo, Yanjie Li。团队在多智能体系统、深度强化学习和智能仓库技术方面具有丰富的研究经验和技术积累。通过本研究，团队展示了其在智能仓库领域的创新能力和技术实力，为未来的研究和应用奠定了坚实基础。

背景与动机

传统仓库技术主要依赖于传送带、叉车和固定的货架系统来完成物料搬运和存储。这些系统虽然在一定程度上提高了仓储效率，但其局限性也十分明显。首先，传统仓库系统缺乏灵活性，难以适应不断变化的订单需求和仓储布局调整。其次，传送带和固定货架系统的扩展性差，增加新的存储空间或搬运路径往往需要大规模的硬件改造。此外，传统仓库系统的自动化程度有限，依赖大量人工操作，导致人力成本高且容易出现人为错误。

智能仓库系统的优势

智能仓库系统通过引入多智能体系统（如自主移动机器人），克服了传统仓库技术的诸多局限性。智能仓库的主要优势包括：

高灵活性：智能仓库中的自主移动机器人可以根据实时需求动态调整搬运路径和任务分配，适应性强。
高扩展性：智能仓库系统可以通过增加或减少机器人数量来灵活调整仓储能力，无需大规模硬件改造。
高效率：多智能体系统能够并行处理多个任务，显著提高了仓储操作效率。
低人力成本：智能仓库系统的高度自动化减少了对人工操作的依赖，降低了人力成本和人为错误的风险。

现有TAPF问题解决方法的不足

在智能仓库中，目标分配与路径规划（TAPF）问题是确保多个机器人高效协同工作的关键。然而现有的TAPF问题解决方法存在一些不足之处。

分离处理：传统方法通常将目标分配和路径规划分开处理，忽略了两者之间的相互影响。这种方法可能导致次优的解决方案，无法充分优化整体效率。

物理动态特性忽略：许多现有方法在路径规划中忽略了机器人的物理动态特性（如速度和加速度），导致规划路径不够精确，影响实际执行效果。

时间效率低：传统方法在处理复杂任务场景时，计算时间迅速增加，难以满足实际应用中的实时性要求。

论文提出的基于合作多智能体深度强化学习的方法，旨在同时解决目标分配和路径规划问题，并考虑机器人的物理动态特性，从而克服现有方法的不足，提高智能仓库系统的整体效率和实用性。

TAPF问题的建模

目标分配与路径规划（TAPF）问题是智能仓库系统中的核心问题之一。TAPF问题包括两个主要部分：多智能体任务分配（MATA）和多智能体路径寻找（MAPF）。在MATA中，系统需要根据订单需求为每个智能体分配特定任务，而在MAPF中，系统需要规划每个智能体的路径，确保其在执行任务时不会与其他智能体发生冲突。TAPF问题通常是NP难问题，具有巨大的搜索空间，直接求解非常困难。传统方法通常将这两个问题分开处理，但这种方法忽略了任务分配和路径规划之间的相互影响，可能导致次优的解决方案。

图1：将TAPF建模为MARL问题

多智能体强化学习（MARL）是一种处理多个智能体在共同环境中交互的学习方法。MARL的目标是学习一个策略，使所有智能体能够协同工作，完成共同目标。MARL可以通过以下几个关键元素来建模。

状态空间（S）：表示系统的所有可能状态。
动作空间（A）：表示智能体可以执行的所有可能动作。
状态转移函数（P）：描述系统从一个状态转移到另一个状态的概率。
奖励函数（r）：定义智能体在执行某个动作后获得的奖励。
折扣因子（γ）：用于平衡即时奖励和未来奖励的权重。
时间范围（T）：表示决策过程的时间跨度。

在MARL中，每个智能体根据其观测到的环境状态选择动作，并通过与环境和其他智能体的交互来学习最优策略。合作多智能体深度强化学习（Cooperative MARL）特别适用于需要多个智能体协同工作的场景，如智能仓库中的TAPF问题。

在智能仓库的TAPF问题中，考虑智能体的物理动态特性（如速度和加速度）对于提高路径规划的精确性和实际执行效果至关重要。传统方法通常只关注智能体的下一个位置，而忽略了其物理动态特性，这可能导致规划路径不够精确，影响实际执行效果。

论文提出的方法首次在TAPF问题中考虑了智能体的物理动态特性。具体来说，智能体的动作空间是连续的，表示智能体在四个基本方向上的移动速度。通过计算智能体的速度和加速度，可以更准确地规划其路径，确保路径规划的实际可行性和高效性。

图2：智能体的物理动力学

通过将TAPF问题建模为合作多智能体深度强化学习问题，并考虑智能体的物理动态特性，论文提出的方法能够更有效地解决智能仓库中的目标分配与路径规划问题，提高系统的整体效率和实用性。

具体方法

1. TAPF问题的MARL建模

状态空间、动作空间与奖励函数的定义

在论文中，目标分配与路径规划（TAPF）问题被建模为一个合作多智能体强化学习（MARL）问题。具体来说，系统的状态空间（S）、动作空间（A）和奖励函数（r）被定义如下：

状态空间（S）：每个智能体的观测包含其自身的位置和速度、所有任务的相对位置、其他智能体的相对位置以及邻近障碍物的相对位置。通过这些观测，智能体能够感知其周围环境并做出决策。

动作空间（A）：智能体的动作空间是连续的，表示智能体在四个基本方向上的移动速度（左、右、下、上）。最终动作是四个方向速度的向量和。

奖励函数（r）：奖励函数被定义为多个部分的组合，包括任务成功奖励、任务到智能体的距离奖励、智能体与障碍物碰撞的惩罚以及智能体之间碰撞的惩罚。具体公式如下：

成功奖励：

其中n表示满足条件的元素数量。

距离奖励：

碰撞惩罚（障碍物）：

其中n表示满足条件的元素数量。

碰撞惩罚（智能体）：

其中n表示满足条件的元素数量。

智能体的物理动态特性

论文首次在TAPF问题中考虑了智能体的物理动态特性。具体来说，智能体的动作不仅仅是位置的变化，还包括速度和加速度的计算。通过计算智能体在四个基本方向上的力（F⃗x, F⃗−x, F⃗y, F⃗−y），根据牛顿第二定律可以得到加速度，然后通过加速度计算速度，最终得到智能体的动作。这种方法使得路径规划更加精确，能够更好地反映实际执行中的物理特性。

图3：智能体的动作空间

2. 使用MADDPG算法解决TAPF问题

策略网络与评论者网络的更新

在论文中，使用多智能体深度确定性策略梯度（MADDPG）算法来解决TAPF问题。由于智能体是同质的，它们可以共享相同的策略网络，从而提高学习效率。具体来说，策略参数通过集中评论者Q进行迭代更新，评论者参数通过最小化损失函数进行优化：

策略参数的更新公式为：

其中，xt和at分别表示所有智能体在时间步t的观测和动作的拼接，D表示包含样本的重放缓冲区。

评论者参数的优化公式为：

其中，yt为目标评论者网络的值，定义为：

奖励共享与执行阶段的策略

在训练过程中，智能体通过共享奖励来学习合作策略。在执行阶段，仅使用策略网络π，其输入为各智能体的观测，输出为施加在智能体上的力。根据智能体的物理动态特性，可以计算出智能体的动作。具体来说在执行阶段，每个智能体仅依赖其局部观测进行决策，从而实现分散执行。

图4：任务和智能体的距离矩阵。

通过这种方法，论文提出的解决方案能够同时解决目标分配和路径规划问题，提高智能仓库系统的整体效率和实用性。

实验结果

1. 目标分配与路径规划性能验证

为了验证论文方法在目标分配与路径规划（TAPF）问题上的性能，研究团队在不同难度的智能仓库场景中进行了实验。实验设置了五个不同难度的场景：两个智能体-两个任务、两个智能体-四个任务、五个智能体-五个任务、五个智能体-十个任务和五个智能体-二十个任务。

实验结果显示，在所有不同难度的场景中，论文方法的平均回报值均呈现出单调增加的趋势，验证了方法的稳定性。具体表现如下：

简单任务（如两个智能体-两个任务）：目标分配和路径规划均表现良好，任务分配合理，路径接近最短。

复杂任务（如五个智能体-二十个任务）：尽管任务难度逐渐增加，论文方法依然能够合理分配任务，并规划出接近最短的路径。

这些结果表明，论文方法在各种任务设置中均能有效解决TAPF问题，具有较高的适应性和稳定性。

2. 合作能力验证

为了验证智能体在冲突场景下的合作能力，研究团队设计了一个特定的冲突场景。在该场景中，两个智能体的任务路径必然会发生冲突。实验结果显示，智能体能够在冲突点互相避让，然后继续导航到各自的任务点，成功完成任务。

具体表现为：

智能体1和智能体2：在冲突点互相避让，分别沿着红色和青色轨迹完成导航任务。

这一结果验证了论文方法在合作多智能体深度强化学习中的有效性，智能体能够在复杂环境中学会合作，避免冲突，提高任务完成效率。

3. 时间效率验证

时间效率是实际应用中一个重要的考量因素。研究团队将论文方法与传统方法在时间消耗上的表现进行了对比。传统方法先解决目标分配问题（TA），然后进行路径规划（PF），而论文方法同时解决这两个问题。

实验结果显示：

简单任务（如两个智能体-两个任务）：传统方法的时间消耗可以接受。

复杂任务（如五个智能体-二十个任务）：传统方法的时间消耗迅速增加，难以满足实时性要求。相比之下，论文方法在所有不同难度的任务中均能高效地提供策略，验证了其时间效率。

这些结果表明，论文方法在时间效率上具有显著优势，能够更好地满足实际应用中的需求。

实验结果展示了论文方法在智能仓库中的潜在应用价值。通过同时解决目标分配和路径规划问题，并考虑智能体的物理动态特性，论文方法不仅提高了系统的整体效率和稳定性，还展示了其在实际应用中的高效性和实用性。这为智能仓库系统的进一步发展和优化提供了新的思路和技术支持。

讨论与未来工作

论文方法首次将目标分配与路径规划（TAPF）问题建模为合作多智能体深度强化学习（MARL）问题，能够同时解决这两个关键问题，避免了传统方法中分离处理带来的次优解。在路径规划中考虑了智能体的物理动态特性（如速度和加速度），使得规划路径更加精确，能够更好地反映实际执行中的物理特性。实验结果表明，论文方法在各种任务设置中均表现出较高的时间效率，能够满足实际应用中的实时性要求。智能体在冲突场景中能够学会合作，避免路径冲突，提高任务完成效率。

尽管论文方法在时间效率上表现优异，但在处理大规模智能体和任务时，计算复杂度仍然较高，可能需要进一步优化算法以提高可扩展性。论文方法在特定的智能仓库环境中表现良好，但在不同类型的仓库环境中，可能需要对算法进行调整和优化，以适应不同的应用场景。深度强化学习方法通常需要大量的训练时间和计算资源，论文方法在实际应用中可能需要较长的训练周期。

进一步优化算法以降低计算复杂度，提高可扩展性，使其能够处理更大规模的智能体和任务。研究如何使算法在不同类型的智能仓库环境中具有更好的适应性，提升其通用性。探索实时学习和在线更新的方法，使智能体能够在实际操作中不断学习和优化策略，提升系统的动态响应能力。结合视觉、语音等多模态信息，提升智能体的感知能力和决策精度。

论文方法在智能仓库中的成功应用展示了其在智能物流领域的巨大潜力，未来可以推广到更广泛的物流场景中，如智能配送中心和无人仓库。在智能制造领域，论文方法可以用于优化生产线上的物料搬运和任务分配，提高生产效率和灵活性。在服务机器人领域，论文方法可以用于多机器人协作任务，如清洁机器人和配送机器人，提升其协作能力和任务完成效率。

结论

论文提出了一种基于合作多智能体深度强化学习的方法，首次将智能仓库中的目标分配与路径规划（TAPF）问题建模为合作多智能体深度强化学习问题，并同时解决这两个关键问题。通过实验验证，论文方法在各种任务设置中均表现良好，目标分配合理，路径接近最短，且比基线方法更高效。论文方法在时间效率和合作能力上表现出显著优势，展示了其在智能仓库中的潜在应用价值。

论文方法通过同时解决目标分配和路径规划问题，并考虑智能体的物理动态特性，不仅提高了智能仓库系统的整体效率和稳定性，还展示了其在实际应用中的高效性和实用性。未来，论文方法有望在智能物流、智能制造和服务机器人等领域得到广泛应用，为这些领域的进一步发展和优化提供新的技术支持和解决方案。（END）

参考资料：https://arxiv.org/pdf/2408.13750

波动世界（PoppleWorld)是噬元兽数字容器的一款AI应用，是由AI技术驱动的帮助用户进行情绪管理的工具和传递情绪价值的社交产品，基于意识科学和情绪价值的理论基础。波动世界将人的意识和情绪作为研究和应用的对象，探索人的意识机制和特征，培养人的意识技能和习惯，满足人的意识体验和意义，提高人的自我意识、自我管理、自我调节、自我表达和自我实现的能力，让人获得真正的自由快乐和内在的力量。波动世界将建立一个指导我们的情绪和反应的价值体系。这是一款针对普通人的基于人类认知和行为模式的情感管理Dapp应用程序。

加入AI交流群请扫码加微信

http://mp.weixin.qq.com/s?__biz=MzA3NTY1MDY4MA==&mid=2247486349&idx=1&sn=764f02dd646862b264e98a43979dc598

大噬元兽

噬元兽FlerkenS 是一个去中心化的AI数字价值容器，捕捉数字时代新型资产，用数据飞轮把你的数据和内容转化成为你的财富，带你走进下一个智能互联网。

心理测量与语言学数据集PhDGPT：大模型的情感与认知分析

解密心智理论：从人类社会到人工智能的集体智慧提升之路

多智能体系统的金融交易,详解FinVision框架如何革新股票市场预测

智能调度新探索，多智能体强化学习在无关平行机调度中的应用

《自然》科学报告：大模型在社会情境判断方面可以胜过人类

微软研究院成果：用于解决复杂任务的Magentic-One通用多智能体系统

多智能体的文明之路，数字人类与AI社会的崛起

揭秘大模型中的神经网络，从ANs到类脑功能组织

中国科学院、上海人工智能实验室等联合团队重新定义语言模型发展，利用语言不平衡实现多语言自我改进

智能体协作进化论，从心智理论到逆向注意力

加州大学伯克利分校团队提出类脑推理的规范理论，泊松分布下的尖峰神经网络创新

谷歌与学术界联手，研究突破多智能体合作瓶颈的新算法

阿里巴巴“通义实验室”突破大模型推理瓶颈，MCoT框架展开在数学推理中的应用

亚马逊、微软、谷歌DeepMind 联合团队的杰作，POLYMATH 引领MLLMs多模态推理新基准

简洁胜于复杂，亚马逊研究团队提出基于LLM的Web代理AGENTOCCAM的研究与应用

从NLP到多智能体系统，通过BERTeam实现多智能体对抗中的最优组合

阿里巴巴达摩院、新加坡科技设计大学和南洋理工大学联合团队提升AI多步推理能力的新方法

人工智能与人类情感的交汇点：一致性评估方法的探索

斯坦福大学和伦敦大学学院联合打造多智能体系统中的安全防线，应对大模型即时感染

中科院、阿里巴巴、澳门科技大学联合团队提出微调LLM的新思路，探索顺序协作多智能体强化学习在LLM微调中的应用

从物理学到人工智能：用哈密顿力学提升AI推理能力

国家人机混合增强智能重点实验室项目：利用生成世界模型优化多智能体系统决策

香港科技大学、阿里巴巴集团和东南大学联合团队优化智能体协作系统，多智能体系统中代理导向规划的设计原则

OpenAI o1模型的规划能力评估：可行性、最优性与普遍性

《自然》Scientific Data：从数据到发现，AI在材料科学中的颠覆性应用

《自然》期刊：上海交通大学与上海人工智能研究所联合推出医学多语言模型

从 ASI到 AHI，人类与AI共生的发展之路

Google Research Scholar和DeepMind奖学金支持项目：多智能体系统中的合作弹性

自然（Nature）科学数据子刊：用于对话情境中情绪识别的 EEG-音频-视频数据集的创新应用

从CoT到ToT，多智能体与思维树结合突破复杂推理瓶颈

智能体在连续环境中的路径优化与冲突解决

基础模型重塑情感计算

从第二届MER2024-SEMI挑战赛看多模态情感识别的最新进展

智能体能自发形成社会吗？昆明理工大团队引入一种用于引发社会出现的生成式多智能体新架构

麻省理工研究团队革新科学研究方式,通过多智能体智能图推理实现科学发现自动化

从大脑到代码，神经科学启发的多智能体CortexCompile利用脑启发架构提升代码生成

自然（Nature）机器智能子刊：多智能体系统中的高效决策与去中心化强化学习的应用

2024人工智能峰会成功召开，华智未来强势发布20余项应用场景

多智能体路径规划新突破：AA-CCBS算法详解

人工智能应用场景高峰论坛暨成果发布会即将启幕，华智未来邀您共创新世界

NVIDIA 联合团队提出长视频理解的前沿技术BREASE，新框架连接情节和语义

从噪声中提取情感：中山大学与腾讯AI实验室基于元学习的多模态情感分析新方法

微软研究院发布无代码开发工具 AUTOGEN STUDIO，简化多智能体系统的构建与调试

从目标分配到路径规划，哈工大团队提出智能仓库的多智能体深度学习解决方案

多模态多智能体心智理论MuMA-ToM：推动AI理解复杂社会互动的前沿基准

情感与情绪在决策中的力量，多准则模糊群体决策系统的应用

多智能体系统中基于策略的资源交换逻辑

《自然》期刊发布最新科学报告：人工智能技术在个性化医疗中的创新与挑战

多智能体大模型协作中的角色不一致性：一致性、虚构性和模仿性

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉