精选报告 | 人机协同决策的异质多智能体路径规划

学术   科技   2024-11-15 16:47   北京  

点击文末 “阅读原文” 下载全文

李超超, 邵文龙, 吕培, 王华, 徐明亮*

郑州大学计算机与人工智能学院
智能集群系统教育部工程研究中心
国家超级计算郑州中心

引用本文: 李超超, 邵文龙, 吕培, 王华, 徐明亮. 人机协同决策的异质多智能体路径规划[J/OL]. 计算机辅助设计与图形学学报: 1-17[2024-11-15]. https://www.jcad.cn/article/doi/10.3724/SP.J.1089.2024-00359

Citation: Li Chaochao, Shao Wenlong, Lyu Pei, Wang Hua, Xu Mingliang. Heterogeneous Multi-Agent Path Planning with Human-Machine Collaborative Decision-Making[J/OL]. Journal of Computer-Aided Design & Computer Graphics: 1-17[2024-11-15]. https://www.jcad.cn/article/doi/10.3724/SP.J.1089.2024-00359

点击播放精选报告视频
感谢郑州大学硕士研究生邵文龙录制并提供论文讲解视频!感谢论文第一作者李超超老师和通信作者徐明亮老师!本文为CAD/CG 2024大会推荐论文,同时也是CAD/CG与GDC大会精选报告论文。通过严格评审后,已被《计算机辅助设计与图形学学报》录用并在期刊官网最新录用版块上线。



随着信息技术的不断进步, 路径规划已广泛应用于室内机器人导航、海上无人舰艇和电子商务等领域. 在多智能体路径规划方面, 大多数研究关注的是具有相似物理约束和形态特征的同质智能体之间的路径规划. 在许多实际应用场景中需要不同类型的智能体协同工作才能完成任务, 如航母舰面保障作业涉及保障人员、牵引车、舰载机等复杂异质智能体, 它们各具不同的行为模式, 这种异质环境对多智能体路径规划提出新的挑战当前, 路径规划研究大多集中在虚拟仿真环境或者真实环境下独立进行, 但是在虚拟环境和真实环境中, 利用智能方法进行路径规划时较少考虑人的经验, 导致规划出的路径可能与实际需求不符. 

针对上述挑战, 本文提出一种基于混合现实半实物电子推演沙盘的异质多智能体人机协同决策路径规划方法. 首先提出一种适用于动静态环境的异质多智能体双延迟深度确定性策略梯度路径规划方法(HMATD3), 利用基于危险度的路径引导点和RVO(reciprocal velocity obstacles)的动态避障优势, 改进基于深度强化学习(DRL)的路径规划方法, 以适用于异质多智能体的动静态环境; 然后提出一种虚实交互人机协同决策的路径规划方法(HMCDM), 使用HMATD3方法为虚拟智能体和真实智能体规划路径, 并将人类智能融入虚实交互过程进行人机协同决策, 增强人的指导作用, 显著地提升规划的安全性和合理性, 使得路径规划更加智能且符合实际应用需求.


相关工作

智能体导航问题主要分为传统路径规划、基于DRL的路径规划、传统方法和DRL融合的路径规划, 以及虚实融合的路径规划. 其中, 传统路径规划进一步分为全局路径规划和局部路径规划.

○ 传统路径规划

全局路径规划. 路径规划指在障碍物和目标点之间建立一条无碰撞最优路径. 目前, 全局路径规划主要应用在静态场景. 大多数改进方法为智能体规划的路径与静态障碍物的距离较近, 存在碰撞风险高、鲁棒性差、局部极小值和适应性差等问题. 本文对传统的A*算法进行改进, 将静态障碍物进行凸多边形膨胀, 增加智能体与静态障碍物的距离; 然后在启发式搜索过程中设置危险度价值, 提高路径规划的安全性; 最后设置相应的规则为智能体选取安全的路径引导点, 降低智能体的碰撞风险.

局部路径规划. 尽管全局路径规划解决了静态环境下的导航问题, 但其并不适用于动态环境, 因此在动静态场景中需要与动态避障方法结合. 然而, 已有大多方法的计算方式大多数是基于速度和力, 通常不能泛化未知环境. 一些工作通过融合多种传统方法进行路径规划. 虽然能够进行智能体的动静态导航, 但是场景的泛化能力有限.

○ 基于DRL的路径规划

近年来, DRL技术在解决复杂问题方面有着良好的表现, 在智能体导航任务中的应用呈现出快速增长的趋势, 越来越多的学者开始基于DRL理论进行路径规划. 与传统方法相比, 这类方法具有更好的自学习能力和泛化能力, 但是较少解决异质智能体导航问题.

○ 传统方法和DRL融合的路径规划

已有许多工作使用基于传统方法和DRL方法的融合方法进行智能体路径规划. 本文利用传统路径规划和基于DRL路径规划的优势, 提出一种适用于异质多智能体路径规划的方法. 该方法用安全的路径引导点进行静态避障, 基于RVO的DRL方法进行动态避障, 为异质多智能体在动静态环境下的安全高效路径规划提供新的解决方案.

○ 虚实融合的路径规划

随着虚拟现实、混合现实技术的发展, 一些工作利用这些技术进行虚实交互, 控制实体智能体运动. 但是大多只适用单智能体路径规划, 通过虚拟信息控制实体运动. 本文在基于半实物电子沙盘的混合现实场景下, 使用异质多智能体路径规划方法为虚实智能体规划路径, 并通过人的经验协同优化智能体路径, 可以更直接地提高人的沉浸式介入感和人对机器智能方法的优化能力.


本文方法

本文提出一种基于混合现实的人机协同决策异质多智能体路径规划方法, 包括基于危险度的离线规划、基于DRL的在线规划方法和人机协同决策规划3个模块, 其整体流程如图1所示.


实验及结果分析

1.  场景1静态避障
在场景1中, 验证HMATD3对异质多智能体的静态避碰能力; 然后对3种异质智能体进行混合静态避碰验证, 在场景中设置3个多边形静态障碍物和3个智能体, 每个智能体在执行任务的过程中都会与静态障碍物相遇, 验证方法的静态避碰能力.
在训练过程中, 将不同方法的平均奖励曲线进行对比, 结果如图2所示. 可以看出, HMATD3具有更快的收敛速度, 训练收敛过程较为稳定. 为了说明该方法的训练效率, 对训练过程的成功率进行可视化, 结果如图3所示. 可以看出, 与对比方法相比, HMATD3在刚开始训练时就表现出较高的成功率, 并且在训练100次后成功率基本稳定.

在场景1中, 对异质智能体进行静态避障分析, 可视化结果如图4所示. 可以看出, 虽然对比方法都能对静态障碍物进行避障, 但是HMATD3在安全性、平滑度等方面表现更优越.
对4种方法的成功率、平均步长、平均速度和收敛性4个指标进行定量实验, 评估各种方法的性能, 结果如表1所示.


2.  场景2动态避障
在场景2中, 本文在航母甲板航空保障作业场景中进行动态避碰实验, 在使用UE4搭建的3D仿真环境下进行异质多智能体动态避障实验. 场景2中, 4种方法的可视化结果如图5所示. HMATD3不仅能在没有障碍物的情况下规划出较直的路线, 而且能在不同类型智能体交互时进行合理的避让, 生成较为平滑的轨迹, 表明本文设计的基于RVO的动态避障奖励方法的有效性, 能够根据智能体类型动态调整奖励值达到较好的规划效果
对4种方法的成功率、平均步长、平均速度和收敛性4个指标进行定量实验, 评估各种方法的性能, 结果如表2所示. 图6所示为场景训练过程中的平均奖励曲线. 可以看出, HMATD3可以在较少的训练次数下趋于稳定, 具有较高的收敛速度, 减少了训练时间, 表明所提出的异质性的动态决策奖励函数的有效性.


3.  场景3动静态避障
在场景3中设置3种类型智能体, 将3个异质智能体进行动态交互, 2个异质智能体和静态障碍物避碰的同时进行动态避碰, 验证4种方法动静态避碰能力. 图7所示为场景3的训练过程中4种方法的动静态导航平均奖励曲线. 可以看出, 虽然HMATD3的奖励值在中间出现了波动, 但整体上是最大的且平稳的. 4种方法的训练成功率如图8所示. 可以看出, 在刚开始训练时, HMATD3就表现出较高的成功率并趋于稳定. 

场景3中, 4种方法的路径可视化结果如图9所示.  HMATD3做路径规划决策时, 智能体都能较好地进行动静态避障. 实验结果表明, 在动静态场景中, 本文提出的全局路径引导点和异质性的RVO奖励函数能够为异质智能体规划出安全和平滑的轨迹, 确保其高效地完成任务.
对4种方法的成功率、平均步长、平均速度和收敛性4个指标进行定量实验, 评估各种方法的性能, 结果如表3所示.


4.  场景4人机协同决策导航
在场景4中, 本文基于半实物电子沙盘的航母甲板航空保障作业场景, 进行人机协同决策路径规划实验. 
对异质智能体人机协同决策规划进行分析, 可视化结果如图10所示. 图10b~图10d中, 使用不同方法规划的预设轨迹作为先验路径, 通过加入人的经验进行指挥修正; 当1号舰载机运动中遇到事先未知的虚拟牵引车时, 如果继续按照预设轨迹路线行进将会和牵引车发生碰撞; 因此, 通过人的经验协同决策修正舰载机的路线避免发生碰撞, 提高智能体的安全性, 所规划的路径更加合理和平滑; 当2号舰载机运动到弹射位置时, 可以根据人的经验指挥修正智能方法规划的路径更加合理, 提高规划效率.
最后, 对7种方法的路径长度、拐点个数和平均拐弯角度3个指标进行定量实验, 评估各种方法的性能, 其结果如表4和表5所示.

结    语

本文提出一种混合现实场景下的异质多智能体人机协同决策路径规划方法. 针对当前路径规划较少考虑智能体的异质性问题, 提出使用安全路径引导点和RVO动态避障优势的多智能体强化学习框架, 在奖励函数中考虑智能体的异质性, 解决了稀疏奖励问题; 然后在混合现实虚实交互的沉浸式环境中, 结合人的经验, 在智能方法之上修正指导智能体的路径, 实现人机协同决策路径规划, 弥补了智能方法的不足. 在2D, 3D和混合现实场景下的实验结果表明, 本文方法在各项指标上均优于对比方法, 在异质多智能体人机协同决策规划方面获得了较好的表现.
然而, 本文方法仍有不足之处. 未来, 将考虑增加更丰富的人机交互方式, 通过增加虚拟控制界面对虚拟智能体进行控制, 根据人的智能对虚拟智能体进行实时指导修正规划; 并加入更加丰富的虚实智能体的交互决策, 引入随机性的虚拟智能体生成机制, 提高人机协同决策规划的鲁棒性, 将人机协同决策规划的合理路径进行保存, 供智能方法学习, 优化方法策略.




李超超博士, 副研究员, 硕士生导师, 主要研究方向为计算机图形学、群体行为计算

邵文龙: 硕士研究生, 主要研究方向为多智能体路径规划、人机交互

吕   培: 博士, 教授, 博士生导师, CCF会员, 主要研究方向为计算机图形学、人工智能、虚拟现实.

王   华: 博士, 副教授, 博士生导师, CCF会员, 主要研究方向为集群行为计算与仿真、虚拟现实、人工智能.

徐明亮: 博士, 教授, 博士生导师, CCF会员, 论文通信作者, 主要研究方向为计算机图形学、人工智能、虚拟现实、科学可视化.



编辑:李姝昊
审核:赵敏


— END —

还没关注?点击下方“卡片”关注,获取第一时间资讯

精选报告      


精选报告 | 基于再次事件估计的光学厚介质高性能渲染方法
精选报告 | 质心投票与相关性驱动的单幅图像模型配准

精选报告 | 面向逆渲染的室内场景光源建模

精选报告 | 室内数字三维场景评估方法

精选报告 | 基于紧凑型线性混合半侧蒙皮权重的神经辐射场人体表示方法


编辑推荐      


基于VSLAM的室内场景重建与虚实遮挡的边缘优化方法

融合局部和长距离信息的图像特征点提取

红外-点云的高精度注册及其微服务数字孪生系统应用

基于5G多接入边缘计算的云化PLC系统架构设计与应用


开源代码      


开源代码 | 基于循环双向Transformer的伪CT影像生成方法

开源代码 | 语义扩散对齐的多尺度感知医学图像分割方法

开源代码 | 基于EfficientNetV2的PCB缺陷检测算法


数据集      


数据集 | 自然场景盲文字符识别数据集


合辑荐读      


开源成果 | 开源代码/数据集成果合辑

合辑荐读 | 计算机技术与传统文化论文合辑

合辑荐读 | 几何建模与优化最新论文合辑

合辑荐读 | 目标检测、目标跟踪与重识别最新论文合辑

合辑荐读 | 医学图像处理最新论文合辑

合辑荐读 | 感知与交互最新论文合辑

合辑荐读 | VR/AR/MR最新论文合辑

合辑荐读 | 三维图形计算最新论文合辑

合辑荐读 | 可视化与可视分析最新论文合辑

合辑荐读 | 《计算机辅助设计与图形学学报》最新综述论文




声明

本公众号发布的所有原创文章欢迎转发和转载,但必须注明作者和文章出处为《计算机辅助设计与图形学学报》公众号;任何媒体、网站或个人不得对本公众号原创图文进行内容修改或摘编。除本公众号原创的图文之外,本公众号发布的图文旨在学术交流,版权归原作者所有,本公众号将不承担任何法律责任;非原创内容均已对来源作出标注,如有侵权,请留言与本公众号联系,我们将及时处理。《计算机辅助设计与图形学学报》拥有最终解释权。




计算机辅助设计与图形学学报
《计算机辅助设计与图形学学报》官方平台。本刊创刊于1989年,EI、Scopus、北大核心、CSCD、CSTPCD、CNKI等国内外数据库收录,CCF推荐中文科技期刊A类、计算领域高质量科技期刊T1类。期刊官网:www.jcad.cn。
 最新文章