SPJ|哈尔滨工业大学白成超教授团队联合香港科技大学:基于多智能体强化学习的空间机械臂弹性运动规划

学术   2024-11-13 15:33   北京  

以下内容转载自Science合作期刊:


基于多智能体强化学习的

空间机械臂弹性运动规划


在空间机械臂的工作场景中可能面临复杂、未知的故障或干扰,传统的容错运动规划策略很难同时应对多种复杂未知的情况。基于学习的神经运动规划(Neural Motor Planning,NMP)可以根据当前状态实时在线规划下一步的动作,从而自然应对关节控制误差、关节锁定等故障,同时对通讯干扰、传感器误差等也具备一定的鲁棒性。


然而,目前的神经运动规划器都是将机械臂看成独立的智能体,致使其在外力扰动、观测噪声、机械故障等状况下无法实现足够的“弹性”。因此,在最新发表于Science合作期刊Space: Science & Technology《空间科学与技术(英文)》的研究文章中,哈尔滨工业大学白成超教授团队联合香港科技大学的多位学者,共同提出了将“单机械臂离散化”的思路,即通过对多自由度单机械臂进行关节的关联分析,将单机械臂离散成多智能体的形式,进而利用集中式多智能体强化学习框架训练机械臂的神经运动规划器,并最终验证离散化后得到的“多智能体机械臂”比传统的单智能体机械臂具备更强的抗干扰弹性恢复能力。


Fig. 1 Overall description of the paper. By discretizing the single agent, multi-agent reinforcement learning is used to improve the single manipulator's resilient recovery ability under unknown disturbances.

首先,作者将n自由度机械臂的各关节作为图中的节点,关节之间的连杆作为边,则机械臂的关节图可以表示为无向图。在此基础上,每个智能体可以从关节图中选取关节节点来构建自己的子关节图,各智能体只能控制自己的子关节图中关节节点。


各智能体的观测则包含三个部分的信息:第一部分是自己的子关节图中各关节节点的状态信息(如关节角度、角速度、力矩信息等)。第二部分是与其他智能体通讯得到的信息,通讯信息的多少可以通过通讯距离k来确定,即各智能体可以观测到距离自己的子关节图k个关节节点之内的其他关节节点状态,k值越小各智能体的局部观测性越明显。第三部分观测信息是全局任务信息,如机械臂末端到目标点的距离信息。作者基于关节图将机械臂划分为了单智能体、双智能体和三智能体三种情况,如Fig. 2所示。

Fig. 2 Multi-agent decomposition graph. The dark circle in the figure represents the joint of the manipulator (the manipulator's default joint is a hinge with only one degree of freedom). Next to the joint represents the agent label to which the joint belongs and the joint label in the joint graph. For example, A1 in A1,J1 means that the joint belongs to Agent 1, and J1 means that the joint number is 1 in the joint graph. (A) Single-agent. (B) Two agents. (C) Three agents. (D) Communication distance k and task information. The distance between node A3,J5 and joint subgraph of agent A2 is 1. If k is set to 1, then agent A2 can observe information of node A3,J5.

其次,在离散后的机械臂的基础上设计了一个多智能体运动规划的训练框架,构建了单机械臂多智能体运动规划的马尔科夫决策过程,定义了每个智能体的观测空间、动作空间、奖励函数、状态转移过程。在此基础上,采用了一个集中式训练分布式执行的多智能体强化学习算法:MASAC(Mulit Agent Soft Actor-Critic),在保留各智能体独立性的同时降低了训练的难度。训练过程中神经运动规划器的成功率如Fig.3所示。

A

B
Fig. 3 Success rate during training process. (A) Success rate curve when the number of agents is 1 and 2. (B) Success rate curve when the number of agents is 3.


为了评估智能体的数量对运动规划算法抗干扰能力的影响,作者考虑了三种不同类型的干扰,即动作干扰、关节锁定和观测干扰。在仿真实验中记录了机械臂运动过程中的末端位置数据,如Fig.4所示。在单智能体情况下,神经运动规划器在没有干扰的情况下能够成功移动到目标位置,但在受到三种干扰后,机械臂无法到达目标位置。然而,在双智能体的情况下,机械臂在受到干扰后仍然可以成功地移动到目标位置。

A

B
Fig. 4 The motion path of single agent and double agents manipulator before and after interference. (A) The motion path of  single agent manipulator. (B) The motion path of double agents manipulator.

最后,针对“分布式多智能体之间的协作可以提高系统的整体鲁棒性”,这个想法是否可以应用于单机械臂的问题。作者从全新的角度提出了单个机械臂的离散定义,并成功地将多智能体强化学习应用于单机械臂运动规划。通过对比关节锁定、观测干扰、动作干扰等未知扰动下的机械臂神经运动规划器的性能,验证了所提方法的正确性,为单机械臂的容错运动规划提供了新的研究思路。


文章信息

文章链接:

https://spj.science.org/doi/10.34133/space.0145


引用信息:

Zhang J, Bai C, Yue CP,Guo J. Deep MARL-Based Resilient Motion Planning for Decentralized Space Manipulator. Space Sci.Technol. 2024;4:Article 0145. https://doi.org/10.34133/space.0145

作者简介

白成超

哈尔滨工业大学教授,博士生导师,国家级青年人才,长期致力于人工智能技术在航空航天领域的创新与应用。曾入选中国科协青年人才托举工程,黑龙江省高层次人才计划。获黑龙江省科技进步一等奖、中国发明协会发明创新奖二等奖、中国指挥与控制学会CICC青年科技奖。担任《Space: Science & Technology》《宇航学报》《无人系统技术》《空天技术》等期刊青年编委。

张家维

哈尔滨工业大学航天学院博士研究生,主要从事空间机械臂运动规划、多机械臂协同操作、机器人学习等方面研究,代表性成果发表在领域顶刊IEEE TNNLS及顶会IEEE/RSJ IROS。


 期刊简介

Space:Science & Technology (《空间科学与技术(英文)》)是北京理工大学(BIT)、中国空间技术研究院(CAST)和美国科学促进会(AAAS)/ Science共同打造的综合性高水平国际化英文科技期刊,同时也是AAAS自创建Science杂志以来的第一本航天领域的伙伴期刊。“人民科学家”国家荣誉称号获得者、中国科学院院士、中国空间技术研究院顾问叶培建研究员担任主编。国际宇航科学院生命科学学部主席、北京理工大学邓玉林教授担任执行主编。


期刊旨在聚焦国际航天领域最新发展方向和趋势,展示航天领域最新研究与探索活动中发现的新理论、新应用与新成果,推动航天的探索研究,引领航天领域交叉科学的快速融合与技术突破,为专业研究人员和工程技术人员提供专业的学术交流和信息传播平台。


期刊于2021年2月正式发布创刊词,目前已入选中国科技期刊卓越行动计划高起点新刊项目,同时被Ei Compendex、Web of Science核心合集ESCI(2023影响因子4.1)、Scopus、INSPEC、DOAJ、CNKI、SAO/NASA-ADS等数据库收录,并入选中国科学院文献情报中心分区物理与天体物理2区  


联系我们

期刊官网

https://spj.science.org/journal/space/


投稿链接

https://www.editorialmanager.com/space


想了解更多期刊信息,或咨询投稿事宜,欢迎您联系SPACE编辑部:

编辑部邮箱:space@science-bitpjournal.org.cn

编辑部电话:010-68914772

我们会及时与您取得联系,谢谢!


编辑:田若曦、苗树

审核:李炳泉


ScienceAAAS
Science《科学》系列期刊官方公众号。Science《科学》系列期刊是美国科学促进会(AAAS)官方刊物。
 最新文章