SPJ｜哈尔滨工业大学白成超教授团队联合香港科技大学：基于多智能体强化学习的空间机械臂弹性运动规划

学术 2024-11-13 15:33 北京

以下内容转载自Science合作期刊：

基于多智能体强化学习的

空间机械臂弹性运动规划

在空间机械臂的工作场景中可能面临复杂、未知的故障或干扰，传统的容错运动规划策略很难同时应对多种复杂未知的情况。基于学习的神经运动规划（Neural Motor Planning，NMP）可以根据当前状态实时在线规划下一步的动作，从而自然应对关节控制误差、关节锁定等故障，同时对通讯干扰、传感器误差等也具备一定的鲁棒性。

然而，目前的神经运动规划器都是将机械臂看成独立的智能体，致使其在外力扰动、观测噪声、机械故障等状况下无法实现足够的“弹性”。因此，在最新发表于Science合作期刊Space: Science & Technology《空间科学与技术（英文）》的研究文章中，哈尔滨工业大学白成超教授团队联合香港科技大学的多位学者，共同提出了将“单机械臂离散化”的思路，即通过对多自由度单机械臂进行关节的关联分析，将单机械臂离散成多智能体的形式，进而利用集中式多智能体强化学习框架训练机械臂的神经运动规划器，并最终验证离散化后得到的“多智能体机械臂”比传统的单智能体机械臂具备更强的抗干扰弹性恢复能力。

Fig. 1 Overall description of the paper. By discretizing the single agent, multi-agent reinforcement learning is used to improve the single manipulator's resilient recovery ability under unknown disturbances.

首先，作者将n自由度机械臂的各关节作为图中的节点，关节之间的连杆作为边，则机械臂的关节图可以表示为无向图。在此基础上，每个智能体可以从关节图中选取关节节点来构建自己的子关节图，各智能体只能控制自己的子关节图中关节节点。

各智能体的观测则包含三个部分的信息：第一部分是自己的子关节图中各关节节点的状态信息（如关节角度、角速度、力矩信息等）。第二部分是与其他智能体通讯得到的信息，通讯信息的多少可以通过通讯距离k来确定，即各智能体可以观测到距离自己的子关节图k个关节节点之内的其他关节节点状态，k值越小各智能体的局部观测性越明显。第三部分观测信息是全局任务信息，如机械臂末端到目标点的距离信息。作者基于关节图将机械臂划分为了单智能体、双智能体和三智能体三种情况，如Fig. 2所示。

Fig. 2 Multi-agent decomposition graph. The dark circle in the figure represents the joint of the manipulator (the manipulator's default joint is a hinge with only one degree of freedom). Next to the joint represents the agent label to which the joint belongs and the joint label in the joint graph. For example, A1 in A1,J1 means that the joint belongs to Agent 1, and J1 means that the joint number is 1 in the joint graph. (A) Single-agent. (B) Two agents. (C) Three agents. (D) Communication distance k and task information. The distance between node A3,J5 and joint subgraph of agent A2 is 1. If k is set to 1, then agent A2 can observe information of node A3,J5.

其次，在离散后的机械臂的基础上设计了一个多智能体运动规划的训练框架，构建了单机械臂多智能体运动规划的马尔科夫决策过程，定义了每个智能体的观测空间、动作空间、奖励函数、状态转移过程。在此基础上，采用了一个集中式训练分布式执行的多智能体强化学习算法：MASAC（Mulit Agent Soft Actor-Critic），在保留各智能体独立性的同时降低了训练的难度。训练过程中神经运动规划器的成功率如Fig.3所示。

Fig. 3 Success rate during training process. (A) Success rate curve when the number of agents is 1 and 2. (B) Success rate curve when the number of agents is 3.

为了评估智能体的数量对运动规划算法抗干扰能力的影响，作者考虑了三种不同类型的干扰，即动作干扰、关节锁定和观测干扰。在仿真实验中记录了机械臂运动过程中的末端位置数据，如Fig.4所示。在单智能体情况下，神经运动规划器在没有干扰的情况下能够成功移动到目标位置，但在受到三种干扰后，机械臂无法到达目标位置。然而，在双智能体的情况下，机械臂在受到干扰后仍然可以成功地移动到目标位置。

Fig. 4 The motion path of single agent and double agents manipulator before and after interference. (A) The motion path of single agent manipulator. (B) The motion path of double agents manipulator.

最后，针对“分布式多智能体之间的协作可以提高系统的整体鲁棒性”，这个想法是否可以应用于单机械臂的问题。作者从全新的角度提出了单个机械臂的离散定义，并成功地将多智能体强化学习应用于单机械臂运动规划。通过对比关节锁定、观测干扰、动作干扰等未知扰动下的机械臂神经运动规划器的性能，验证了所提方法的正确性，为单机械臂的容错运动规划提供了新的研究思路。

文章信息

文章链接：

https://spj.science.org/doi/10.34133/space.0145

引用信息：

Zhang J, Bai C, Yue CP,Guo J. Deep MARL-Based Resilient Motion Planning for Decentralized Space Manipulator. Space Sci.Technol. 2024;4:Article 0145. https://doi.org/10.34133/space.0145

作者简介

白成超

哈尔滨工业大学教授，博士生导师，国家级青年人才，长期致力于人工智能技术在航空航天领域的创新与应用。曾入选中国科协青年人才托举工程，黑龙江省高层次人才计划。获黑龙江省科技进步一等奖、中国发明协会发明创新奖二等奖、中国指挥与控制学会CICC青年科技奖。担任《Space: Science & Technology》《宇航学报》《无人系统技术》《空天技术》等期刊青年编委。

张家维

哈尔滨工业大学航天学院博士研究生，主要从事空间机械臂运动规划、多机械臂协同操作、机器人学习等方面研究，代表性成果发表在领域顶刊IEEE TNNLS及顶会IEEE/RSJ IROS。

期刊简介

Space：Science & Technology (《空间科学与技术（英文）》)是北京理工大学（BIT）、中国空间技术研究院（CAST）和美国科学促进会（AAAS）/ Science共同打造的综合性高水平国际化英文科技期刊，同时也是AAAS自创建Science杂志以来的第一本航天领域的伙伴期刊。“人民科学家”国家荣誉称号获得者、中国科学院院士、中国空间技术研究院顾问叶培建研究员担任主编。国际宇航科学院生命科学学部主席、北京理工大学邓玉林教授担任执行主编。

期刊旨在聚焦国际航天领域最新发展方向和趋势，展示航天领域最新研究与探索活动中发现的新理论、新应用与新成果，推动航天的探索研究，引领航天领域交叉科学的快速融合与技术突破，为专业研究人员和工程技术人员提供专业的学术交流和信息传播平台。

期刊于2021年2月正式发布创刊词，目前已入选中国科技期刊卓越行动计划高起点新刊项目，同时被Ei Compendex、Web of Science核心合集ESCI（2023影响因子4.1）、Scopus、INSPEC、DOAJ、CNKI、SAO/NASA-ADS等数据库收录，并入选中国科学院文献情报中心分区物理与天体物理2区。

联系我们

期刊官网：

https://spj.science.org/journal/space/

投稿链接：

https://www.editorialmanager.com/space

想了解更多期刊信息，或咨询投稿事宜，欢迎您联系SPACE编辑部：

编辑部邮箱：space@science-bitpjournal.org.cn

编辑部电话：010-68914772

我们会及时与您取得联系，谢谢！

编辑：田若曦、苗树

审核：李炳泉

http://mp.weixin.qq.com/s?__biz=MzI3NDY3NzQ2Mg==&mid=2247521158&idx=2&sn=545ca3b2547b5af4324bb2b0acc0bd15

ScienceAAAS

Science《科学》系列期刊官方公众号。Science《科学》系列期刊是美国科学促进会（AAAS）官方刊物。

最新文章

奖项征稿中！天桥脑科学研究院&Science 人工智能驱动科学大奖

Science合作期刊《类生命系统（英文）》入选中国科技期刊卓越行动计划二期英文梯队期刊！

Science｜中国科大利用人工智能在催化基础研究中取得重大突破

讲座视频回放｜Science主编聊期刊人工智能政策制定

奖项征稿中！天桥脑科学研究院&Science 人工智能驱动科学大奖

Science周五新闻｜在经氯胺处理的自来水中普遍存在一种首次被鉴定出的污染物！

Science合作期刊SPACE入选2024年首都科技期刊卓越行动计划重点英文科技期刊支持项目

流入伊尔明厄海盆淡水量的增加很可能对AMOC强度造成最大的削弱｜Science Advances

口服！可治疗致命沙粒病毒的药物｜Science Translational Medicine

Science新闻｜为寻找自然资源，中国计划斥资10亿美元进行地球科学调查

11月22日直播｜西湖-Science系列研讨会第⑩期：DNA修复/基因组维护

北京大学物理学院Science Advances｜气溶胶光学性质对哈德雷环流的影响

SPJ｜Health Data Science：揭秘无标注数据的秘密：多维度助力半监督MRI图像分割

Science Immunology｜山东大学马春红/武专昌发现靶向TIM-3棕榈酰化增强抗肿瘤免疫的新策略

11月18日！和Science主编共议期刊人工智能政策制定（线上活动火热报名中）

直播预告｜西湖-Science系列研讨会第⑩期：DNA修复/基因组维护

中国科学院长春光机所Science｜竖直表面的日间亚环境辐射制冷

美国科学促进会与复旦大学签订战略合作备忘录

【封面研究】长新冠综合征者会展现出独特的具有性别差异的免疫特征

Science Advances｜新预警工具可改善欧洲与极端气温相关的死亡预测

SPJ｜哈尔滨工业大学白成超教授团队联合香港科技大学：基于多智能体强化学习的空间机械臂弹性运动规划

中国科学院地理资源所：全球林野-城市交界域扩张加剧人类野火暴露风险｜Science Advances作者解读

SPJ｜2023年度Science合作期刊Research优秀论文

Science作者解读｜复旦大学团队领衔揭示季节性流感的传播动态

Science联合天桥脑科学研究院等单位举办“人工智能与精神健康”研讨会

Science作者解读｜中瑞等科研团队合作报道原位反应提高钙钛矿光伏组件效率和稳定性

SPJ｜OLAR海陆气研究：多源胁迫共同驱动下的滨海湿地植被演替

小鼠研究发现，“功能衰减”的免疫细胞与雌性遗传性帕金森病有关｜《科学·转化医学》

人类活动导致的气候变暖被认定为导致美国西部干旱加剧的主要原因｜Science Advances

SPJ｜BMEF：用于组装多功能刺激响应DNA/RNA纳米结构的生物工程方法

南方科技大学Science｜蛋白相分离介导细胞质中渗透感知的新途径

SPJ｜Health Data Science：机器学习与传统统计方法如何融合构建疾病风险预测模型？

【Science周一新闻】蒙住双眼也能识路！体重仅6克的小蝙蝠借助回声定位进行长距离导航

在生命早期限制糖的摄入可降低成年后患上慢性病的风险【Science周一新闻】

张令强/杨冬/王立志等团队合作报道河南高生熊虫超强辐射耐受性的多组学景观和分子基础

初步临床研究表明，模拟断食功效的膳食或能帮助受损肾脏再生

南京地质古生物研究所等｜古蝉形态空间和空气动力学分析揭示中生代的“飞行竞赛”

Science Advances｜方解石沉淀或可解释大型湖泊的二氧化碳净排放

【《科学·转化医学》封面】粘膜之谜：两篇COVID-19疫苗研究得出了看似矛盾的结论

植入式自动装置可检测体内阿片类药物过量并给予治疗｜Science Advances

第一轮大会通知｜2024北京国际学术交流季：量子物质基础研究国际会议

明早8点直播｜西湖-Science系列研讨会第⑨期：衰老与神经退行性变

Science三项联名国际大奖申请开放中！

乳腺癌保乳术切缘的精准评估：使用靶向TROP2的近红外二区荧光分子探针

Science/AAAS、科技导报社、中国科协科学技术传播中心共同探讨AI赋能国际科技传播

新研究将年轻人的自发性骨质疏松症与褪黑素受体突变挂钩｜《科学·转化医学》

【Science Advances专题特刊】水产养殖可能危及若干养殖分类群的安全健康

直播预告｜西湖-Science系列研讨会第⑨期：衰老与神经退行性变

作者解读｜基于LPP递送系统的mRNA肿瘤疫苗可激发新抗原特异性T细胞免疫反应并发挥抗肿瘤活性

SPJ｜OLAR海陆气研究：隐藏在“有机污染”中的惰性碳库

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉