科研动态 | 光明实验室自主机器智能团队具身智能新进展：基于大语言模型的具身智能语义地图与导航研究

文摘 2024-07-27 09:00 广东

光明实验室自主机器智能团队，提交的一篇基于大语言模型的具身智能语义地图与导航研究的文章A Language-Driven Navigation Strategy Integrating Semantic Maps and Large Language Models（作者：钟政均、贺颖、李鹏腾、于非、马飞）被IEEE/RSJ国际智能机器人与系统会议(IROS 2024)接收。

摘要

语义和空间信息的准确感知对于执行语言驱动导航任务的机器人至关重要。现有方法利用视觉语言模型从环境中提取语义信息并构建地图。然而，由于这些模型自身的泛化性和准确性受限，所构建的地图可能不够准确和全面，从而影响导航任务的准确性。受大模型出色的分类和分割能力的启发，本研究引入了一种使用大模型构建的语义地图。我们利用大模型对机器人的视频流进行语义分割，并将语义信息融合到地图上。此外，该地图与接收自然语言指令的大型语言模型（LLMs）结合使用，以完成导航任务。大量的模拟环境实验表明，本方法在语言驱动的导航任务中优于现有方法。

主要内容

在执行自然语言导航任务时，机器人要根据语言指令理解人类的意图，导航到正确的位置。模块化的方法将整个导航过程解剖为感知，决策，执行三个部分：感知模块通过传感器数据构建语义地图，决策模块根据指令和地图规划路径，执行模块将决策转化为实际行动。这种方法能够使每个模块独立优化和改进，提升整体系统的灵活性和适应性。尽管这种方法取得了成功，但先前的研究受限于模型的性能，对语义地图的构建不够准确不够全面，也无法理解人类的一些复杂指令，导致机器人只能遵循固定的指令导航到十分有限的地点。

为了解决这些问题，大模型的出现激发了有价值的思路。一些方法使用大量的互联网数据训练而成的视觉-语言模型从环境中提取视觉特征后，将视觉特征与点云一一对应来构造语义地图，通过文本-视觉对齐来在地图中查询感兴趣的区域，并结合大语言模型来处理更复杂的自然语言指令。这些方法提高了机器人对环境的感知能力和对自然语言指令的理解能力，从而在语言驱动的导航任务中表现更加出色，并具备了开放词汇查询的能力。然而，它们也存在一定的局限性，这些视觉-语言模型仍然存在泛化性不足、准确性不够的情况，这可能会影响语义地图的准确性和泛化性，从而影响导航的成功率。因此，提出一种方法来构造更准确更全面的语义地图用以执行自然语言导航任务仍然是一个具有挑战性的问题。

对此，本研究提出基于大模型的集成语义地图的自然语言导航方法，名为“A Language-Driven Navigation Strategy Integrating Semantic Maps and Large Language Models”，整体框架图如图1，算法流程图如图2所示。通过大型视觉模型构造精确的语义地图，结合大型语言模型处理自然语言指令，实现了可靠的机器人自然语言导航过程。

该算法主要特征：

创新的语义地图构造算法：本算法利用视觉大模型提取环境的语义信息，更强大的视觉大模型提供了出色的零样本标签识别能力和零样本定位能力，能够更好地感知环境的语义信息。此外，为了进一步提高语义地图的准确性，提出了一种对语义信息的降采样和融合方法。随后将这些语义信息投影到栅格地图上形成语义地图，为机器人执行下游的导航任务提供路径规划依据。
构建基于大语言模型的导航框架：构建本地API库，使得大语言模型根据自然语言指令生成机器人可执行的代码。并让大语言模型理解自然语言指令，结合构造的语义地图，定位出机器人导航的目的地，通过传统的规划算法规划出最优路径后执行动作完成任务。将大语言模型融入导航中提高了机器人执行更复杂更多样的导航任务的能力。

图1 整体框架图

图2 算法流程图

通过与真值地图的对比展示了语义地图的准确性如表1所示。揭示了本研究的方法比基准方法的平均准确率（Macc），平均交并比（MIoU）更高，两者的频率加权交并比（FWIoU）接近。

表1 语义地图在不同场景下的准确性

本研究方法在Habitat simulator环境下导航任务的验证结果如表2所示。导航任务将场景中任一标签作为目标，并认为最终距目标一米之内导航成功，以此验证方法导航成功率。表2揭示了本研究的导航成功率比基准方法(VLMap)更高，离上限(GTMap 为采用真值地图的导航)还有差距。

表2 不同场景下导航成功率结果

其中各标签导航成功率结果如图3所示。图中展示了本研究方法成功的标签更多且整体准确率更高，说明泛化性和准确性比基准方法更好。

图3 各标签导航成功率结果

原文

Zhengjun Zhong, Ying He, Pengteng Li, Fei Yu*, and Fei Ma. A Language-Driven Navigation Strategy Integrating Semantic Maps and Large Language Models. State Conference: 2024 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS). Current status: Accepted. Submission number: 1369.

参考文献

[1] C. Huang, O. Mees, A. Zeng, and W. Burgard, “Visual Language Maps for Robot Navigation,” in Proceedings of 2023 IEEE International Conference on Robotics and Automation (ICRA), 2023, pp. 10 608– 10 615.

[2] Y. Zhang, X. Huang, J. Ma, Z. Li, Z. Luo, Y. Xie, Y. Qin, T. Luo, Y. Li, S. Liu, et al., “Recognize Anything: A Strong Image Tagging Model,” arXiv preprint arXiv:2306.03514, 2023.

[3] A. Kirillov, E. Mintun, N. Ravi, H. Mao, C. Rolland, L. Gustafson, T. Xiao, S. Whitehead, A. C. Berg, W.-Y. Lo, et al., “Segment Anything,” arXiv preprint arXiv:2304.02643, 2023.

[4] B. Chen, F. Xia, B. Ichter, K. Rao, K. Gopalakrishnan, M. S. Ryoo, A. Stone, and D. Kappler, “Open-vocabulary Queryable Scene Representations for Real World Planning,” in Proceedings of 2023 IEEE International Conference on Robotics and Automation, 2023, pp. 11 509–11 522.

[5] T. Wang, X. Mao, C. Zhu, R. Xu, R. Lyu, P. Li, X. Chen, W. Zhang, K. Chen, T. Xue, et al., “Embodiedscan: A holistic multi-modal 3d perception suite towards embodied ai,” arXiv preprint arXiv:2312.16170, 2023.

END

素材丨光明实验室自主机器智能团队

编辑丨李沛昱

Guangming Laboratory

实验室简介

人工智能与数字经济广东省实验室（深圳）（以下简称光明实验室）为省政府批准筹建的第三批广东省实验室之一，经市政府批准已设立为事业单位。实验室面向人工智能与数字经济的重大战略需求，由广东省政府统筹规划及顶层设计，深圳市政府主导建设、运营与管理，深圳大学作为牵头建设单位。实验室致力于打造人工智能与数字经济全链条创新平台、数字经济区域开放产学研合作平台、创新人才聚集和培养的基地以及核心技术成果转化和孵化平台。在此建设目标下，实验室遵循“创新、责任、进取、合作”的核心价值观，主要围绕区块链与金融科技、智能传感与精准医疗、机器学习与智能系统、泛在感知与智慧城市四个方向展开研究。

人工智能与数字经济广东省实验室（深圳）

官方网站｜http://www.gml.ac.cn

招聘联系｜hr_office@gml.ac.cn

http://mp.weixin.qq.com/s?__biz=Mzg4MTY2MDY5NQ==&mid=2247497186&idx=1&sn=b23cae6979e771851e2c22e77fe9bae0

光明实验室

光明实验室官方公众号。光明实验室全称为人工智能与数字经济广东省实验室（深圳），依托深圳大学运行。定位于粤港澳大湾区国际科技创新中心核心平台、人工智能与数字经济开放合作先行地、人工智能与数字经济创新研究基地和产业集聚高地。

科研动态 | 光明实验室智能感知与计算成像团队：用于机器人智能识别和操纵感知的多功能触觉系统

大模型规模化联邦调优，光明实验室基础智能团队新突破

光明实验室2024年开放课题申请公告

光明实验室与深圳湾实验室成功举行洽谈交流，共商生物医药大数据智能处理与分析领域合作

欢迎报考深圳大学-光明实验室2025年推荐免试攻读研究生！

斩获佳绩！光明实验室荣获第十九届中国研究生电子设计竞赛全国总决赛一等奖

温情满分！光明实验室开展新学期宿舍走访活动

科研动态 | 光明实验室主任李清泉院士在《Science Bulletin》发文，表明中国大城市屋顶绿化可能收获巨大的潜在碳汇

光明实验室2024级开学典礼圆满举行，开启科研新旅程

科技与金融的双向奔赴：深圳市科技创新种子基金“直通车”走进光明实验室活动圆满落幕

人工智能与数字经济广东省实验室（深圳） 2024年8月月报快讯

成功晋级决赛！光明实验室大数据智能处理与分析团队在光创赛上绽放创新火花

科研动态 | 光明实验室城市三维创新团队最新研究成果：具有语义的三维房屋线框生成

【转】落实党的二十届三中全会要求，光明实验室积极参与深圳光明科学城基层治理

光明实验室科研实力再获肯定：2024年度国家自然科学基金首批项目立项结果揭晓，四位青年才俊成功获批

国内首飞！光明实验室泛在感知与空间智能团队开辟天然溶洞未知受限空间无人机自主探索式测绘新路径

智慧城市团队李敏敏副研究员受邀参加中国自然资源学会资源大数据分会2024年学术年会

“天才新星”系列人物专访丨李明博士：从国防科技到人工智能的卓越旅程

光明实验室创新无人机技术，助力深圳龙华排水有限公司解决箱涵检测技术难题

中山翠亨集团携手西湾智慧、深中产业服务共访光明实验室，探寻AI合作新发展

共探政务大模型合作新机遇！深圳太极数智技术有限公司到访光明实验室

科研动态丨光明实验室生成式大模型团队最新成果：光明大模型及其助手制作网站

人工智能与数字经济广东省实验室（深圳）国产AI算力生态科研工程人员招聘

人工智能与数字经济广东省实验室（深圳） 2024年7月月报快讯

科研健将共展风采：光明实验室参加2024湾区创新走廊篮球联赛

创新创业，交个朋友！光明实验室“数智光明 • 创享荟”第三期顺利举办

“天才新星”系列人物专访丨宋纪元博士：创客道路上勇往直前的摘星人

科研动态 | 喜讯！光明实验室智慧医疗团队斩获全国大学生生物医学工程创新设计竞赛全国一等奖！

科研动态 | 光明实验室城市三维创新团队研究工作——可适应点云模型：通过校准二维视觉模型进行三维点云分析

科研动态 | 光明实验室媒体智能团队：CodeSwap：基于先验码本的对称人脸交换

科研动态 | 光明实验室自主机器智能团队具身智能新进展：基于大语言模型的具身智能语义地图与导航研究

光明实验室年中总结暨工作部署大会：深化改革，创新驱动，共绘科研新蓝图

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉