具身智能的视觉-语言-动作模型综合综述论文

文摘 2024-09-06 00:00 北京

近期arXiv公开了关于具身智能（Embodied AI）中的视觉-语言-动作模型（Vision-Language-Action Models，简称VLAs）的综合综述论文。介绍了VLAs的概念，它们是为了处理多模态输入而设计的模型，包括视觉、语言和动作模态。这些模型对于具身AI至关重要，因为它们需要理解和执行指令、感知环境并生成适当的动作。

文章讨论了单模态模型的发展，包括计算机视觉、自然语言处理和强化学习中的里程碑模型。强调了多模态模型的出现，这些模型结合了单模态模型的进展，以处理如视觉问答、图像描述和语音识别等任务。

详细介绍了VLA模型的不同组件，包括预训练的视觉表示、动态学习、世界模型和控制策略。讨论了VLA模型的分类，包括基于预训练的模型、基于Transformer的模型和基于大型语言模型（LLM）的模型。探讨了高级任务规划器，这些规划器能够将长期任务分解为可执行的子任务。

虽然目前还没有专门针对VLAs的综述，但相关领域的现有综述为VLA研究提供了有价值的见解。提供了对新兴VLA模型的全面回顾，涵盖了架构、训练目标和机器人任务等多个方面。提出了一个包括预训练、控制策略和任务规划器三个主要组成部分的层次结构分类法。提供了训练和评估VLA模型所需的资源概述，包括最近引入的数据集和模拟器。

概述了当前的挑战和未来的机遇，如解决数据稀缺问题、提高机器人的灵活性、实现跨不同任务、环境和体现的泛化，以及提高机器人安全性。

讨论了收集真实世界机器人数据的挑战，以及模拟环境作为数据收集过程的替代方法的优势和局限性。深入探讨了VLA模型面临的挑战，包括机器人数据的稀缺性、运动规划、实时响应性、多模态整合、对未见情景的泛化、长期任务执行、基础模型的探索、基准测试和安全性考虑。

论文总结了VLA策略在使具身AI与周围世界有效互动方面的潜力，并强调了需要进一步研究以解决当前存在的挑战。这篇综述论文为VLA领域提供了一个全面的视角，包括其发展、当前状态、挑战和未来的发展机会。

http://mp.weixin.qq.com/s?__biz=MzU2ODgzMTM5NA==&mid=2247498740&idx=4&sn=69baa851431d4332201caf07939d9c97

CAAI认知系统与信息处理专委会

CAAI认知系统与信息处理专委会成立于2014年，胡德文教授担任专委会主任，孙富春教授担任荣誉主任，方斌教授担任秘书长。专委会不断吸纳业界人才，会员1000余名。创建了“认知系统与信息处理国际会议”、“机器人智能论坛”等品牌活动。

最新文章

电子皮肤作为人机接口在家庭护理机器人中的抓取识别

Science Robotics 把Arduino开发板做成柔性版，为软体机器人集成高性能计算能力

Science Robotics封面论文：假肢手的交互控制新思路，磁性植入让截肢者重获灵巧抓握功能

Science Robotics 通过新材料打造FiBa软机器人可实现四种形态进化

CoRL 2024 机器人抓取学习 GraspSplats：使用 3D 特征展开进行高效操作

触感灵巧手抓取操作视频集锦

第九届软体机器人大会｜第一轮会议通知和创新设计竞赛通知

Soft Robotics 多模式抓取能力的变刚度软体手

IEEE Trans. on Robotics：多模式软体手“抓取再吸取的连续操作学习”

IEEE JSTSP 嵌入软体手手掌的视触觉传感器PaLmTac

Science Robotics封面论文：假肢手的交互控制新思路，磁性植入让截肢者重获灵巧抓握功能

Science Advances 具有高灵敏度远程感知功能的多感受器皮肤

剑桥&ETH研究综述：NeRF在机器人技术中的应用

Nat. Commun.：飞秒激光书写受蚂蚁启发的可重构微型机器人集体

CoRL 2024 麻省理工学院提出T3触觉Transformer，打破触觉感知的壁垒，重塑未来机器人

斯坦福团队用模仿学习赋予机器人新技能：系鞋带

谷歌 DeepMind 联合斯坦福推出了主从式遥操作双臂机器人系统增强版ALOHA 2

IEEE TRO 人形机器人遥操作的综述

机器人遥操作视频集锦

Science Robotics 通过新材料打造FiBa软机器人可实现四种形态进化

Science Robotics 康奈尔大学用杏鲍菇控制机器人运动！

视触觉传感研究集锦

触感灵巧手抓取操作视频集锦

JBE 人体皮肤在机器人滑动按摩操作中的摩擦和变形行为

《中国科学：信息科学》综述文章：大模型驱动的具身智能：发展与挑战

RobotGPT：利用ChatGPT的机器人操作学习框架，三星电子研究院与张建伟院士、孙富春教授、方斌教授合作发表RAL论文

具身智能综述：鹏城实验室&中大调研近400篇文献，深度解析具身智能

具身智能的视觉-语言-动作模型综合综述论文

谷歌、CMU等研究综述：面向通用机器人的基础模型

AM：具有多模态触觉感知和人工智能的零偏差仿生指尖电子皮肤，可增强触觉感知

IROS 2024 “动态环境的重要性：具身导航至可移动目标物”论坛征稿

AFM 基于超材料的保形性和多感官整合的电子皮肤

第九届软体机器人大会｜第一轮会议通知和创新设计竞赛通知

Soft Robotics 多模式抓取能力的变刚度软体手

IEEE Trans. on Robotics：多模式软体手“抓取再吸取的连续操作学习”

IEEE JSTSP 嵌入软体手手掌的视触觉传感器PaLmTac

普渡大学和麻省理工学院合作开发集成视触觉指尖传感器的5自由度抓手

Science Robotics 麻省理工学院最新研究，从仿真中学习的精确选择、定位和抓放物体的视触觉方法

RAL论文：基于弹性体形变仿真的视触觉传感器仿真器Tacchi

OpenAI加持，1X消费级人形机器人亮相

IEEE TRO 人形机器人遥操作的综述

采访Figure Robotics CEO Brett Adcock：预测世界将有100亿个人形机器人，每个人都会拥有人形机器人

人形机器人Figure 02问世，进宝马工厂开整

OpenAI大模型赋能 Figure 01人形机器人的智能操作

Science 弹性模量提高3.5倍！新型3D打印技术

Science和Nature正刊2023年发表了9篇3D打印的相关文章

Nature封面论文：多无人机协同3D打印盖房子

强化学习和模型预测控制的区别与联系

强化学习经典教材的配套源代码上线了

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉