2024年具身智能领域发生了什么?一文盘点重大突破与应用创新

科技   2024-05-06 22:17   美国  

具身智能是人工智能领域一个备受关注和快速发展的方向。今年以来,无论是学术界还是工业界都取得了一些令人振奋的新进展。这些进展不仅推动了具身智能系统的性能和能力,也拓宽了其应用前景。无论是哪个技术流派,都体现了让智能体系具备环境感知、理解和互动的共同目标。接下来我们将逐一介绍近期不同流派的代表性工作,解读其创新之处,并展望具身智能的未来发展趋势。


01

Cybernetics 控制论流派

今年2月传统机器人强者波士顿动力公司展示了其最先进人形机器人Atlas在仓库内搬运汽车零件的demo。此前虽然Boston Dynamics已经掌握了许多双足行走的技巧,如行走、奔跑、跳跃,甚至是后空翻,但在拾取物品方面仍处于初期阶段。Atlas的新手部设计具有三根带有两个关节的手指,这些手指能够360度旋转。与之前的夹持式手相比,新手指能够更加精确地抓握物体。虽然视频中Atlas的智能是预先编程好的,且它已经提前掌握了汽车减震器的3D扫描模型,但其精确抓握操作仍然令人印象深刻。



Atlas learns to pick up a 30-lb car strut and carefully manipulate it


同时Boston Dynamics也在越来越多地将强化学习整合到机器狗Spot的运动控制系统中,在NVIDIA GTC上宣布与NVIDIA和AI 研究所合作推出全新Spot RL研究者套件,包括带有关节级控制API的Spot、基于 NVIDIA Jetson AGX Orin 的负载用于部署RL policy,以及基于NVIDIA Isaac Lab的GPU加速 Spot 模拟环境,新的研究套件将使开发人员能够为 Spot 创建高级技能。


  

Boston Dynamics Spot RL Researcher Kit


Spot采用了两种不同的控制策略:模型预测控制(MPC)和强化学习(RL)。传统的MPC控制器通过预测机器人未来的状态,并将其转化为优化问题,来决定当前的行动。这种方法直观、可调试,适用于机器人状态和环境能够精确建模的情况。Spot的MPC控制器可以在多个时间尺度上做出决策,包括选择路径、步态模式以及实时调整姿势和步态时机以保持平衡。为了实现这种多尺度决策,Spot会同时评估多个MPC控制器,并选择得分最高的控制器输出来指挥机器人行动。然而,在一些难以准确建模的复杂环境下,传统的MPC方法可能会遇到困难,为此Spot引入了基于数据的强化学习方法。RL通过在模拟环境中的反复试错来优化一个由神经网络实现的策略。这种方法不需要工程师手动编写控制器代码,而只需要设计模拟场景和定义优化目标(即奖励函数)。RL擅长解决那些容易模拟但最优策略难以用代码描述的问题。Spot的运动控制系统巧妙地结合了MPC和RL两种方法,MPC负责解决其擅长的基于建模的运动控制问题,而RL则专注于学习较难编程的策略部分这种组合不仅发挥了两种方法的优势,而且降低了生产控制器的计算复杂性,不再需要同时运行多个MPC实例。


Legacy locomotion control system


Locomotion control system with integrated RL policy


就在前几周Boston Dynamics推出了新一代Atlas,从液压驱动转向纯电驱动,并且配备了新的AI和机器学习工具,包括强化学习和计算机视觉,以确保他们能够在复杂的真实世界环境中灵活应对各种挑战,展现出高超的运动能力和环境适应能力,它代表了机器人控制技术的重要进展,为未来智能机器人的设计和应用提供了新的思路。


Takeaways

传统控制论流派正在积极拥抱AI,在机器人行业Boston Dynamics是YYDS,这个老牌机器人霸主在电动化和AI的加持下焕发出新的活力



02

Computer Vision 计算机视觉流派

李飞飞在其文章《Searching for Computer Vision North Stars》中定义了计算机视觉未来的“北极星”指标:Embodied AI,Visual Reasoning and Social Intelligence。与仅识别图像中的对象不同,具身智能需要在物理世界中移动并通过传感器(如摄像头)与环境交互,这要求对三维空间和动态环境有更深层次的理解,具身智能不仅需要视觉感知,还需要进行视觉推理,理解场景中的三维关系,以及预测和执行基于视觉信息的复杂任务。

去年年底李飞飞团队发表论文Voxposer,通过LLM+VLM构建了一个开放指令和开放物体的轨迹规划器,把机器人建图和任务规划推进到了一个崭新的阶段。比如指令“打开抽屉,但是要小心花瓶”,LLM通过解析指令,知道抽屉应该对于轨迹来说是一个吸引区域(affordance_map),而花瓶对于轨迹来说是一个排斥区域(constraint_map),然后通过VLM获取花瓶、抽屉所在的具体位置,通过LLM生成代码来构建3D Value Map,然后motion planner就可以zero-shot地合成机器人操作任务的轨迹。通过利用大模型的理解能力,即使对没有见过的新任务,也可以完成规划任务,而不需要大量训练数据,这是路径规划前所未有的,它展现了VLM的视觉推理能力。在这种方案中VLM实际上是给底层控制策略(low-level policy)提供了reward function(cost for MPC,reward for RL),它的前景依赖于视觉语言大模型和3D视觉的发展。这种方案的局限性是下层的motion planner没有突破,可能导致其泛化性不是很好,在底层的操作上难以泛化到各种场景,各种物品和各种机械臂。因为万一value map表达能力和精细度不足,就会导致的底层的MPC难以完成预期的目标。


Voxposer extracts language-conditioned affordances and constraints from LLMs and grounds them to the perceptual space using VLMs


The composed map is referred to as a 3D value map, which enables zero-shot synthesis of trajectories for large varieties of everyday manipulation tasks with an open-set of instructions and an open-set of objects.


Voxposer中的感知部分没有做太多工作,调用open-vocab detector OWL-ViT得到bounding box,通过SAM得到mask,然后用video tracker XMEM 来track the mask,tracked mask使用RGB-D来重建3D点云。目前前端感知仍然是局限,比如无法完成形状和位姿敏感的任务,对世界缺乏理解,所以最近也有一些团队在前端3D感知能力上做了很多工作,把深度估计、光流估计、点云等3D相关的多模态数据和大模型做很好的结合,提高模型的3D推理和定位以及空间理解能力,MIT、UCLA、北大等都有相关的工作发表。


Takeaways

计算机视觉经过了这么多年的发展,在感知层面有了累累硕果,但是在认知层面仍在发展初期,VLM大模型无疑给CV领域带来了新的创新火花,未来我们期望计算机视觉在三维理解和空间推理上有更多新的突破最终成为具身机器人认知世界的基础。



03

World Model世界模型流派

2024年3月,知名AI机器人创业公司Covariant推出了机器人基础模型RFM-1(Robot Foundation Model-1),这是世界上首个基于真实任务数据训练的最接近于解决真实世界任务的机器人大模型。RFM-1拥有80亿参数,被设计为一个多模态任意序列模型,经过了文本、图像、视频、机器人动作以及一系列数值型传感器读数的综合训练。通过将所有模态的数据投射至统一的空间,并执行自回归式的下一个标记预测任务,RFM-1利用其包罗万象的输入与输出模式,以适应不同的应用需求。

学习世界模型代表了物理模拟领域的未来方向,相较于传统的模拟方法带来了显著的优势,能够在信息不完整的情况下推理交互作用,满足实时计算的需求,并随着时间推移提高预测的准确性。这类世界模型的预测能力至关重要,能让机器人发展出对于人类世界中运作所必需的物理直觉RFM-1对物理世界的理解源自于其学习生成视频的过程:它通过接受初始图像和机器人动作的输入,预测接下来视频帧的变化。这种基于动作条件的视频预测任务使得 RFM-1掌握了模拟世界每个瞬间变化的低层次世界模型。然而在某些情况下,预测机器人行为的高层次结果可能更为有效。得益于Covariant提供的结构化多模态数据集,以及RFM-1灵活的“任意到任意”架构,它也有能力提供这样的高层次世界模型。该模型不仅能够理解预定的机器人动作,还能通过预测下一个token来推断这些动作是否能够成功执行,以及物料箱内容的变化情况。这种高保真的世界模型在在线决策的规划中极为有用,同时也适用于其他模型和策略的离线训练。



RFM-1 根据初始图像(左上)和规定的要拾取的物品(右上)模拟拾取动作(左下),实际的现实世界选择结果位于右下角

RFM-1生成的图像显示,如果从起始手提袋(左)中选取特定物品(中),则预测手提袋的外观(右)


特斯拉的Optimus采用了跟自动驾驶同样的AI系统,a visual navigation system managed by fully trained, end-to-end neural networks,唯一不同的是增加了动作参考库,他们将人类在真实世界中的自然动作记录下来,并map到机器人上。特斯拉的FSD经过三个阶段的发展逐步从模块化过渡到了端到端的系统:第一阶段,2021年FSD由两个模块组成,HydraNet负责视觉任务,蒙特卡洛树搜索和神经网络结合负责planing模块;第二阶段,2022年引入了Occupancy Networks,仍由HydraNet负责检测物体、标志、车道线,Occupancy Network负责输出3D建模,而planning模块仍由传统的蒙特卡洛树搜索和神经网络结合而成,包含了人为规划和轨迹评分;第三阶段,FSD升级到了v12版本并朝着端到端架构大踏步迈进,首先把planning模块转换成deep learning,然后把perception模块和planning模块分别训练,最后将两个模块联合优化使整体损失函数最小,使反向传播的梯度从最终输出一直传回到初始输入。

特斯拉FSD越来越像黑盒,不过仍然可见Occupancy Networks、Hydranets和Planning这些模块的存在,只是把它们组装到了一起,并做了联调,让系统达到最优的整体目标。但是马斯克显然还有更大的野心,去迈向一种pure end-to-end approach,他们打算用1000万条视频数据,分等级标注,让模型去模仿good drivers的行为,这样当模型面对unknown scenarios的时候就可以用生成的方式找到并采用the closest behavior。


Tesla FSD组成结构


Tesla FSD模型演进过程

"End-to-end learning refers to training a possibly complex learning system by applying gradient-based learning to the system as a whole. End-to-end learning systems are specifically designed so that all modules are differentiable."无论是FSD也好,RFM也好,都是基于梯度的端到端的学习,用一个可微分的模型建立vision到motion的映射,它也是世界模型的一种形式,通过生成的方式来预测下一帧,用一个可更新状态的神经网络模块来记忆和建模环境,输入当前观测(图像、状态等)和即将采取的动作,根据模型对世界的记忆和理解预测下一个可能得观测(图像、状态)和动作。特斯拉Autopilot工程师Dhaval Shroff曾对马斯克说:"It's like Chat-GPT, but for cars!!!" "Instead of determining the proper path of the car based on rules, we determine the car's proper path by using neural network that learns from millions of training examples of what humans have done."


Takeaways

World Model流派想要构建一个端到端的模型,建立vision到action、甚至anything到anything的映射,通过生成的方式预测下一帧来做决策。这类世界模型与VLA大模型最大的不同是,VLA大模型是先在互联网规模的大数据集上训练使其达到high-level能力涌现,再跟真实世界机器人数据做co-finetune,而世界模型是在物理世界数据上从头训练,随着数据量的增大逐渐涌现出某种高层次的能力。但它仍然是低层次物理世界模型,有点类似人类神经反射系统的机理,比较适合输入输出都相对结构化的场景,如自动驾驶(输入:视觉,输出:油门、刹车、方向盘)、物体分拣(输入:视觉、指令、数值传感器,输出:抓取目标物体,放置到目标位置),不太适合泛化到非结构化的复杂任务。


04

Robot Learning 机器人学习流派

Robot Learning流派是想让机器人通过与环境交互和学习,获得新技能以适应环境,从而完成复杂任务,它融合了机器学习和机器人技术,旨在让机器人像人类一样学习和成长。Robot Learning与传统控制论最大的不同是,传统控制论算法需要对整个系统进行物理建模,但是在某些复杂的场景无法做到精确建模,而Robot Learning通过与环境的交互来学习,并通过奖励机制来优化行为,获得最优的决策策略(policy),摒弃了传统方法物理建模的弊端。

Robot Learning经过了以下研究思路的发展:第一阶段,利用传统控制算法结合强化学习来实现机器人的控制;第二阶段,采用深度强化学习(Deep Reinforcement Learning,DRL),DeepMind AlphaGo在DRL取得了巨大的成功,深度强化学习能够处理高维数据和学习复杂的行为模式,特别适合面向决策与控制问题,因此在机器人上使用DRL是一种必然的想法;第三阶段,在使用DRL之后,它的弊端也就显现出来了,那就是需要大量的尝试来获取数据,为了解决这个问题又引出了一些新的方法。第一种方法,Imitation Learning模仿学习,尽量减少数据的使用量,采集高质量的demostration;第二种方法,Offline Reinforcement Learning+Online Reinforcement Learning融合,为了提高数据利用效率、降低环境交互成本、同时保证安全性,先采用离线强化学习从静态的、预先收集的大量数据中学习策略,再将其部署到真实环境中,与环境实时交互探索,并根据反馈调整策略;第三种方法,Sim2Real从仿真到真实环境的迁移,先在仿真环境中训练好,再迁移到真实机器人上,很显然仿真环境越真实,迁移效果就会越好,但仿真环境也不能百分百等同于现实,所以也会用Real-to-Sim-to-Real反复去修正。


Offline Reinforcement Learning+Online Reinforcement Learning


Imitation Learning模仿学习

今年1月谷歌Deepmind和斯坦福大学联合推出的Mobile ALOHA给大家展示了一个全能的家务机器人,彻底火出了圈,也将模仿学习带到了大众的视野内。他们开发了一个双臂加轮式底盘的遥操作系统,成本不到20万人民币,采用ACT(Action Chunking with Transformers)模仿学习算法训练。Action Chunking是将独立的动作组合到一起并作为一个单元执行,采用生成式模型的方式来训练,根据输入的关节角和图像的观测值,生成预测的动作序列。在去年的ALOHA第一代(Static ALOHA)中,研究者们采集了825条不包含轮式底盘运动的示教数据,用80M参数量的模型,在一个11G的2080Ti GPU上用5个小时训练出一个单任务模型,同样的机器上模型推理时间为0.01秒。在今年的ALOHA第二代(Mobile ALOHA)中只需用新平台采集50条示教数据,与之前第一代收集到的示教数据做联合训练,能够使机器人在移动操作任务上有很好的表现。

Architecture of Action Chunking with Transformers (ACT)


Reinforcement Learning强化学习

在Robot Learning这个领域做出最重要贡献的是加州伯克利大学的Sergey Levine和Pieter Abbeel,可以说他们以一己之力开拓了机器人学习这个领域。就在今年3月一个重磅消息炸出,Sergey Levine,这个谷歌学术被引数超127000的大神宣布创业了,公司的名字叫Physical Intelligence,简称Pi或π,目标是创建一套“可以为各种机器人和机器增添高级智能的软件”,最终构建可以控制任何机器人执行任何任务的通用AI模型。公司联合创始人、斯坦福计算机科学与电气工程系教授Chelsea Finn说,这是一项极具挑战性的工作,需要整合机器人跨平台策略、从VLM和LLM中迁移学习、并通过模仿学习实现对灵活技能的掌握。另一位联合创始人兼CEO Karol Hausman也兴奋表示,项目将收集前所未见规模的机器人数据,进行算法改进和训练超大模型,并攻坚一切将AI引入物理世界所需的技术。才创立不到一个月,Pi已获得包括OpenAI和Khosla Ventures、美国红杉资本、Lux Capital在内的多家风投机构7000万美元的高额融资,这不仅因为公司在机器人赛道中的技术前景被无比看好,更多是对创始团队实力的信心押注。

今年4月卡内基梅隆大学推出了新型人形机器人H2O,并构建了一种可扩展的、基于强化学习的框架,使机器人可以轻松学习新技能。通过引入实时远程操作系统,H2O可以学习和复制人类操作员正在执行的各种任务,作为一种人类和类人机器人之间的无缝接口,无限采集人类动作数据。在算法开发方面,H2O首先重定向人类运动以适应人形机器人的功能,确保其物理限制内的可行性,然后在仿真环境中基于强化学习训练动作模仿算法,最后将学到的技能无缝迁移到真实世界中。H2O巧妙地结合了模仿学习和强化学习,模仿学习需要大量高质量的专家数据,适用于任务目标明确、专家策略易于获取的情况,而强化学习可以从经验中学习,适用于目标不明确、需要探索环境的情况,模仿学习通常比强化学习更容易实现,但强化学习可以解决更复杂的问题。模仿学习的目标是模仿专家行为,学到的策略与数据集中的专家示范比较接近,泛化性和通用性会弱一些,而强化学习的目标是最大化积累奖励,它能探索未知空间,获得专家示范以外的经验,甚至能像AlphaGo那样发展出高于人类的策略。但强化学习要做好非常难,经常会遇到训练时间长、奖励稀疏、策略不收敛等问题,因此很多研究者也将模仿学习和强化学习结合去帮助更快地落地,模仿学习为强化学习提供初始策略,缩短训练时间,强化学习微调模仿学习的策略,提高性能。


Imitation Learning vs. Reinforcement Learning

Sim2Real仿真到现实

数据的匮乏永远是机器人学习领域的掣肘,利用仿真环境训练再将学习到的技能、知识或模型迁移到真实世界中成了大家眼中promising的方向。但现实世界毕竟比仿真环境更加复杂多变,充满噪声和不确定性,从仿真迁移到现实的过程充满挑战,比如如何解决仿真环境和真实环境在感知、动力学等方面存在的“域差异”,如何将真实数据与仿真数据结合提高样本效率,如何提高仿真到现实迁移的鲁棒性,如何训练出在不同环境下都能良好泛化的模型,这些都需要持续的创新和研究突破。

2024年2月24日,英伟达宣布成立了一个全新的研究团队GEAR(Generalist Embodied Agent Research,通用具身智能体研究),3月18日GTC大会英伟达发布了人形机器人通用基础模型Project GR00T、基于Thor SoC的新型人形机器人计算机Jetson Tho,并对Isaac机器人平台进行了重大升级。GR00T代表了英伟达在机器人和具身智能领域的一次重大突破,旨在为人形机器人提供一个能够学习技能以解决各种任务的“大脑”,可以实现通过语言、视频和人类演示来理解自然语言、模仿人类动作,进而快速学习协调性、灵活性以及其他的技能,进而能够融入现实世界并与人类进行互动。新计算平台Jetson Thor支持高效AI运算,新开发工具包Isaac Perceptor增强环境感知,Isaac Manipulator优化操作效率。在英伟达的愿景当中,未来Omniverse将成为机器人系统的诞生地和AI的虚拟训练场,正如黄仁勋所说“开发通用人形机器人基础模型是当今AI领域中最令人兴奋的课题之一”,当他张开双手,与其他人形机器人站在一起时,“计算机图形学,物理学,人工智能的交叉点,这一切都在这一刻开始”。


NVIDIA GR00T Project


Takeaways

机器人学习流派可以说是研究的最前沿,其核心问题就是让机器人能够自己学会执行各种决策控制任务,目前的发展方向包括模仿学习与强化学习融合,离线强化学习与在线强化学习融合,真实数据与仿真数据结合,跨越Sim2Real Gap等。

Robot Learning与World Model都是想解决low-level policy问题,本文中world model特指基于真实数据训练的底层物理模拟模型,也是模仿学习的一种,比较适合结构化的任务,较难泛化到demostration数据之外的scenario,而Robot Learning引入了强化学习和Sim2Real,能够在与环境交互中优化策略,探索未知领域,甚至超越人类水平,也能够适应非结构化场景。在ALOHA的翻车视频中我们看到打翻玻璃杯、抓不住笔、菜被倒到盘子外面的情况,机器人虽然可以模仿很多人类的行为,但是如果没有经过基于环境反馈的强化学习的训练仍然完成不好任务,在ALOHA团队最新的研究成果中,他们加入了人类喊话指导机器人动态提升动作水平和即时调整策略,并让模型根据反馈持续自我改进。当然最难的场景是在contact-intensive任务中,manipulation需要根据实时反馈(包括被操作物体的状态、形变、材质、力反馈等)而做出调整,只有强化学习能够胜任。

在VLM和LLM突飞猛进的今天,大模型给强化学习插上了翅膀,一方面大模型拥有对场景语义的泛化理解能力,可以为强化学习提供非常好的reward function,另一方面强化学习也是大模型alignment的一部分,未来的具身大模型在pre-train和fine-tune之后仍然需要通过reinforcement learning去跟物理世界做alignment,才能更好地在真实世界中落地。


05

Engineering 工程流派

今年3月Figure和OpenAI合作的demo破圈了,Figure采用了分层思路,上层是OpenAI model,主要负责语音交互和基于图像的常识推理,输出的是behavior selection,这主要是因为figure把场景中的任务拆成了几个独立闭环的动作模型,会根据上层指令选择跑哪一个。中层是Neural Network Policies,负责灵巧手操作,输出200hz actions,模型结构是neural network visuomotor transformer,起到的作用是mapping pixels directly to actions,这里采用的是跟ALOHA一样的模仿学习,针对每个任务采集了一些action demostration的数据,让模型通过learning的方式学到相应的动作模型。下层是Whole body controller(WBC),提供安全且稳定的动力学模型,输出1khz的关节力矩,它可以协调机器人所有关节的运动以完成特定的行为,而中层的neural network policies为它提供目标函数和约束条件。

为什么说Figure是工程派呢?因为这种分层架构是可以最快攒出demo的方案,执行场景中的几个specific task,每一层分别负责不同的响应速度和输出频率,上层负责规划慢思考,中层负责神经反射快思考,下层负责计算身体的关节力矩,这样整体反应速度更接近可商用落地的水平。目前这三层中最成熟的是WBC机器人运动控制算法,比较成熟的是用大模型做high-level planning,相对不那么成熟的是low-level policy,这也是目前研究的热点方向。目前层与层之间属于松耦合,以调用关系为主,下层模型很难leverage上层模型的泛化能力,上层模型也很难获得下层模型的即时反馈而调整策略,在不同场景、不同任务之间的通用性比较弱,适合于特定场景下任务比较容易结构化的需求。


Architecture of Figure01

Takeaways

分层架构是目前最快可以工程化落地的方案,把机器人的感知、规划、执行、控制分开去实现,然后级联起来,降低实现难度,但是比较难泛化。人类的行为与决策是大脑、小脑、神经末梢共同作用的结果,他们紧密耦合的结果是智能的涌现,未来人们也会在探索用统一架构去实现具身智能和AGI的路上不断前行。


06

LLM/VLM 大模型流派

关于大模型流派就不得不提到Google Deepmind的贡献,高效的机器人多任务学习需要高容量模型,因此Google researcher们提出了Robotics Transformer系列模型。最早的RT-1是基于模仿学习中的行为克隆学习范式,输入一段短的图像序列和一个指令,输出每个时间步的一个动作,历时17个月基于13个机器人采集了 130k episodes 以及超过700个任务的数据集,使机器人具备了一定的泛化性,能够发现结构相似任务之间的模式,且应用到新任务上。

在RT-1之后,谷歌的研究员们从来没有放弃leverage大模型和scaling的魔力,在SayCan工作中我们首次看到基于LLM的高阶规划和低阶动作的结合,而后他们又将PALM-E多模态大模型和RT-1做了结合,直到去年RT-2的发布才有了第一个真正端到端的VLA(Vision-Language-Action)模型。RT-2的训练分为两步:首先在大规模互联网数据上预训练VLM,然后在机器人任务上做co-fine-tuning,可以更好地泛化到新物体、新环境、新形体、新技能上。RT-2与RT-1最大的不同是它能够从Internet-scale pre-training中获益,为下游任务提供了非常强大的语义推理、problem solving和视觉解释能力,VLM模型是在来自互联网的billions of token上进行训练的,而收集这个规模的机器人数据在短期内看起来是不可能的。之前的一些工作SayCan, Palm-E等通常只解决机器人的high-level planning问题,本质上是充当状态机的角色,解释命令并将其解析为单个原语,然后由单独的low-level controller执行,这些low-level controller在训练期间不会从互联网规模的丰富语义知识中受益。RT-2 是把语言、动作、图像放在一个统一的空间中做token化,也可以理解为action就是一种特殊的language,变成multimodal sequence放到训练集中,从而发挥VLM的能力。

RT-2: Transfer Web Knowledge to Robotic Control

去年10月谷歌又联合研究社区的力量开源了一个巨大的Open X-Embodiment数据集,由21家机构合作收集了22个不同机器人的数据集,展示了527项技能(160266项任务),包含1M+机器人轨迹的机器人学习数据集,在robot manipulation的背景下探索generalist X-robot的训练,堪称机器人领域的ImageNet时刻。并在原来的RT-1和RT-2架构基础上,使用这个最新的数据集训练了RT-X,表现出了positive transfer,可以利用其他平台的经验来提高多个机器人的能力。



Open X-Embodiment Dataset

就在今年3月,谷歌RT机器人又进化了,最新版名叫RT-H,它引入了行动层级(action hierarchy),通过将复杂任务分解成简单的语言动作(language motion),再转化为机器人行动,从而提高机器人完成任务的准确性和学习效率。Google researcher的核心洞见是,语言不仅可以描述高层次任务,还能细致说明完成任务的方法,通过将language motion作为连接高层次任务描述与底层次动作之间的中间层,可以使不同任务之间在语言动作层面上能够更好地共享数据。例如「拿起可乐罐」这一任务可以分解为一系列更细节的language motion:首先「手臂向前伸」,接着「抓紧罐子」,最后「手臂上举」。每个language motion都不是简单的固定原语,而是具有灵活性和情境适应性,可以根据当前任务和场景的具体情况通过指令和视觉观察来学习。RT-H 采用VLM模型同时处理语言动作和行动查询,其处理多样化的多任务数据集时能够带来显著的改善,相比于 RT-2 展现出了更优的泛化性。


RT-H: Action Hierarchies Using Language

除此之外谷歌还宣布了三项新技术:AutoRT、SARA-RT 和 RT-Trajectory,帮助Robotic Transformer更快地在现实世界中落地。AutoRT创建了一个可以在新环境中部署机器人用以收集训练数据的系统,通过收集更全面更多样化的数据,利用大模型的潜力扩展机器人的学习能力。SARA-RT采用了一种新颖的模型微调方法称为“向上训练”,将计算的二次复杂性转换为单纯的线性复杂性,从而大幅提高模型的效率,使Transformer变得更快更精简,具有大规模推广 Transformer 技术的潜力。RT-Trajectory能够自动添加机器人轨迹,为模型学习机器人控制策略提供了低层次、实用的视觉提示,帮助机器人更好地泛化。这些技术可以让机器人更快地做出决策,更好地理解它们所处的环境,更好地指导自己完成任务。


Takeaways

Google Deepmind在Robotics Foundation Model的研究已经积累了八年时间,他们不断地探索如何更好地scale模型和数据,最终得到的recipe是leverage foundation model and large diverse dataset。从最早SayCan用三个模型分别完成planning、affordance和low-level policy,到Q-Transformer统一了affordance和low-level policy,PaLM-E统一了planning和affordance,最后RT-2用一个模型完成了三者,实现了joint scaling和positive transfer,这是机器人基础模型的巨大进步。


2023-2024 Google Deepmind Research Progress

RT-2虽然强大,但它仍有很多局限性,比如实时推理很慢,频率只有1-3Hz,这本身也是VLM模型的问题,现在也有很多方法在尝试解决这个痛点,比如:通过模型的量化和蒸馏将其部署在端侧,采用MoE架构在推理过程中只使用一部分参数,使得推理速度快于相同参数的稠密模型。

除此之外,VLA模型的涌现能力目前仅体现在与VLM相关的high-level planning和affordance方面,但是在low-level物理交互层面上无法涌现新的技能,仍受限于数据集中的技能类别,同时physical action也经常出现抓不稳、放不准等操作笨拙的情况,未来需要将强化学习统一到大模型的训练框架下去实现更强的泛化能力,让VLA模型在实际环境中自主学习和优化低层次的物理交互策略,从而在执行各种物理动作时表现得更加灵巧和准确。



07

总结

过去数月具身智能领域的发展可谓日新月异,进步的速度令人激动不已。尽管人工智能从数字世界向物理世界的跨越仍面临着不少挑战,但随着一批又一批的才华横溢的科研人员投身于这一领域, 我们见证了无数令人惊叹的突破。若干年后如果我们回看这一切,它必将成为人类科技史上浓墨重彩的一笔,因为我们离造出达到并超越人类智能的硅基生命体又近了一步,这不仅是技术的胜利,更是人类对于智能本质探索的一次深刻对话。


Reference

  • https://arstechnica.com/gadgets/2024/02/boston-dynamics-atlas-tries-out-inventory-work-gets-better-at-lifting/

  • https://bostondynamics.com/blog/starting-on-the-right-foot-with-reinforcement-learning/

  • https://voxposer.github.io/

  • https://covariant.ai/covariant-brain/

  • https://www.thinkautonomous.ai/blog/tesla-end-to-end-deep-learning/

  • https://mobile-aloha.github.io/

  • https://www.pymnts.com/artificial-intelligence-2/2024/openai-backed-physical-intelligence-aims-to-develop-ai-for-robots/

  • https://www.youtube.com/watch?v=d2L2UKBamAU

  • https://nvidianews.nvidia.com/news/foundation-model-isaac-robotics-platform

  • https://favtutor.com/articles/figure-robot-openai-demo/

  • https://research.google/blog/rt-1-robotics-transformer-for-real-world-control-at-scale/

  • https://robotics-transformer2.github.io/

  • https://robotics-transformer-x.github.io/

  • https://rt-hierarchy.github.io/

  • https://deepmind.google/discover/blog/shaping-the-future-of-advanced-robotics/




小研聊AI
带你洞悉AI与大模型的前沿认知