机器之心报道
机器之心编辑部
今年的机器人顶会 CoRL 杰出论文,竟然帮自动驾驶车稳稳地完成了漂移。
先来个甜甜圈漂移热个身:
然后,上点难度,来个「8 字」:
最后来个蛇形绕桩(Slalom,这次没有实体的桩)。可以听见,在绕到一半的时候,工作人员忍不住欢呼了一下。
即使地面湿滑,自动驾驶汽车的发挥也不受影响。
这些动作都是由一个安装了自动驾驶系统的雷克萨斯 LC 500 汽车来完成的,同样一套系统安装到丰田 Supra 上也可以安全运行。这得益于研究者们在 CoRL 一篇杰出论文中提出的方法,该方法可以提高自动驾驶在极限操控(如漂移)条件下的安全性和可靠性。
另外一篇获奖论文则有关机器人导航。作者借助强化学习对导航智能体进行了端到端大规模训练,结果可以很好地泛化到现实世界。其中,论文一作 Kuo-Hao Zeng 是一位华人学者,目前就职于艾伦人工智能研究院。他本科毕业于中山大学,在清华大学拿到了硕士学位,去年在美国华盛顿大学拿到了博士学位。
在颁奖典礼现场,获奖者拿到了一个神秘的大盒子。据透露,里面装的是看起来很美味的零食:
CoRL 是面向机器人学习研究的会议,涵盖机器人学、机器学习和控制等多个主题,包括理论与应用。自 2017 年首次举办以来,CoRL 已经成为了机器人学与机器学习交叉领域的全球顶级学术会议之一。
除了两篇杰出论文,还有四篇论文拿到了今年的杰出论文提名,比如 ALOHA 团队主要成员的新工作 —— 人形机器人 HumanPlus,斯坦福提出的首个开源视觉语言动作大模型 OpenVLA 等。
以下是关于获奖论文和提名论文的详细介绍。
杰出论文奖获奖论文
论文一:One Model to Drift Them All
作者:Franck Djeumou, Thomas Jonathan Lew, Nan Ding, Michael Thompson, Makoto Suminaka, Marcus Greiff, John Subosits 机构:丰田研究院、美国伦斯勒理工学院 论文链接:https://openreview.net/pdf?id=0gDbaEtVrd
让自动驾驶汽车在极限操控状态下 —— 也就是轮胎抓地力达到最大时 —— 安全运行是一个非常重要的问题,尤其是在紧急避障或恶劣天气等情况下。不过,要实现这样的能力并不容易,因为这项任务本身变化多端,而且对道路、车辆特性以及它们之间的相互作用的不确定性非常敏感。
为了克服这些难题,作者提出了一个新的方案:利用一个包含多种车辆在多样环境下行驶轨迹的未标记数据集,来训练一个高性能车辆控制的条件扩散模型。他们设计的这个扩散模型能够通过一个基于物理信息的数据驱动动态模型的参数多模态分布,来捕捉复杂数据集中的轨迹分布。
通过将在线测量数据作为生成过程的条件,作者将这个扩散模型融入到实时模型预测控制框架中,用于极限驾驶。
在丰田 Supra 和雷克萨斯 LC 500 上进行的大量实验表明,在不同路况下使用不同轮胎时,单一扩散模型可使两辆车实现可靠的自动漂移。该模型与特定任务专家模型的性能相匹配,同时在对未知条件的泛化方面优于专家模型,为在极限操控条件下采用通用、可靠的自动驾驶方法铺平了道路。
左:条件扩散模型在两辆车上执行漂移轨迹的示例。右:控制器结构概述和在线模型参数生成过程。
论文二:PoliFormer: Scaling On-Policy RL with Transformers Results in Masterful Navigators
作者:Kuo-Hao Zeng, Kiana Ehsani, Rose Hendrix, Jordi Salvador, Zichen Zhang, Alvaro Herrasti, Ross Girshick, Aniruddha Kembhavi, Luca Weihs 机构:艾伦人工智能研究所 PRIOR(Perceptual Reasoning and Interaction Research)团队 项目链接:https://poliformer.allen.ai/ 论文链接:https://arxiv.org/pdf/2406.20083
PoliFormer 是 Policy Transformer 的缩写。这是一种纯 RGB 室内导航智能体,它通过强化学习进行端到端大规模训练。尽管纯粹是在模拟中训练,但训练结果无需调整即可泛化到现实世界。
PoliFormer 使用基础视觉 transformer 编码器和因果 transformer 解码器来实现长期记忆和推理。它在不同的环境中进行了数亿次交互训练,利用并行化、多机扩展实现了高吞吐量的高效训练。
PoliFormer 是一个优秀的导航器,在 LoCoBot 和 Stretch RE-1 机器人这两种不同的具身智能方案和四项导航基准测试中均取得了 SOTA 成绩。它突破了以往工作的瓶颈,在 CHORES-S 基准上实现了前所未有的 85.5% 的目标导航成功率,绝对值提高了 28.5%。
PoliFormer 还可轻松扩展到各种下游应用,如目标跟踪、多目标导航和开放词汇导航,无需进行微调。
以下是一些利用 PoliFormer 进行导航的机器人示例:
1、穿过布满障碍的长走廊找到苹果(LoCoBot):
2、找到一本名为「人类」的书(Stretch RE-1)
3、一次寻找多个物品 —— 沙发、书本、厕所和室内植物(Stretch RE-1)
杰出论文提名
论文 1:Re-Mix: Optimizing Data Mixtures for Large Scale Imitation Learning
机构:斯坦福大学、UC 伯克利 作者:Joey Hejna, Chethan Anand Bhateja, Yichen Jiang, Karl Pertsch, Dorsa Sadigh 论文地址:https://arxiv.org/abs/2408.14037
为了训练机器人基础模型,研究领域正在构建越来越多的模仿学习(imitation learning)数据集。然而,数据选择在视觉和自然语言处理中已经被认为是至关重要的,但在机器人技术领域,模型实际上应该使用哪些数据进行训练还是个悬而未决的问题。
基于此,该研究探索了如何权衡机器人数据集的不同子集或「域」以进行机器人基础模型预训练。
具体来说,该研究使用分布式鲁棒优化(DRO)来最大化所有可能的下游域最坏情况性能,提出方法 Re-Mix。Re-Mix 解决了将 DRO 应用于机器人数据集时出现的广泛挑战。Re-Mix 采用提前终止训练(Early Stopping)、动作归一化和离散化来解决这些问题。
通过在最大的开源机器人操作数据集 Open X-Embodiment 上进行广泛的实验,该研究证明数据管理可以对下游性能产生巨大的影响。
论文 2:Equivariant Diffusion Policy
作者:Dian Wang, Stephen Hart, David Surovik, Tarik Kelestemur, Haojie Huang, Haibo Zhao, Mark Yeatman, Jiuguang Wang, Robin Walters, Robert Platt 机构:东北大学、波士顿动力 论文地址:https://arxiv.org/abs/2407.01812
作者:Zipeng Fu, Qingqing Zhao, Qi Wu, Gordon Wetzstein, Chelsea Finn 机构:斯坦福大学 论文地址:https://arxiv.org/pdf/2406.10454
机构:斯坦福大学、UC 伯克利、丰田研究院、Google Deepmind 等 作者:Moo Jin Kim, Karl Pertsch, Siddharth Karamcheti, Ted Xiao, Ashwin Balakrishna, Suraj Nair, Rafael Rafailov, Ethan P Foster, Pannag R Sanketi, Quan Vuong, Thomas Kollar, Benjamin Burchfiel, Russ Tedrake, Dorsa Sadigh, Sergey Levine, Percy Liang, Chelsea Finn 论文地址:https://arxiv.org/abs/2406.09246 项目地址:https://github.com/openvla/openvla
现有的 VLA 基本上是封闭的,无法开放访问; 之前的工作未能探索针对新任务有效微调 VLA 的方法。