首页时事民生政务教育文化科技财富体娱健康情感

旅行百科职场楼市企业乐活学术汽车时尚创业美食幽默美体文摘

Jim Fan全华人团队HOVER问世，1.5M小模型让机器人获「潜意识」！

科技 2024-11-04 13:06 北京

新智元报道

编辑：静音

【新智元导读】来自英伟达、CMU、UC伯克利等的全华人团队提出一个全新的人形机器人通用的全身控制器HOVER，仅用一个1.5M参数模型就可以控制人形机器人的身体。人形机器人的运动和操作之前只是外表看起来类人，现在有了HOVER，连底层运动逻辑都可以类人了！

1.5M参数模型就可以控制人形机器人的身体？！

英伟达高级科学家Jim Fan表示，并不是每个基础模型都需要规模庞大。我们训练了一个拥有150万参数的神经网络来控制人形机器人的身体。

来自英伟达、CMU、UC伯克利等团队提出了HOVER（Humanoid Versatile Controller），一个人形机器人通用的全身控制器。

对于人类来说，行走、保持平衡、将手臂和腿移动到期望的位置都需要大量的潜意识处理。

相应地，对于人形机器人来说，实现全身控制需要适应多种任务，比如导航、行走和桌面操作。

每种任务都需要不同的控制模式。例如，导航依赖于根速度（root velocity）或位置追踪，而桌面操作则主要关注上半身关节角度的跟踪。

现有的方法通常针对特定任务设计独立策略，这不仅使机器人开发过程重复且耗时，还限制了最终全身控制器的多功能性。

例如，使用根速度跟踪（root velocity tracking）在不平地形上进行两足行走的机器人，在需要精确双臂操作的任务中会遇到困难，因为这些任务可能需要关节角度或末端执行器跟踪。

所有这些运动控制模式都应用于同一个硬件平台，自然会引出一个问题：能否创建一个支持所有控制模式的统一控制器，以结合每种模式的优势？

这并非一个简单的挑战，因为每种模式在不同的指令空间内运行，直接集成并不可行。

然而，尽管控制接口有所不同，其底层运动目标往往是一致的：即实现稳定、类人的运动，以满足人形机器人的控制需求。

由此，Jim Fan团队提出一个关键见解：全身运动的动作模仿可以作为这些任务的共同抽象，为学习多种全身控制模式提供通用的运动技能。

在此基础之上，他们提出了HOVER（Humanoid Versatile Controller，人形通用控制器），这是一个多模式策略蒸馏框架，能够将不同的控制模式整合为一个统一的策略。

论文地址：https://arxiv.org/abs/2410.21229

HOVER支持在各控制模式之间的无缝切换，同时保留每种模式的独特优势，为人形机器人在广泛的模式下提供了一种稳健且可扩展的控制解决方案。

也就是说，Jim Fan团队在HOVER中捕捉到了一种和人类相似的「潜意识」，这种「潜意识」能够学习如何协调人形机器人的电机以支持各种运动和操作。

人形机器人的运动和操作之前只是外表看起来类人，现在有了HOVER，连底层运动逻辑都可以类人了！

HOVER能够切实地消除为每个控制模式单独重新训练策略的需求，该方法提高了未来人形机器人应用的效率和灵活性。

相比之下，HOVER支持所有的控制模式

问题定义与分析

Jin Fan团队将此问题表述为一个针对人形机器人控制的目标条件强化学习（RL）任务，并进行了人形机器人控制的指令空间设计。

指令空间包括两个主要控制区域——上半身和下半身控制——并且整合了三种不同的控制模式：

1. 运动学位置跟踪：机器人关键刚体点的目标三维位置。

2. 局部关节角度跟踪：每个机器人马达的目标关节角度。

3. 根追踪：目标根速度、高度和姿态，由横滚、俯仰和偏航角指定。

高亮的方框表示正在被跟踪的活动指令，而右侧的虚线框所示的屏蔽机制可以选择性地激活不同的指令空间，以适应各种任务需求

训练过程

「Oracle」策略

在训练HOVER策略之前，首先通过大量人类运动数据训练一个「Oracle」策略，使其能够模仿人类的全身运动。

这一过程包括设计状态空间、奖励系统以及应用域随机化来支持从仿真到现实的转换。

状态空间设计：Oracle策略的状态包括机器人身体的刚体位置、姿态、速度和上一时刻的动作历史。同时引入目标状态，用来定义参考姿态和当前状态的差异，为机器人提供详细的运动目标。

奖励设计：奖励分为三部分：惩罚、正则化以及任务奖励。具体权重和细节见下列表格，用以确保机器人能够有效地执行目标运动并减少误差。

域随机化：为了使仿真环境中学到的策略能够成功转移到现实中，对模拟环境中的物理参数进行随机化，以提高模型在现实世界中的泛化能力。

策略蒸馏与DAgger算法的应用

在训练Oracle策略后，使用「蒸馏」过程将Oracle策略中的技能转移到HOVER策略中，以使其能够实现多模式控制。

这个过程通过DAgger算法完成，该算法是一种监督学习方法，用于使学生策略的动作逐渐与Oracle策略对齐。

任务指令屏蔽：HOVER使用特定模式和稀疏性屏蔽来生成不同的任务指令模式，并通过这些屏蔽激活不同的指令空间组件，从而支持多模式控制。HOVER策略能够在上半身和下半身的控制中选择性地跟踪某些关节和运动目标。

动作对齐与优化：在每个时间步，学生策略从Oracle策略中获取目标动作，通过最小化目标动作和当前动作的差距来更新自身，从而优化策略的表现。此过程的核心是将Oracle策略的优点有效地转移到HOVER策略中，使其能够支持多种控制模式的无缝切换。

实验结果

实验主要围绕3个问题展开：

Q1：HOVER作为一种通用策略，能否在特定指令配置下表现优于其他策略？

Q2：HOVER能否优于其他多模式人形机器人控制器的训练方法？

Q3：HOVER能否迁移到真实硬件上并执行多样的多模式控制？

A1：与特定控制模式的比较

与已有研究工作中特定控制模式策略的比较

Jim Fan团队将HOVER策略在不同控制模式下的表现与相应的特定策略进行了比较。

例如，HOVER在ExBody模式下的表现通过固定屏蔽来匹配ExBody模式，并在整个数据集Qˆ上进行评估。

HOVER在各种控制模式下表现出优越的泛化能力。在每个指令模式下，HOVER至少在12项指标中的7项上优于此前工作的特定控制器，显著性指标在下表中以粗体标出。

HOVER与基线方法在数据集Qˆ上的仿真运动模仿评估

HOVER在不同控制模式中的一致优势体现了其多功能性。此外，即使仅在单一控制模式下，基于Oracle策略的蒸馏方法仍优于RL训练的特定策略。

与其他常用控制模式特定策略的比较

除了前述基线之外，Jim Fan团队还评估了四种附加模式：左手模式、右手模式、双手模式和头部模式。他们分别训练了四个RL特定策略以单独跟踪这些模式。

左手模式、双手模式、右手模式

下表的结果表明，HOVER在跟踪特定指令配置的指标上持续优于这些特定策略。

A2：与其他通用训练方法的比较

Jim Fan团队将HOVER与一种多模式RL基线进行比较，该基线采用相同的指令屏蔽过程，但从零开始以RL目标进行训练。

在下图中，他们评估了四项指标的跟踪误差：根部姿态、上半身关节角度、局部身体位置和全局身体位置，测量于八种不同模式下。

结果显示，HOVER在32项指标和模式中的跟踪误差始终较低。这一性能提升表明，从跟踪全身运动学的Oracle策略中蒸馏出通用全身控制器具有重要意义。

A3：真实环境评估

Jin Fan团队进行了定量的跟踪实验和定性的行走测试，以评估HOVER多模式控制能力。

站立运动评估

他们在真实环境中评估HOVER的性能，测试了数据集Qˆ中的20种不同站立运动。

其中两种运动在下图中有视觉示例。如下图中间所示，他们展示了根部俯仰运动的成功跟踪；在下图右侧展示了全身运动学跟踪，机器人能够跟踪高度动态的跑步运动。

下表中展示的定量指标表明，HOVER在12项指标中有11项优于特定策略。

多模式评估

Jim Fan团队还评估了HOVER在行走任务中的泛化能力。他们在操作过程中突然切换指令模式，以模拟真实场景。

如下图(a)中，HOVER成功在前进行走时从ExBody模式切换到H2O模式；

(b)中，在执行转弯和后退行走时，从HumanPlus模式切换到OmniH2O模式。

此外，他们使用Vision Pro进行了一个真实的远程操作演示，随机屏蔽了头部和手部的位置。例如，下图(c)中间，机器人在头部模式下仅跟踪人的头部位置，忽略挥动的手部动作。

结果表明，HOVER能够在不同模式下平稳地跟踪运动，展示出其在真实场景中的稳健性。

作者介绍

Tairan He

共同一作Tairan He是卡内基梅隆大学机器人研究所的二年级博士生，由Guanya Shi教授和Changliu Liu教授指导。他同时也是NVIDIA GEAR小组的成员。该小组由Jim Fan和Yuke Zhu领导。

此前，他在上海交通大学获得计算机科学学士学位，导师是Weinan Zhang。并曾在微软亚洲研究院工作过一段时间。

他的研究目标是打造能改善每个人生活质量的机器人；重点是如何为机器人构建数据飞轮，使其获得媲美人类的运动能力和语义理解能力，以及如何让机器人既能安全可靠，又能灵活适应各种环境，具备通用性和敏捷性来完成各类实用任务；采用的是随计算能力和数据规模扩展的机器学习方法。

Wenli Xiao

共同一作Wenli Xiao是卡内基梅隆大学机器人研究所（MSR）的硕士生，由Guanya Shi教授和John Dolan教授指导。

他目前在NVIDIA GEAR实验室担任研究实习生，与Jim Fan博士和Yuke Zhu教授一起研究人形机器人基础模型。

此前，他在香港中文大学（深圳）获得电子信息工程专业学士学位。

参考资料：

https://hover-versatile-humanoid.github.io/

http://mp.weixin.qq.com/s?__biz=MzI3MTA0MTk1MA==&mid=2652536081&idx=4&sn=eb83db7d58588a66dd1b38fc07b5dd33

智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响，领航中国新智能时代。

最新文章

周鸿祎黑客短剧震撼首秀，直接带火纳米搜索！搜学写创，开启AI搜索3.0时代

数字孪生心脏全球首次实现0.84秒超实时模拟！智源突破计算极限，180倍性能提升

代码模型自我进化超越GPT-4o蒸馏！UIUC伯克利等提出自对齐方法 | NIPS 2024

当AI创造AI，就是库兹韦尔「奇点」临近时？人类正处于自我改进AI爆炸边缘

招人！新智元邀你勇闯ASI之巅

十年再登巅峰！刚刚，Ilya和GAN之父斩获NeurIPS 2024时间检验奖

AI卷翻科研！DeepMind 36页报告：全球实验室被「AI科学家」指数级接管

AI造芯Nature论文遭围攻，谷歌发文硬刚学术抹黑！Jeff Dean怒怼：你们连模型都没训

不是RNN的锅！清华团队深入分析长上下文建模中的状态崩溃，Mamba作者点赞

一文看尽Meta开源大礼包！全面覆盖图像分割、语音、文本、表征、材料发现、密码安全性等

招人！新智元邀你勇闯ASI之巅

Sora半夜泄露3小时，物理效果惊人！奥特曼急拔网线，艺术家抗议被白嫖

逃回大厂！谷歌天才科学家Yi Tay——639天创业血泪史

打破LLM数据孤岛！Anthropic革命性MCP让大模型解锁全网数据，AGI要来了？

AI视频两巨头开战！Runway秒生现实大片，Luma动嘴创作电影

「学术版ChatGPT」登场！Ai2打造科研效率神器OpenScholar，让LLM帮你搞定文献综述

揭示Transformer「周期建模」缺陷！北大提出新型神经网络FAN，填补周期性特征建模能力缺陷

UC伯克利：给大模型测MBTI，Llama更敢说但GPT-4像理工男

招人！新智元邀你勇闯ASI之巅

GAN之父新冠后惊传罹患双重顽疾！听力减退心动过速，全网求医

OpenAI怒斥Scaling撞墙论！o1已产生推理直觉潜力巨大

指令跟随大比拼！Meta发布多轮多语言基准Multi-IF：覆盖8种语言，超4500种任务

世界模型挑战赛，单项奖金10000美元！英伟达全新分词器助力下一帧预测

招人！新智元邀你勇闯ASI之巅

Claude 3.5两小时暴虐50多名专家，编程10倍速飙升！但8小时曝出惊人短板

新晋AI编程神器干翻Cursor！首创实时感知无限用，估值12.5亿华人初创震惊AI界

扩散模型=进化算法！生物学大佬用数学揭示本质

招人！新智元邀你勇闯ASI之巅

美国教授痛心：UC伯克利GPA 4.0计算机本科生，毕业即失业？ML博士直呼太卷后悔转行

英特尔错失AI芯片浪潮，从放弃收购英伟达开始

一只暹罗猫竟是论文作者！谷歌学术20岁，创始人首次公开最魔幻学术故事

招人！新智元邀你勇闯ASI之巅

续命Scaling Law？世界模型GPT-4o让智能体超级规划，OSU华人一作

5年浴火，800余岁巴黎圣母院重生！马斯克激动转发，AI数字建模创奇迹

首个可保留情感的音频LLM！Meta重磅开源7B-Spirit LM，一网打尽「音频+文本」多模态任务

机器人训练数据不缺了！英伟达团队推出DexMG：数据增强200倍

招人！新智元邀你勇闯ASI之巅

全面进攻谷歌！OpenAI被曝打造浏览器，已挖Chrome创始大牛

预定下一个诺奖级AI？谷歌量子纠错AlphaQubit登Nature，10万次模拟实验创新里程碑

宝可梦GO「偷家」李飞飞空间智能？全球最强3D地图诞生，150万亿参数解锁现实边界

OpenAI薪酬大曝光！奥特曼身价145亿，年薪只有55万

世界最大AI Agent生态系统！微软推出全新「自主AI智能体」，10万企业工作流被改变

RAG没有银弹！四级难度，最新综述覆盖数据集、解决方案，教你「LLM+外部数据」的正确使用姿势

招人！新智元邀你勇闯ASI之巅

OpenAI看好的方向，文心智能体技术抢先爆发！

「全球最严榜单」，阶跃拿下中国TOP 1！杀入世界前五，超过GPT-4o紧跟o1-mini

收敛速度最高8倍，准确率提升超30%！华科发布MoE Jetpack框架 | NeurIPS 2024

405B大模型也能线性化！斯坦福MIT最新研究，0.2%训练量让线性注意力提分20+

招人！新智元邀你勇闯ASI之巅

美国AI曼哈顿计划793页文件曝光！全力研发AGI，十大战略直指中国

分类

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉