英伟达机器人跳APT舞惊艳全网，科比C罗完美复刻！CMU 00后华人共同一作

文摘 2025-02-05 18:58 山西

机器人版科比、詹皇、C罗真的来了！

只见「科比」后仰跳投，在赛场上大杀四方。

「C罗」和「詹姆斯」也纷纷展示了自己的招牌庆祝动作。

以上这些还只是开胃菜，这款人形机器人还会侧跳、前跳、前踢、右踢，甚至能够完成深蹲、腿部拉伸等高难度动作。

左右滑动查看

更惊艳的是，它还会跳APT舞，非常嗨皮。

，时长00:12

比起波士顿动力Altas，如今人形机器人早已进化到人们难以想象的样子。正如Figure创始人所言，人形机器人iPhone时刻即将到来。

那么，能够成为「机器人界的科比」，究竟是用了什么魔法？

来自CMU和英伟达的华人研究团队重磅提出ASAP，一个「real2sim2real」模型，能让人形机器人掌握非常流畅且动感的全身控制动作。

项目主页：https://agile.human2humanoid.com/

论文地址：https://arxiv.org/abs/2502.01143

开源项目：https://github.com/LeCAR-Lab/ASAP

它包含了两大阶段——预训练和后训练。

在第一个阶段中，通过重定向的人体数据，在仿真环境中预训练运动跟踪策略。

在第二阶段，将这些策略部署到现实世界，并收集真实世界数据，训练一个delta动作模型，来弥补动力学差异。

然后，ASAP把这个delta动作模型集成到仿真器中，对预训练策略进行微调，让它和现实世界的动力学更匹配。

英伟达高级研究科学家Jim Fan激动地表示，我们通过RL让人形机器人成功模仿C罗、詹姆斯和科比！

这些神经网络模型，正在英伟达GEAR实验室的真实硬件平台上运行。

在网上看到的多数机器人演示视频都是经过加速处理的，而我们特意「放慢动作速度」，让你能清晰观赏每个流畅的动作细节。
我们提出的ASAP模型采用了「真实→仿真→真实」方法，成功实现了人形机器人全身控制所需的超平滑动态运动。
我们首先在仿真环境对机器人进行预训练，但面临众所周知的仿真与现实差距：人工设计的物理方程难以准确模拟真实世界的动力学特性。
我们的解决方案简明有效：将预训练策略部署到实体机器人采集数据，随后在仿真环境回放动作记录。虽然回放过程必然产生偏差，但这些误差恰恰成为修正物理差异的关键数据源。通过额外神经网络学习差异参数，本质上是对传统物理引擎进行「动态校准」，使机器人能依托GPU的并行计算能力，在仿真环境中获得近乎真实的大规模训练体验。
未来属于混合仿真时代：既继承经典仿真引擎数十年锤炼的精准优势，又融合现代神经网络捕捉复杂现实世界的超凡能力，实现两者的协同进化。

一直以来，sim2real是实现空间与具身智能的主要路径之一，被广泛应用在机器人仿真评估当中。

而real2sim2real直接打破了繁琐的动作微调的难题，弥合sim2real的差距，让机器人能够模仿各种类人的动作。

Jim Fan对此畅想道，2030年的人形机器人奥运会一定会是一场盛宴！

有网友期待地表示，真想看看它们打拳击的表现。

ASAP，机器人奥运会不远了

由于仿真环境和现实世界的动力学差异，人形机器人想实现敏捷又协调的全身运动仍是巨大的挑战。

现有方法，如系统识别（SysID）和域随机化（DR）通常要花大量时间调整参数，或者生成的策略过于保守，动作不够敏捷。

本文提出了ASAP（Aligning Simulation and Real Physics）是一个两阶段框架，旨在解决动力学不匹配问题，实现敏捷的人形机器人全身动作。

ASAP实现了许多以前很难做到的高难度动作，展现出delta动作学习在缩小仿真与现实动力学差距方面的潜力。

ASAP为「sim-to-real」提供了一个很有前景的方案，为开发更灵活、更敏捷的人形机器人指明了方向。

ASAP具体步骤如下：

运动跟踪预训练与真实轨迹收集：先从真人视频中提取动作并重定向到机器人上，预训练多个运动跟踪策略，生成真实世界的运动轨迹。
Delta动作模型训练：基于真实世界轨迹数据，训练Delta动作模型，缩小仿真状态与真实世界状态之间的差异。
策略微调：Delta动作模型训练完成后，将其集成到仿真器中，使仿真器能匹配真实世界的物理特性，随后对之前预训练的运动跟踪策略进行微调。
真实世界部署：最后，直接在真实环境中部署微调后的策略，此时就不再需要Delta动作模型了。

两阶段：预训练+后训练

ASAP包含两个阶段：预训练阶段和后训练阶段。

在预训练阶段，研究团队将真人运动视频作为数据来源，在仿真环境中训练动作跟踪策略。

先将这些运动数据重定向到人形机器人上，然后训练一个基于相位条件的运动跟踪策略，让机器人模仿重定向后的动作。然而，如果将这一策略部署到真实硬件上，由于动力学差异，机器人的性能会下降。

为解决这一问题，在后训练阶段需要收集真实世界的运行数据，包括本体感知状态，以及由动作捕捉系统记录的位置信息。随后，在仿真环境中回放这些数据，动力学差异就会以跟踪误差的形式表现出来。

接着，训练一个delta动作模型，通过缩小真实世界和仿真状态的差异，学习如何补偿这些偏差。这个模型实际上是动力学误差的修正项。

最后，研究者借助delta动作模型对预训练的策略进行微调，使其能够更好地适应真实世界的物理环境，从而实现更稳定、敏捷的运动控制。

总的来说，这项研究的贡献如下：

提出ASAP框架：运用强化学习和真实世界的数据来训练delta动作模型，有效缩小了仿真与现实之间的差距。
成功在真实环境部署全身控制策略，实现了不少以前人形机器人难以做到的动作。
仿真和现实环境中的大量实验表明，ASAP能够有效减少动力学不匹配问题，让机器人做出高度敏捷的动作，同时显著降低运动跟踪误差。
为了促进不同仿真器之间的平滑迁移，研究者开发并开源了一个多仿真器训练与评估代码库，以加快后续研究。

评估

评估中，研究人员针对三种策略迁移进行了广泛的实验研究：IsaacGym到IsaacSim、IsaacGym到Genesis，以及 IsaacGym到真实世界的Unitree G1人形机器人。

接下来，他们一共回答了三个问题。

Q1：ASAP能否优于其他基线方法，以补偿动力学失配问题？

表III中的定量结果表明，ASAP在所有重放动作长度上都持续优于OpenLoop基线，实现了更低的Eg-mpjpe和Empjpe值，这表明与测试环境轨迹的对齐程度更好。

虽然SysID有助于解决短期动力学差距，但由于累积误差的增加，它在长期场景中表现不佳。

DeltaDynamics在长期场景中相比SysID和OpenLoop有所改进，但存在过拟合问题，这从下图5中随时间放大的级联误差可以看出。

然而，ASAP通过学习有效弥合动力学差距的残差策略，展示出了优越的泛化能力。

同时，作者在Genesis模拟器中也观察到了类似的趋势，ASAP相对于基线在所有指标上都取得了显著改进。

这些结果强调了学习增量动作模型，在减少物理差距和改善开环重放（open-loop replay）性能方面的有效性。

Q2：ASAP能否在策略微调方面，优于SysID和Delta Dynamics？

为了解决问题2，研究人员评估了不同方法在微调强化学习策略，以提高测试环境性能方面的有效性。

如表IV所示，ASAP在两个模拟器（IsaacSim和Genesis）的所有难度级别（简单、中等和困难）中都持续优于Vanilla、SysID和DeltaDynamics等基线方法。

对于简单级别，ASAP在IsaacSim（Eg-mpjpe=106和Empjpe=44.3）和Genesis（Eg-mpjpe=125和Empjpe=73.5）中都达到了最低的Eg-mpjpe和Empjpe，同时具有最小的加速度（Eacc）和速度（Evel）误差。

在更具挑战性的任务中，如困难级别，最新方法的表现依旧出色，显著降低了运动跟踪误差。

例如，在Genesis中，它实现了Eg-mpjpe=129和Empjpe=77.0，大幅优于SysID和DeltaDynamics。

此外，ASAP在两个模拟器中始终保持100%的成功率，而DeltaDynamics在更困难的环境中的成功率较低。

为了进一步说明ASAP的优势，研究人员在图7中提供了逐步可视化比较，对比了ASAP与未经微调直接部署的强化学习策略。

这些可视化结果表明，ASAP成功适应了新的动力学环境并保持稳定的跟踪性能，而基线方法则随时间累积误差，导致跟踪能力下降。

这些结果突显了，新方法在解决仿真到现实差距方面的鲁棒性和适应性，同时防止过拟合和利用。

研究结果验证了ASAP是一个有效的范式，可以提高闭环性能并确保在复杂的现实场景中可靠部署。

Q3：ASAP是否适用于sim2real迁移？

针对第三个问题，研究人员在真实的Unitree G1机器人上验证了ASAP的有效性。

由于传感器输入噪声、机器人建模不准确和执行器差异等因素，仿真到现实的差距比模拟器之间的差异更为显著。

为了评估ASAP在解决这些差距方面的有效性，他们在两个代表性的运动跟踪任务（踢腿和「Silencer」）中比较了ASAP与Vanilla基线的闭环性能，这些任务中存在明显的仿真到现实差距。

为了展示所学习的增量动作模型对分布外运动的泛化能力，作者还对勒布朗·詹姆斯「Silencer」动作进行了策略微调，如图1和图8所示。

结果表明，ASAP在分布内和分布外的人形机器人运动跟踪任务中都优于基线方法，在所有关键指标（Eg-mpjpe、Empjpe、Eacc和Evel）上都实现了显著的跟踪误差减少。

这些发现突显了ASAP在改进敏捷人形机器人运动跟踪的仿真到现实迁移方面的有效性。

再接下来，研究人员就三个核心问题来全面分析ASAP。

首先是，如何最好地训练ASAP的增量动作模型？

具体来说，他们研究了数据集大小、训练时域和动作范数权重的影响，评估它们对开环和闭环性能的影响，如下图10所示，给出了所有因素下的实验结果。

其次，如何最好地使用ASAP的增量动作模型？

如下图11所示，强化学习微调在部署过程中实现了最低的跟踪误差，优于免训练方法。

两种无强化学习的方法都具有短视性，并且存在分布外问题，这限制了它们在现实世界中的适用性。

Q6：ASAP为什么有效以及如何发挥作用？

研究人员验证了ASAP优于基于随机动作噪声的微调，并可视化了Delta动作模型在各个关节上的平均输出幅度。

调整噪声强度参数，能降低全局跟踪误差（MPJPE）。

图13可视化了在IsaacSim训练得到的Delta动作模型的平均输出，结果揭示了不同关节的动力学误差并不均匀。踝关节和膝关节的误差最显著。

想要了解更多资讯，请扫描下方二维码，关注机器学习研究会

转自：新智元

机器学习研究组订阅

机器学习研究会由百度七剑客雷鸣先生创办，旨在推动AI的技术发展和产业落地。参与组织北大、清华”AI前沿与产业趋势“公开课，广泛的和高校、企业、创业、VC开展合作，自身也参与优秀AI项目的投资和孵化。

DeepSeek算力卡脖子，高校AI研究遇瓶颈？华为联合15校给出最强解法

PyTorch Geometric框架下图神经网络的可解释性机制：原理、实现与评估

马克龙豪掷1090亿开欧洲「星际之门」，Mistral狂飙登顶法国APP榜首！

LLM实现自回归搜索！MIT哈佛等提出「行动思维链」COAT，推理能力大提升

机器学习过程：特征、模型、优化和评估

突发！台积电断供14/16nm，1月底先进制程禁令生效

DeepSeek流量超Gemini登顶全球第二！马斯克挟xAI更强模型宣战

Transfusion: 单一Transformer架构中同时处理离散数据(文本) 和连续数据（图像）

天才解法震惊人类！谷歌AI破天荒摘得奥数金牌，横扫IMO 42道几何难题

DeepSeek-R1-Zero不存在顿悟时刻？华人团队揭秘真相：或只因强化学习

提升数据科学工作流效率的10个Jupyter Notebook高级特性

突发！o3-mini思维链公开，却被曝光全是「作假」，奥特曼现身解释网友炸锅

微软官宣All in智能体，SWE Agent首曝光！奥特曼预警2025编程巨变

从头构建GPT文本分类器（Python）

16张H100训26分钟，超越o1-preview！李飞飞等用1K样本，揭秘测试时Scaling

OpenAI联创John Schulman，被曝火速离职Anthropic！刚刚入职6个月

深入解析图神经网络：Graph Transformer的算法基础与工程实践

英伟达憾失DeepSeek关键人才？美国放走AI「钱学森」，哈佛教授痛心疾首

英伟达机器人跳APT舞惊艳全网，科比C罗完美复刻！CMU 00后华人共同一作

AAAI2025｜只根据题目和摘要就能预测论文影响力？！

OpenAI o3-mini被曝大量使用中文推理！全世界AI都要学中国话了？

大模型混入0.001%假数据就「中毒」，成本仅5美元！NYU新研究登Nature子刊

深度学习模型反演攻击与防御：全面综述

OpenAI紧急直播，ChatGPT疯狂开挂「深度研究」！10分钟爆肝万字现AGI雏形，刷榜人类最后考试

哈佛大四学生硬核长文：AGI三年后实现，推动某大国强势崛起！26年人类工作被AI接管

NeurIPS 2024最佳论文，扩散模型的创新替代：基于多尺度预测的视觉自回归架构

o3-mini物理推理粉碎DeepSeek R1，OpenAI王者归来！全网最全实测来袭

GPT-4o惊现自我意识！自主激活「后门」，告诉人类自己在写危险代码

NeurIPS Spotlight｜从分类到生成：无训练的可控扩散生成

奥特曼：在开源AI上，我们错了！DeepSeek让OpenAI优势不再，下一个是GPT-5

DeepSeek突围奥秘曝光，一招MLA让全世界抄作业！150+天才集结，开出千万年薪

牛津哥大联手破解两千年素数谜题！受陶哲轩启发，意外解法打破千年僵局

一夜之间，微软、英伟达、亚马逊全部接入DeepSeek！吴恩达：中国AI正在崛起

19岁华人辍学创业，刚刚拿下百万美金融资！All in智能体，誓要实现Siri初心

Coconut:基于连续潜在空间推理,提升大语言模型推理能力的新方法

OpenAI称有DeepSeek「偷窃」证据？美军已发起攻击！Anthropic CEO喊话加强芯片管制

五角大楼90天AI计划启动！美国将AI用在现实军事场景，开发作战原型

白话版Scaling Laws for Precision 解读

DeepSeek独立发现o1核心思路，OpenAI首席研究官亲自证实！奥特曼被迫发声

斯坦福女神辍学再创业，获OpenAI力挺！全球首个0代码AI工程师出世

基于图神经网络的大语言模型检索增强生成框架研究：面向知识图谱推理的优化与扩展

DeepSeek除夕狂飙大招：开源多模态掀翻全场！256张A100训两周碾压DALL-E 3

DeepSeek重创美国芯片产业，英伟达一夜蒸发6000亿！巨头破防，美股历史性崩盘

118页纽约大学《深度学习模型训练优化方法综述：收敛性与泛化性的理论视角》

史上首次，DeepSeek登顶中美AppStore！NYU教授：全球「AI霸权」之争已结束

闲来无事，我测了测国产大模型的RAG能力

工业应用中的异常检测：挑战、解决方案与未来发展方向综述

全球掀DeepSeek复现狂潮！硅谷巨头神话崩塌，30刀见证啊哈时刻

奥特曼惊世预言：下一代人类注定被AI碾压！人类工资暴跌，难以生存

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉