首页时事民生政务教育文化科技财富体娱健康情感

旅行百科职场楼市企业乐活学术汽车时尚创业美食幽默美体文摘

李飞飞「数字表兄弟」破解机器人训练难题！零样本sim2real成功率高达90%

文摘 2024-10-14 19:45 江苏

来源：新智元
https://mp.weixin.qq.com/s/UHQmxbCpYpAZYWQHzw1kQA

如何有效地将真实数据扩展到模拟数据，进行机器人学习？

最近，李飞飞团队提出一种「数字表亲」的新方法，可以同时降低真实到模拟生成的成本，同时提高学习的普遍性。

项目主页：https://digital-cousins.github.io/

论文地址：https://arxiv.org/abs/2410.07408

目前，论文已被CORL2024接收。

你可能会问，什么是「数字表亲」，有啥用呢？

让我们把它跟数字孪生比较一下。

的确，数字孪生可以准确地对场景进行建模，然而它的生成成本实在太昂贵了，而且还无法提供泛化功能。

而另一方面，数字表亲虽然没有直接模拟现实世界的对应物，却仍然能够捕获相似的几何和语义功能。

这样，它就大大降低了生成类似虚拟环境的成本，同时通过提供类似训练场景的分布，提高了从模拟到真实域迁移的鲁棒性。

共同一作Tianyuan Dai表示，既然有免费的「数字表亲」了，何必再去手工设计数字孪生？

亮眼的是，「数字表亲」能同时实现——

单幅图像变成交互式场景
全自动（无需注释）
机器人策略在原始场景中的零样本部署

简单拍一张照片，就能搞定了

模拟数据难题：与现实环境差异过大

在现实世界中训练机器人，存在策略不安全、成本高昂、难以扩展等问题；相比之下，模拟数据是一种廉价且潜在无限的训练数据来源。

然而，模拟数据存在一个难以忽视的问题——与现实环境之间的语义和物理差异。

这些差异可以通过在数字孪生中进行训练来最小化，但数字孪生作为真实场景的虚拟复制品，同样成本高昂且无法跨域泛化。

正是为了解决这些限制，论文提出了「数字表亲」（digital cousion）的概念。

「数字表亲」是一种虚拟资产或场景，与数字孪生不同，它不明确模拟现实世界的对应物，但仍然展现类似的几何和语义功能。

因此，数字表亲既具备了数字孪生的优势，能够补足现实数据的不足，同时降低了生成类似虚拟环境的成本，并能更好地促进跨域泛化。

具体而言，论文引入了一种自动创建数字表亲（Automatic Creation of Digital Cousins，ACDC）的新方法，并提出了一个完全自动化的，从真实到模拟再到真实的流程，用于生成交互式场景和训练策略。

实验结果发现，ACDC生成的数字表亲场景能够保留几何和语义功能，训练出的策略也优于数字孪生（90% vs. 25%），而且可以通过零样本学习直接部署在原始场景中。

方法概述

与数字孪生不同，数字表亲并不苛求在所有微小细节上都要重建给定场景，而是专注于保留更高级别的细节，例如空间关系和语义。

ACDC是一个完全自动化的端到端流程，从单个RGB图像生成完全交互式的模拟场景，由三个连续步骤组成：

信息提取：首先，从输入的RGB图像中提取对象信息。
数字表亲匹配：利用第一步提取的信息，结合预先准备的3D模型资产数据集，为检测到的每个对象匹配相应的数字表亲。
场景生成：对选择的数字表亲进行后处理并编译在一起，生成一个物理上合理且完全交互式的模拟场景。

通过这三个步骤，ACDC能够自动创建与输入图像语义相似但不完全相同的虚拟场景，为机器人策略训练提供多样化的环境。

策略学习

构建了一组数字表亲后，就可以这些环境中训练机器人策略。

虽然这种方法适用于多种训练范式，例如强化学习或模仿学习，但本文选择聚焦于于脚本演示（scripted demonstrations）的模仿学习，因为这种范式不需要人类演示，与完全自主化的ACDC流程更加适配。

为了能在模拟环境中自动实现演示的收集，作者首先实施了一组基于样本的技能，包括Open（开）、 Close（关）、 Pick（拿）和Place（放）四种。

虽然技能的种类数仍然有限，但已经足够收集各种日常任务的演示，例如对象重新排列和家具铰接。

实验

通过实验，团队回答了以下研究问题：

Q1：ACDC能否生成高质量的数字表亲场景？给定单张RGB图像，ACDC能否捕捉原始场景中固有的高级语义和空间细节？
Q2：在原始的环境设置上评估时，在数字表亲上训练的策略能否匹配数字孪生的性能？
Q3：在分布外设置上评估时，在数字表亲上训练的策略是否表现出更强的稳健性？
Q4：在数字表亲上训练的策略能否实现零样本的sim2real策略迁移？

通过ACDC进行场景重建

首先团队需要论证的最重要的问题，就是ACDC能生成高质量的数字表亲场景吗？

从表格中的数据来看，结果十分令人满意。

以下是在sim-to-sim场景中对ABCD场景重建进行的定量和定性评估。

在sim2sim场景中对ACDC进行场景重建的定量和定性评估

评估指标包括：

「Scale」：输入场景中两个对象边界框之间的最大距离。
「Cat.」：正确分类对象占场景总对象总数的比例。
「Mod.」：正确建模对象占场景中对象总数的比例。
「L2 Dist.」：输入和重建场景中边界框中心间欧几里得距离的均值和标准差。
「Ori. Diff.」：每个中心对称对象方向幅度差异的均值和标准差。
「Bbox IoU」：资产3D边界框的交并比（IoU）。

以下是ACDC实景到模拟场景的重建结果。

在给定场景中，会显示多个数字表亲。

ACDC真实到模拟场景重建结果的定性评估，展示了为给定场景生成的多个数字表亲

基于这些结果，研究者可以肯定地回答Q1了——

ACDC确实能够保留输入场景的语义和空间细节，从单张RGB图像生成真实世界对象的数字表亲，并能准确定位和缩放以匹配原始场景。

sim2sim的策略学习

这部分的实验主要是为了回答上述研究中的Q2和Q3，在3个任务上分析ACDC训练策略的能力，包括「开门」、「打开抽屉」和「收起碗」，每项任务都与数字孪生设置进行了对比。

不同设置中的总体成功率如下图所示。

可以发现，在数字表亲上训练的策略通常可以匹配，甚至优于数字孪生的设置。

作者假设，由于数字表亲的策略是在不同环境设置的数据上进行训练的，因此可以覆盖广泛的状态空间，从而很好地推广到原始数字孪生设置。

然而，在另一个极端，针对所有可行资产（All Assets）进行训练场的策略要比数字孪生差得多，这表明朴素的领域随机化并不总是有用的。

此外，随着DINO嵌入距离的增加，即评估设置与原始设置的差异逐渐增大，数字孪生的策略性能通常会出现成比例的显著下降，但数字孪生策略整体表现更加稳定，证明了在分布外设置上的鲁棒性。

sim2real的策略学习

随后，研究者对数字孪生和数字表亲策略进行了零样本现实世界评估。

任务是给宜家柜子上开门。

评估指标就是成功率。

结果显示，模拟结果平均超过50次试验，真实结果平均超过20次试验。

real2sim2real的场景生成和策略学习

无论是数字孪生还是数字表亲，最终的落脚点还是要在真实环境中对比性能。

因此实验的最后，团队在完全真实（in-the-wild）的厨房场景中端到端地测试了完整的ACDC管道和自动化策略学习框架。

在经过数字表亲的专门模拟训练后，机器人可以成功打开厨房橱柜，证明了ACDC方法迁移到真实环境中的有效性。

以下Demo展示了完全自动化的数字表亲生成过程。

左右滑动查看

零样本的sim2real策略迁移实验表明，仅从上述生成的四个数字表亲训练的模拟策略，可以直接迁移到相应的真实厨房场景。

基于这些结果，研究者可以肯定地回答Q2、Q3和Q4了——

使用数字表亲训练的策略，表现出了与在数字孪生上训练策略相当的分布内性能，以及更强的分布外鲁棒性，并且可以实现零样本从模拟到现实的策略迁移。

失败案例

即使ACDC方法表现出了整体上的优越性能，研究团队也在实验中观察到了几个失败案例，例如：在打开柜子的任务中，机器人未能完全移动到把手所在位置——

或者移动时错过把手——

即使正确找到了把手所在位置，也有可能手滑——

可以观察到，ACDC经常在以下几种情况下陷入困境：

a. 高频深度信息

b. 遮挡

c .语义类别差异

d. 缺乏相应类别的资产

e. 除「位于顶部」之外的对象关系

前三个限制，与ACDC的参数化方式直接相关。

比如对于(a)，由于ACDC依赖于相对准确的深度估计，来计算预测的对象3D边界框，因此不准确的深度图可能会导致ACDC对物体模型的估计相应较差。

原生深度传感器在物体边界附近可能难以产生准确的读数，这是因为深度图在这些区域可能出现不连续性。当物体具有许多精细边界时（例如植物和栅栏），这个问题会变得更加复杂。

此外，由于研究者依赖现成的基础模型（DepthAnything-v2）来预测合成深度图，因此也承袭了模型自身的一系列限制，例如对特殊物体或在不利的视觉条件下的预测较差。

结论

最终，研究者得出了以下结论。

ACDC是一个全自动化管线，能够快速生成与单张真实世界RGB图像相对应的完全交互式数字表亲场景。

研究发现：

1. 鲁棒性

在这些数字表亲设置上训练的策略，比在数字孪生上训练的策略表现出更强的鲁棒性。

为了进一步检查数字表亲对朴素域随机化的相对影响，研究者根据其他基线在 DoorOpening任务上重新运行了sim2sim实验

2. 性能对比

领域内性能：数字表亲训练的策略与数字孪生训练的策略相当。
领域外泛化：数字表亲训练的策略展现出优越的领域外泛化能力。

3. 零样本学习

数字表亲训练的策略能够实现零样本从模拟到现实的策略迁移。

槿墨AI

产品服务

结合大模型通用知识及在交通、社会治理、安全生产、自然资源等行业领域的知识，深入业务场景，精确捕获用户意图，为用户提供智能问答、数据分析、报表生成、工作任务理解与执行等一系列服务

📞若您有相关需求，欢迎点击下方链接与我们沟通洽谈

🗨️也可以在公众号后台给我们留言

参考资料：

https://x.com/RogerDai1217/status/1844411408374693941

http://mp.weixin.qq.com/s?__biz=MzkwMjY0ODMwNA==&mid=2247487130&idx=1&sn=c51c66f39ae13cc8aa556f8369c67963

开启探索人类未来命运的旅程，拥抱如槿似墨的无限可能。

最新文章

【文生智界】WonderWorld：一图在手，世界我有

【文生智界】介绍一下，Stable Diffusion！文生图的稳定之选

【文生智界】AI将3D建模带入大众视野，创意如何突破技术壁垒？

告别预设剧本，“人生”永无止境：Unbounded

国庆节火遍抖音的AI雷军从何而来——GPT-SoVits

ChatGPT终于变AI搜索引擎了！网页/手机/桌面版同时上线，即将人人可用

7天开发一个AI Agent应用！秘密武器：一体化数据库

苹果AI上线，ChatGPT免费用！首款M4 Mac诞生

大模型“投资热”降温，下半场转向“应用落地”

POINTS多模态大模型亮相：微信团队打造，高效简洁性能强

港大最新开源LightRAG：更快、更强、更经济的RAG系统

AIGC丨ChatGPT的流式输出技术SSE实践！

Claude 3.5深夜觉醒，学会模仿人类用电脑！编程干翻o1，Agent一夜变天

切，这玩意儿不就是一眼 AI …… 吧？

字节：不做眼镜做耳机，揭秘Ola Friend核心技术

YOLO11：重新定义性能极限！对比YOLO8如何？

H100价格大跌！GPU供需失衡，真过剩？

大语言模型垂直领域融合的最优解：微调or检索增强生成?

长文本、语音、视觉全覆盖，中国移动抬上大招：九天善智！

李飞飞「数字表兄弟」破解机器人训练难题！零样本sim2real成功率高达90%

LLM（大语言模型），我们距离应用还差什么？

特斯拉首款无人驾驶出租问世，马斯克掀翻全场！无方向盘、无踏板，3万美元26年量产

诺贝尔物理和化学奖都颁给了AI，意味着什么？

双向奔赴！什么是大模型和数据库的双向赋能？

Meta首款多模态Llama 3.2开源！1B羊驼宝宝，跑在手机上了

RT-DETRv3横空出世！探究实时目标检测的尽头

【一手实测】Tripo 2.0：AI 3D生成天花板再拉升！

聊聊3DGS，各应用方向的最新进展是？

李飞飞创业后的首个专访：空间智能是下一个“北极星”

CoT神话破灭，并非LLM标配！三大学府机构联手证实，CoT仅在数学符号推理有用

用AI和宠物闲聊，解锁「毛孩子」语言，铲屎官心动！

Qwen2.5登上全球开源王座！72B模型击败LIama3 405B，轻松胜过GPT-4o-mini

【盘点】AI视觉算法主流部署方式，到底怎么选？

会领路、能聊天，现在的导航已经next level了

深夜空降！OpenAI草莓正式发布，命名o1， GPT-4o被碾压！

对话Qwen2-VL：多模态大模型背后的逻辑

上交大：让代码自动成长！培养你的专属宝可梦

PyTorch官宣去CUDA推理！Triton时代来了

Andrej Karpathy最新采访：认知核心模型10亿参数就够了，AI会打破教育不公的僵局

FairMOT：解锁复杂环境下多目标跟踪的难题！

Cursor：开发者的新质生产力，人人都是程序员？

机器人身穿衣服做家务，逼真到被质疑是人类套壳

大模型应用新战场：揭秘终端侧AI竞争关键｜智在终端

全国首个上手机的AI视频通话来了！《黑神话：悟空》经文也能破译

【深度解读】政务大模型的产业图谱、企业布局与落地应用

又创新？U-KAN：专注图像边界细节优化的网络架构！

AI开启“城市漫步”，这Citywalk够不够贴心！

【梳理】主流推荐算法：如何让AI更精准地“猜你喜欢”？

Midjourney地位不稳？AI绘图又一黑马出现，附4款产品一手实测

实测！30秒即可生成工业级Mesh，媲美人工建模？

分类

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉