来源:新智元
https://mp.weixin.qq.com/s/UHQmxbCpYpAZYWQHzw1kQA
如何有效地将真实数据扩展到模拟数据,进行机器人学习?
最近,李飞飞团队提出一种「数字表亲」的新方法,可以同时降低真实到模拟生成的成本,同时提高学习的普遍性。
论文地址:https://arxiv.org/abs/2410.07408
目前,论文已被CORL2024接收。
你可能会问,什么是「数字表亲」,有啥用呢?
让我们把它跟数字孪生比较一下。
的确,数字孪生可以准确地对场景进行建模,然而它的生成成本实在太昂贵了,而且还无法提供泛化功能。
而另一方面,数字表亲虽然没有直接模拟现实世界的对应物,却仍然能够捕获相似的几何和语义功能。
这样,它就大大降低了生成类似虚拟环境的成本,同时通过提供类似训练场景的分布,提高了从模拟到真实域迁移的鲁棒性。
共同一作Tianyuan Dai表示,既然有免费的「数字表亲」了,何必再去手工设计数字孪生?
单幅图像变成交互式场景
全自动(无需注释)
机器人策略在原始场景中的零样本部署
简单拍一张照片,就能搞定了
模拟数据难题:与现实环境差异过大
在现实世界中训练机器人,存在策略不安全、成本高昂、难以扩展等问题;相比之下,模拟数据是一种廉价且潜在无限的训练数据来源。
然而,模拟数据存在一个难以忽视的问题——与现实环境之间的语义和物理差异。
这些差异可以通过在数字孪生中进行训练来最小化,但数字孪生作为真实场景的虚拟复制品,同样成本高昂且无法跨域泛化。
正是为了解决这些限制,论文提出了「数字表亲」(digital cousion)的概念。
「数字表亲」是一种虚拟资产或场景,与数字孪生不同,它不明确模拟现实世界的对应物,但仍然展现类似的几何和语义功能。
因此,数字表亲既具备了数字孪生的优势,能够补足现实数据的不足,同时降低了生成类似虚拟环境的成本,并能更好地促进跨域泛化。
具体而言,论文引入了一种自动创建数字表亲(Automatic Creation of Digital Cousins,ACDC)的新方法,并提出了一个完全自动化的,从真实到模拟再到真实的流程,用于生成交互式场景和训练策略。
实验结果发现,ACDC生成的数字表亲场景能够保留几何和语义功能,训练出的策略也优于数字孪生(90% vs. 25%),而且可以通过零样本学习直接部署在原始场景中。
方法概述
与数字孪生不同,数字表亲并不苛求在所有微小细节上都要重建给定场景,而是专注于保留更高级别的细节,例如空间关系和语义。
ACDC是一个完全自动化的端到端流程,从单个RGB图像生成完全交互式的模拟场景,由三个连续步骤组成:
信息提取:首先,从输入的RGB图像中提取对象信息。
数字表亲匹配:利用第一步提取的信息,结合预先准备的3D模型资产数据集,为检测到的每个对象匹配相应的数字表亲。
场景生成:对选择的数字表亲进行后处理并编译在一起,生成一个物理上合理且完全交互式的模拟场景。
通过这三个步骤,ACDC能够自动创建与输入图像语义相似但不完全相同的虚拟场景,为机器人策略训练提供多样化的环境。
策略学习
构建了一组数字表亲后,就可以这些环境中训练机器人策略。
虽然这种方法适用于多种训练范式,例如强化学习或模仿学习,但本文选择聚焦于于脚本演示(scripted demonstrations)的模仿学习,因为这种范式不需要人类演示,与完全自主化的ACDC流程更加适配。
为了能在模拟环境中自动实现演示的收集,作者首先实施了一组基于样本的技能,包括Open(开)、 Close(关)、 Pick(拿)和Place(放)四种。
虽然技能的种类数仍然有限,但已经足够收集各种日常任务的演示,例如对象重新排列和家具铰接。
实验
通过实验,团队回答了以下研究问题:
Q1:ACDC能否生成高质量的数字表亲场景?给定单张RGB图像,ACDC能否捕捉原始场景中固有的高级语义和空间细节?
Q2:在原始的环境设置上评估时,在数字表亲上训练的策略能否匹配数字孪生的性能?
Q3:在分布外设置上评估时,在数字表亲上训练的策略是否表现出更强的稳健性?
Q4:在数字表亲上训练的策略能否实现零样本的sim2real策略迁移?
通过ACDC进行场景重建
首先团队需要论证的最重要的问题,就是ACDC能生成高质量的数字表亲场景吗?
从表格中的数据来看,结果十分令人满意。
以下是在sim-to-sim场景中对ABCD场景重建进行的定量和定性评估。
在sim2sim场景中对ACDC进行场景重建的定量和定性评估
「Scale」:输入场景中两个对象边界框之间的最大距离。
「Cat.」:正确分类对象占场景总对象总数的比例。
「Mod.」:正确建模对象占场景中对象总数的比例。
「L2 Dist.」:输入和重建场景中边界框中心间欧几里得距离的均值和标准差。
「Ori. Diff.」:每个中心对称对象方向幅度差异的均值和标准差。
「Bbox IoU」:资产3D边界框的交并比(IoU)。
以下是ACDC实景到模拟场景的重建结果。
在给定场景中,会显示多个数字表亲。
sim2sim的策略学习
sim2real的策略学习
real2sim2real的场景生成和策略学习
失败案例
a. 高频深度信息
b. 遮挡
c .语义类别差异
d. 缺乏相应类别的资产
结论
1. 鲁棒性
领域内性能:数字表亲训练的策略与数字孪生训练的策略相当。 领域外泛化:数字表亲训练的策略展现出优越的领域外泛化能力。
数字表亲训练的策略能够实现零样本从模拟到现实的策略迁移。
结合大模型通用知识及在交通、社会治理、安全生产、自然资源等行业领域的知识,深入业务场景,精确捕获用户意图,为用户提供智能问答、数据分析、报表生成、工作任务理解与执行等一系列服务
📞若您有相关需求,欢迎点击下方链接与我们沟通洽谈
🗨️也可以在公众号后台给我们留言