李飞飞从「大型数据集」收集操作到「数字表亲」的提出，实现了机器人训练场景多样化的重大跨越！

科技 2024-12-31 08:02 广东

2024机器人领域两大关键词

2024年，在科技领域这两大关键词备受瞩目：一是大模型，二是人形机器人。大模型掀起了新一轮全球人工智能革命，人形机器人则借力大模型这个催化剂，开始向产业落地方向大踏步前进，创造看得见，更摸得着的具身智能。

最近李飞飞团队提成了一种全新概念数字表亲（digital cousin）。也许我们对数字孪生（digital twin）已然不陌生，并且这一概念已在很多工业场景中得到应用。

但什么是数字表亲？小编在前面中提到的大型数据集又是怎么样的一种表现形式？跟随我的步伐，我们一起深入浅出探讨下。

何为数字表亲

李飞飞团队认为，在现实世界中训练机器人的策略可能不安全、昂贵且难以扩展。仿真是一种廉价且潜在的无限训练数据来源，但存在仿真环境和现实世界环境之间的语义和物理差异。

这些差异可以通过数字孪生体（Digital Twin）的训练来最小化，数字孪生体作为真实场景的虚拟复制品，但生成成本高昂，并且无法产生跨域泛化。为了解决这些限制，李飞飞团队提出了数字表亲（Digital Cousins）的概念，数字表亲是一种虚拟资产或场景，与数字孪生体不同，它没有明确地模拟现实世界的对应物，但仍然表现出类似的几何和语义承受能力。数字表亲同时降低了生成类似虚拟环境的成本，同时通过提供类似训练场景的分布来促进跨领域的更好推广。

「简单来说」，你只需拍一张照片，就能将照片中的物体变成虚拟版本，并且这个数字虚拟版本还不是照片中物体的一比一复刻，而是存在一定的变化。

并且基于数字表亲，该团队提出了一种用于自动创建数字表亲的全新方法，该方法就叫做自动数字表亲创建（Automatic Creation of Digital Cousins），简称 ACDC。

他们还提出了一种全自动的「真实→虚拟→真实」流程，可用于生成完全可交互的场景以及训练可以零样本方式部署在原始场景中的机器人策略。

结果表明，ACDC 得到的数字表亲可以成功保留几何与语义特质和属性，同时训练得到的机器人策略也优于使用数字孪生得到的策略：在零样本虚拟→真实迁移条件下，能以 90% 的成功率胜过数字孪生的 25%。

大规模数据集

最初在标题中提到的大型数据集，其原理就是通过收集用于抓取和堆叠等任务的各种数据集，机器人能够从这些数据中学习，以抓取和堆叠它们以前从未见过的具有挑战性的新奇物体。

「如何实现？」通过RoboTurk平台。该平台同样是由李飞飞团队打造，数据解释于18年的斯坦福大学论文“ROBOTURK: A Crowdsourcing Platform for Robotic Skill Learning through Imitation”。

RoboTurk平台简单来说是一个通过模仿进行机器人技能学习的众包平台。使用者可以通过移动设备或浏览器，根据自己的研究目的，用物理模拟器来创建任务，部署到云端，就可以在世界各地征集人类、创造数据集了。打破了时间、地域等一系列常规限制，缩短了时间上所产生的滞后性。

支持多个并发用户同时使用ROBOTURK

可通过手机应用程序访问网站

RoboTurk 支持从任何地方进行远程操作和数据收集

收集数据场景实验

在李飞飞团队所发布的物理机器人收集数据的场景实验中，其中就用到了Sawyer 机器人，为了实现RoboTurk平台的拓展，使其能够使用真实的机器人手臂进行数据收集，并进行远程操作来收集相关的操作数据。

任务是通过在杂乱的物品中搜索一组目标对象，并将它们放入特定的框中。在短短 1 周内，在 54 个用户的 3 项操作任务中收集了超过 111 小时的机器人操作数据，总共成功演示了 2000 多次。

收集数据展示

研究人员可以将RoboTurk应用于真实机器人，同时开发可以使用他们收集的数据来教授机器人低级技能的算法。

RoboTurk可以成为机器人技术领域的重要资源，帮助开发更先进，性能更好的机器人。

无论是18年提出的ROBOTURK，亦或是今年的数字表亲（digital cousin）概念，时间横跨6年，这是人形机器人训练场景多样化的一次重大跨越。

在某采访中李飞飞说过“我们离一个非常多样化的人工智能生态系统还很远，”

“我确实相信，多样化的人类智能将导致多样化的人工智能，并将为我们带来更好的技术。”

确实，也许我们还需要更多努力，才能造就一个更加人机和谐的生态圈。

文章部分内容引自斯坦福AI实验室博客、数字孪生体联盟等

新一代智能化应用

人工智能是一门认知科学，而新一代的智能化应用是一个系统工程。智能应用程序是人工智能驱动的应用程序，可转变用户的工作效率、自动化流程并获得见解

最新文章

RAG成为过去式？缓存增强生成（CAG）is All You Need？

Microsoft X AIGCOPEN：Azure AI 人工智能工程师训练营第一季｜工作坊一：提示工程简介与动手实战

Microsoft X AIGCOPEN：Azure AI 人工智能工程师训练营第一季｜工作坊二：检索增强生成与动手实战

BotSharp 4.0 Sidecar：迈向更大规模化的AI Agent平台框架

思考：2025AI未来机会路在何方（2）

4款开源免费、功能强大的远程桌面控制系统

技术速递｜探索 Microsoft.Extensions.VectorData 与 Qdrant、Azure AI 搜索结合使用

年终巨献 | OpenCSG开源SmolTalk Chinese数据集

一个中文高质量大规模数据集

2024 Agent AI综述，14位顶尖学者（来自微软、斯坦福等）联合撰写！

智能副驾扬帆起航 - Microsoft Copilot 专场

一个适用于 .NET 的开源整洁架构项目模板

AI应用开发的浅见

2025，新趋势！AI编排及资源管理或将成为舞台主角

LLM in 2024！19项洞察，回顾AI巨变之年

洞察：2025AI未来机会路在何方（1）

本地大模型初体验

MAUI iOS使用Google Mobile Ads SDK

老桂 2024分享汇总

2025 胜券在握

3款.NET开源、功能强大的屏幕录制工具

云原生 AI Meetup 广州站圆满落幕（视频回放 +PPT下载）

李飞飞从「大型数据集」收集操作到「数字表亲」的提出，实现了机器人训练场景多样化的重大跨越！

Sim2Real新突破：Jim Fan团队造机器人「修仙」模拟器，挂机50分钟=修炼一整年

从 LB Ingress 到 ZTM：集群服务暴露新思路

使用C# 构建AI原生Agent应用

先别让 AI 智能体干活，让他思考

DeepSeek V3—国产之光又弯道超车了？

虚拟货币中的用到的密码学

YOLOv11：Ultralytics 推出新一代目标检测模型

开源GTKSystem.Windows.Forms框架让C# Winform支持跨平台运行

2025年，拥抱AI Agent！

Scoop: 开发者多环境管理利器

.NET 在 Visual Studio 中的高效编程技巧集

活动预告｜GitHub Copilot 使用技巧 - 编程基础

.NET9增强OpenAPI规范，不再内置swagger

Kubernetes 为什么减少对 Docker 的依赖：容器运行时演进背后的技术考量

Cursor 0.44 重磅更新：全面提升 Agent 能力

AI Agent时代即将到来——硅谷著名投资人Rob Toews对2025年科技发展的十大预测

.NET 9 新增多级缓存 HybridCache

WinForm 应用程序主题实现详解

为什么推荐在 .NET 中使用 YAML 配置文件

AI产品形态交汇的背后：Canvas, Artifacts, Cursor and more

万字长文：汇总最全的Agent技术与应用现状及前景分析

收官！OpenAI 发布 o3：单题最高耗费数千美元，数学编程能力创纪录

AI在伪造方面影响的一些统计数据

跨平台交叉编译 Native AOT

Anthropic发文分享“如何高效构建Agent”，从简单到复杂带你体会Agent应用架构的真谛

收官！OpenAI 发布 o3：单题最高耗费数千美元，数学编程能力创纪录

为何这场论坛能成为企业全智能化应用场景开发转折点？

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉