我们要做3D界的ImageNet，推动具身智能训练新范式｜群核科技唐睿@MEET2025

科技 2024-12-18 15:04 北京

编辑部发自凹非寺
量子位 | 公众号 QbitAI

图形学的并行计算和边际计算，在模拟物理世界和机器人训练中起到了关键作用。
图形学模拟世界有天然优势。具身智能未来可能会出现新范式。

2024年被称为“具身智能元年”，这一新兴领域正吸引着越来越多资本、公司和学者进入。

翻开不少玩家的履历，会发现出身于图形学背景的不在少数。比如国外李飞飞的World Labs，又比如国内的群核科技，也就是酷家乐这个3D云设计平台背后的公司。

MEET 2025智能未来大会上，量子位邀请到群核科技的唐睿博士，探讨了从图形学到具身智能，从模拟世界到训练AI重构环境并进行智能交互、以及具身智能行业最新技术成果、发展现状和终极形态展望等一系列最热议话题。

唐睿博士是群核科技首席科学家、副总裁，KooLab实验室负责人，也是现任中国图学学会专业委员会委员，图形学与混合现实研讨会执行委员。

MEET 2025智能未来大会是由量子位主办的行业峰会，20余位产业代表与会讨论。线下参会观众1000+，线上直播观众320万+，获得了主流媒体的广泛关注与报道。

核心观点梳理

具身智能与AI的区别：具身智能不仅通过屏幕交互，还能与环境中的物理世界进行交互。它可能包含手、感官（如摄像头、嗅觉、触觉）以及行动能力。
具身智能不一定需要人形，成熟的具身智能实现如自动驾驶汽车，并不要求具有人类的外形。
并行计算降低了模拟人脑和物理世界的成本，边际计算在图形绘制和机器人训练中起到了关键作用。
投身具身智能，图形学背景的公司和个人在模拟世界方面有先天优势。
从内容创作的角度讲，Sora算是物理世界模拟器之一，但在具身智能领域，它还缺少对物理规律的理解和约束。
当前具身智能的技术进展，四个核心器官的发展：“脑子”（决策系统）在知识面和理解能力上已超越人类。“眼睛”（传感器技术）极为先进，具备多种感知能力。“手脚”（运动能力）在灵活性和效率上远超人类。整体的协调性正在推动新技术和新数据产生方式的诞生。
期望的具身智能终极形态：类似于自动驾驶汽车的延伸，具身智能最终可能成为了解用户并主动服务的管家机器人。

以下是唐睿博士在MEET大会现场圆桌论坛的QA实录，为了完整体现他的思考，在不改变原意的基础上，量子位对问答部分进行了编辑整理，希望能给你带来更多启发。

从图形学到具身智能

唐睿：大家好，我是唐睿。我主要研究领域是计算机图形学、人工智能和具身智能，最早的时候在群核科技做酷家乐产品，做真实感绘制，属于图形学领域。

当我们的用户量、用户数据增加了以后，我发现设计师设计的场景非常逼真、非常接近真实，我就有了一个想法——这种逼真的场景，为什么我们自己不能用起来呢？

它也可以像自动驾驶那样，因为自动驾驶里面也sim-to-real，在仿真域里面做训练和学习，甚至还有驾驶技能验证，然后我就开始接触具身智能行业。

我觉得具身智能和AI最大的一个区别，是从芯片、显示器，内存、显存里面走出来，走到我们环境里面。

它不只是有一个脑子，仅仅通过屏幕和我们交互，还会有手、感官，比如说摄像头，甚至嗅觉、触觉能力，也有行动能力，能够和我们所处的外部物理世界交互。

虽然大家觉得具身智能上面写了一个“身”字，但我觉得可能不一定需要人形，它只要有相应的技能就可以，像特斯拉，或者自动驾驶的汽车，就是比较成熟且具象的具身智能的实现。

并行计算与边际计算更好模拟世界

量子位：唐睿博士，虽然你们不是具身智能起家的，但是现在讨论具身智能绕不开你们，特别是李飞飞开始创业做空间智能之后，你们是被提及最多的一家中国的公司，你怎么看待这件事情？

唐睿：我其实最开始是做图形学的，我现在相当于是半只脚踏进具身智能，或者希望支撑具身智能。

我们最开始发现这个产业要素的变化的时候，可能会更早一些。从图形学角度出发，在深度学习或者说现在大家认知的人工智能出现之前，我觉得算力的迭代体系是指令级的优化，速率的优化体系，就是CPU的优化逻辑。

那会儿也有并行计算，但是并行计算应用的产业很单一，就是好莱坞的CG电影，再加上大家玩的单机或者是高画质的游戏，是最主要支持GPU并行计算的产业，这也是黄教主比较Struggling的时间段。

有了AI或者深度学习加成以后，算力的迭代体系就开始从指令级的迭代方向转变为并行计算的迭代方向，这也导致并行计算的成本会降到很低很低，相对于以前的980或者说1080的时代，现在的并行计算的算力成本已经很低了。

我最开始是做图形的，但我博士期间接触过模式识别和以前的Rule-based的机器学习。我们觉得并行计算无非就是模拟两件事情，一直到现在也是，一个是模拟人脑，通过深度学习已有的知识，先验的知识去预测未来，或者预测不同的模态。

另外一种是光的仿真，比如说我们酷家乐在做的设计软件，是模拟光在物理世界中的一个传播，把还没有建好的房子画出来，然后给业主去看。

具身智能里面还有很多物理仿真，大家会用MuJoCo去做，比如物理碰撞、交互仿真。所以边际计算就是在这两个领域里面去用的。

最早的时候我们做图形绘制，2015年、2016年的时候有一次去英国帝国理工大学，和我的师兄一起讨论。

原本机器人在现实世界里面获取到的结构化数据是有限的，而你们公司有数百万的设计师，每天都在产出数万甚至几十万的设计场景，而且非常逼真，为什么我们不把它拿过去给机器人做训练，除了人可以在这个场景里面看，机器人也可以在这个场景里面看。

△2018年，群核科技与帝国理工等科共同推出interiorNet数据集。这是当时全球最大的室内场景认知深度学习数据集。

打一个比方，大家有没有想过，很多年前出现了AlphaGO，后面又出来了OpenAI Gym。AlphaGO能做的一件事情是什么，下围棋，OpenAI Gym后面能打星际争霸、打Dota。

下围棋、打星际、打Dota，这对于人来说是多么难的一件事情，有多少人下不好围棋，有多少人打不好星际争霸，但是机器能打好。

然而如果让机器去做洗碗叠被子，端茶倒水这些事情，会发现非常难。前段时间，美国的机器人公司发布了叠被子做家务的机器人，大家都为之欢呼，中间gap了大概有七八年。

核心的一个问题在于，下围棋、打星际、打Dota，都是在数字空间里面，我们人类能够给它提供训练或者去做决策，去做演练，去产生数据的系统。

我们在做的一件事情，是我们想做下一个OpenAI Gym或者AlphaGO，甚至3D界的ImageNet这样一个3D物理世界的构造器，能够让我们的具身智能，我们的机器人，能够在一个AI可交互世界里得到足够多的仿真训练，让整个行业的智能化，或者手眼脑的协调性的能力得到快速的迭代和升级。

量子位：有点像《黑客帝国》电影里面道场的概念，在虚拟的世界里面，很快地学会很高深的功夫。你们公司不是完全做具身智能的，你们怎么看具身？回顾去年，您觉得这个产业里最值得关注的进展是哪些事件？

唐睿：从一级市场角度来说，是很多投资人或者说很多钱进来了，但是从学术或者技术的视角来看，大家可以发现，很多原来做图形学，或者是做3D视觉的技术同行已经开始迈入具身智能这个行业里面。

包括李飞飞，以及她的前同事Leo Guibas，Leo Guibas是做Geometric和3D的非常鼻祖的斯坦福教授，还有ImageNet论文的作者苏昊，他自己也创办了Hillbot，其实很多人都进入到具身智能这个行业。

为什么我们这些图形学的人会来进入到这个行业，我刚才说的并行计算，无非是两件事情，是模拟世界或者模拟人脑，我们图形学的人可能会觉得在模拟世界这个事情上，我们有比较先天的优势。

量子位：最近这两天Sora新版本出现后引发了热烈讨论，Sora生成视频的模式，是不是解决数据或者是物理世界模拟器的核心打开方式？它是不是一个世界模型？我们能不能通过这个方式，抵达AGI Robots最终的道路。你们之前有做类似方向上的工作，你们是怎么看这个事情的。

唐睿：Sora昨天刚刚发布了新版本，Demo令人印象非常深刻。

我觉得Sora算是一种物理世界的模拟器。Sora现在的商业策略，应该是做内容、视频的创作。

昨天的新版本，我看到有灰尘、风吹草动，和水波纹的效果，人类看着已经非常真实了，或者说已经能欺骗一个图形学的人的眼睛了。如果往内容创作的角度去说，应该说是最接近于这个领域的物理世界模拟器。

但是从具身智能的角度来说，具身智能最终的落地会有本体和环境的交互，所以它对于物理的准确性要求远超过艺术创作，或视频内容创作的精度。

因此可能在内容创作角度它算是，但如果进入到具身智能或者说真正的仿真的领域，它还比较欠缺，精度需要继续提升，或者可以加入反馈学习再调整的模块。

具身智能4个核心器官的发展现状

量子位：如果具身智能把可以在家庭里服务的AI robots作为一个终点，像马斯克讲的擎天柱机器人做的事情，那我们现在处于什么阶段？

类比手机，智能手机已经发展到高度成熟的阶段，大致经历了功能机、小灵通、大哥大，那么今年具身智能处于什么样阶段？

唐睿：其实我在具身智能这个本体以及智能化研究里面，也只能算半个外行或者半个内行。

我期望的具身智能它未来终极形态可能是一个自动驾驶的延伸——不仅仅是一个助手，还是一个了解我的管家。

甚至具备主观能动性，或者换种说法，不用PUA它，它看到一些情况就能主动给你干活。

如果要精确定位我们现在处于什么阶段，我也不是特别专业。

我看到的情况是，如果把它类比人，手、眼、脚、脑子这样的四个核心的器官来看的话，我觉得脑子某种程度上已经超越人类了，它的决策系统可能在创造性上还和人类差那么一些，但至少从知识面，从他的理解能力，以及简单或者说低层次、低维度的推理能力上，应该是超越人类的。

眼睛不用说了，各种传感器，红外的也可以安装，可以实现千里眼。

脚的话，机器狗的行走能力，只要电池够用，我觉得是远超人类的，而且它不光有脚，还可以飞，比如像大疆无人机。

手的话，关节灵活性这块，我目前看到至少Phi的视频让我挺震撼的。

这4个器官，手眼脚的协调，用具身智能的术语讲，就是从感知到决策，再到整个行动一体化的体系。

我觉得可能会有一些新的范式出来，未来的具身机器人训练会像自动驾驶一样，朝着端到端的方式去开发，其中也会产生新的数据生产方式，系统性的支撑具身智能在技术上或者产业上快速的迭代。

— 完 —

点这里👇关注我，记得标星哦～

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~

量子位

追踪人工智能新趋势，关注科技行业新突破

最新文章

Ilya宣判后GPT-5被曝屡训屡败，一次训数月，数据要人工从头构建

素数分布规律又有新发现！赵宇飞学生与牛津教授合作成果

o3来了！编程跻身人类全球前200，破解陶哲轩说难的数学测试，北大校友任泓宇现身直播间

图森未来转型6个月：推出AI大模型，布局游戏生态，思考和底气是什么？

这届AI创业：不敲一行代码，营收突破百万级

AI已经在直播间狂刷KPI了

AI风暴席卷达摩院青橙奖，六成获奖者用AI搞科研，平均年龄34岁

1万人研究证实：玩游戏提升智力，与遗传/经济水平都无关

AI能传递气味了！能定制个性化气味，谷歌前研究员新技术

突发！GPT论文一作Alec Radford离职，前两代GPT作者全部离开OpenAI

不会代码的独立开发者，除了学Cursor，还该会些什么？｜十问爆款「小猫补光灯」

谷歌版o1突发即屠榜！思考速度比所有模型快5倍，能解摩斯代码，数学物理秒秒钟解决

苹果Mac用户狂喜！ChatGPT深度集成应用，最后再藏AGI彩蛋

豆包升级了“眼睛”，看APP截图就能写代码了！超低价让多模态AI普惠

100+大模型综测结果出炉！智源发布FlagEval“百模”评测结果，覆盖文本语音图片视频多种模态

12个大模型攒局玩“大富翁”：Claude3.5爱合作，GPT-4o最“自私”｜谷歌DeepMind研究

Claude团队揭发AI伪装对齐：训练时假装遵守目标，只为保护自己价值观不被修改

腾讯版Sora开源后，被提速8倍！官方点赞并预告：下月上新图生视频

突破自动驾驶视频生成极限：港中文&港科大&华为联手推出MagicDriveDiT

刚刚，AI颠覆物理模拟：一句话精准仿真，学术圈半壁江山联手耗时24个月研究成果

云计算一哥的生成式AI之道：Choice Matters

大模型是新的数据库！蚂蚁开源负责人王旭：应用开发新范式，新一代LAMP正在形成 | MEET 2025

英伟达新品“掌心AI超算”，¥1800跑8B多模态模型，算力暴增70%价格腰斩

GPT-4o数学能力跑分直掉50%，上海AI Lab开始给大模型重新出题了

更懂中文还兼顾SD生态，360开源文生图模型结构，寡姐秒变中国新娘 | AAAI

我们要做3D界的ImageNet，推动具身智能训练新范式｜群核科技唐睿@MEET2025

见证历史！AI想的科研idea，真被人类写成论文发表了

从骁龙8至尊版，我看到了AI手机的未来 | 智在终端

新奥程路：AI×能源已到“奇点变革”前夜，仿真大模型是关键｜MEET 2025

开源Llama版o1来了，3B小模型反超80B，逆向工程复现OpenAI新Scaling Law

宇树机器人强化学习代码全面开源，还有训练到仿真和实操手把手教学

为多模态LLM引入ControlNet理念，开源插件解决灾难性遗忘 | AAAI

刚刚，智谱又融了30亿！超200亿估值引领大模型创业赛道

谷歌版Sora升级4K高清！一句话控制镜头运动，跑分叫板可灵海螺

ChatGPT搜索与Her打通了！搜索免费开放，居然还剧透明日直播主题

Kimi版o1实装上线，这里是我们的一手测试↑

把1个脑洞发展成1场顶会workshop，阿里妈妈只用了1年｜直击NeurIPS'24

企业级Agent已进入生产力阶段｜BetterYeah AI张毅@MEET

Gemini 2.0成P图神器，各种P图只需一句话的事儿，可把网友馋哭了

21天不用手机，抑郁减少，入睡更快丨正经研究

基于昇腾算力突破AI求解，最高加速100倍！| 华为GTS&深圳市大数据研究院

全球首个全模态理解开源端模型：长语音自动总结，图文音啥都会！300%推理速度领先，来自无问芯穹

月薪1万4的ChatGPT要来了！OpenAI自曝其达博士级别，网友：我宁可聘请一个博士

直击CCAI大会：院士专家舌战激辩，20个AI案例C位出道，海淀无愧AI科技“梦工厂”

OpenAI附议Ilya预训练终结！“但Scaling Law还没死”

Scaling Law不总是适用！尤其在文本分类任务中，vivo AI Lab提出数据质量提升解决方法

Ilya宣判：预训练即将终结！NeurIPS现场沸腾

ChatGPT终于也推出Projects功能，却故意露出一个“AGI”的项目

4000万+用户！测测CEO任永亮：一个行业既不能离AI太近也不能离AI太远 | MEET 2025

专治大模型“套壳”！上海AI实验室等给LLM做“指纹识别”，剪枝合并也无所遁形

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉

我们要做3D界的ImageNet，推动具身智能训练新范式｜群核科技唐睿@MEET2025

编辑部 发自 凹非寺量子位 | 公众号 QbitAI

核心观点梳理

从图形学到具身智能

并行计算与边际计算更好模拟世界

△2018年，群核科技与帝国理工等科共同推出interiorNet数据集。这是当时全球最大的室内场景认知深度学习数据集。

具身智能4个核心器官的发展现状

编辑部发自凹非寺
量子位 | 公众号 QbitAI