蚂蚁科技奖专场｜北大-银河通用具身智能联合实验室主任王鹤：合成数据对推动具身智能至关重要

文摘 2024-10-31 16:46 北京

近日，北京大学助理教授，北大-银河通用具身智能联合实验室主任王鹤来到北京蚂蚁T空间，分享与探讨具身智能的现状与未来。

这是蚂蚁科技奖专场的第一场沙龙。作为蚂蚁Intech科技奖首批获奖学者之一，王鹤是一位同时活跃在象牙塔与产业界的90后科研新星：他本科毕业于清华大学电子系，博士毕业于斯坦福大学，他的工作已获得 ICCV 2023 最佳论文候选，ICRA 2023 最佳操纵论文候选，2022年世界人工智能大会青年优秀论文奖，Eurographics 2019最佳论文提名奖等。

眼下，他备受关注的身份是具身大模型机器人公司“银河通用”的掌舵者。这家成立于2023年5月的创业公司，迄今为止已完成7亿元人民币的天使轮融资。

身处炙手可热的具身智能赛道，王鹤显现出冷静和清晰的判断和定力——

他不主张学习特斯拉，因为烧钱用真实数据训练人行机器人，不可持续。更大海量的数据空间是合成数据，合成数据眼下对于训练、赋能机器人，推动具身智能研发至关重要。

他认为研发具身智能，要从第一天起就考虑商业化，在场景中解决问题、积累数据，持续迭代。

他的实用商业化思维体现在每个细节，比如银河通用目前研发人形机器人四肢的重点，不是时髦的下肢，而是双臂，因为机器人的双臂在许多场景里比下肢更有用、更需要被用到，在场景落地上更有价值。

他认为实现具身智能的关键是实现三个智能：空间智能，交互智能、硬件智能。而具身智能，是实现AGI的必经之路，最终是要让机器人应用到制造业、服务业等不同领域，解决真正的行业痛点。

这位在AI浪潮之巅冲浪的青年创业者，还回到象牙塔参与和推动基础科学研究。作为北京大学助理教授，他创立并领导了北大具身感知与交互实验室，研究目标是通过发展具身技能及具身多模态大模型推进通用具身智能。

对于获得首届蚂蚁Intech科技奖，王鹤的感言，也是他作为产学研躬身入局者的感受与思考：

产学融合能起到“1+1>2”的效果。学术界擅长做一些“星辰大海”的研究，通过技术创新为产业界解决技术瓶颈。而产业界的价值在于引导学术创新成果逐步落地，并将当下最需突破的技术创新方向反馈给学术界，提供研究方向建议。

以下是王鹤在蚂蚁科技奖专场沙龙上的分享

，有删节

非常荣幸今天能来到蚂蚁，跟大家探讨关于通用机器人具身大模型相关的产业应用。

首先我想从介绍通用机器人开始。从一定程度上来说，通用机器人比人形更基本，因为眼下有各种各样的机器人，但他们是专用机器人。他们只能反复做一件事情，缺少随机应变、通用的智能。因此，今天的人形实际上是为了达到通用的目的，赋予了机器人，人一样的形体，目标是人能干的事情，机器人都能干。

我们为什么需要通用机器人呢？

首先，我们要用通用机器人实现任务通用，柔性生产。以制造业为例，今天的人形机器人一大应用场景就是汽车制造，汽车制造涉及四大制造工艺：冲压、焊装、涂装、总装。冲压，焊装，涂装这三个环节，都是大机械臂对着机器人一通操作，所以这三个场景实际上基本上实现了自动化，几乎不需要智能。

但把这些部件都做好以后，我们要进入总装线，要把这些零部件拼到车上，这里面就是涉及到非常多的step，比如说螺丝就有上千个，要把它插到槽里又涉及上百个，像这样的工序如果用机械臂把轨迹写死，弄一条制造线，让车走一步换一个机械臂，可能要几千米长的轨道，时间、开销都算不过来，所以说现在总装线上面都是人。如果想用通用机器人做这件事情，本质就是两点：要能够一个机器人做很多件事情；此外，它不能只做一件事情，它还需要随机应变。

特斯拉向我们展示了用学习的方法，替代编程，进行一种可扩展的技能学习。比如，特斯拉的机器人把一个个的电池分拣到红色的盒子里，这样一个简单的事情用的方式是通过人头戴VR眼镜，通过VR眼镜看到机器人的眼睛里机器人看到的东西，每个人身上会穿全部的设备，人一动手指，机器人就会跟着动，这就是遥操作。以这样的方式来收集人操控机器人去做分拣数据，用于训练机器人做任务，看到每个位置它都点采集，电池导向不同方向出现错误的时候都要采集修正的视频。

他们用学习的方法做虽然实现了无代码，但是其成本或者困难转嫁到了数据收集环节，如果大家看过最近特斯拉的无人驾驶汽车发布会，发现特斯拉的机器人只会拿一模一样的水杯递给观众，所以说它的泛化性很差。原因就是因为它的数据收集太昂贵，要想覆盖各种各样的物体，需要太多的数据采集成本。

下面给大家看看银河通用研发的机器人。这是我们今年在世界机器人大会现场的展出，桌面上有各种各样随机物体，透明，高光，塑料袋再套着乱七八糟的东西。面对这样具有挑战的物体，我们的机器人能够分拣各种各样的物体，包括观众递给我们的物体，由此成为了今年世界机器人大会唯一接受观众递给的物体进行分拣的机器人。之所以能做到这么高的泛化性，原因就是我们使用了以十亿为单位的合成数据去训练机器人的抓取技能。

除了抓取，我们还有非常真实的分拣需求。像这样的产线，本质上就是在车厂的仓里面做SPS分拣。这个小车是自动的AGV小车，开到仓区后，实际上是人根据订单需求把各种料放到车上，让车开到产线上做料的运输，在产线上有工人再去做总装。这涉及到抓取各种黑色的柔性的kibble，各种小零部件，这件事儿如果用机械臂做就会发现它实际上很难应对随机的堆叠，因为它们的摆放都是随机的，物体也多种多样，空间也比较狭小。我们现在用泛化抓取的能力，就可以对这些黑色Kibble、各种汽车零件板材等做泛化的抓取。

所以SPS分拣线已经可以通过泛化的抓取进行应用。

所以说，通用机器人的任务通用性在生产当中的柔性，不管对工业还是商业都很重要，更重要它可以来回移动，而非在一个场景，一个地方工作。

这是我们在今年梅赛德斯北京工厂里面进行的一段实录，上面是传统的人工工线，下面是人形机器人在做的事情。我们会把它拆开来看，这里面到底要做哪几件事情。像这样的一个工位这么长，机器人对它进行了实时重建后，会观测到玻璃在运输过程中的各种错误，通过实时的位置估计，对它的位置错误进行实时更正，这里是一个典型的位置摆放异常，机器人针对这种情况会选取合适的位置，对它进行更正。

其实它很多情况下没问题，但一旦出现情况，必须要有人纠正，而且人要在右边一切都正常的时候，按按纽确认这一切都无误进入下一步，这里面也是用人形机器人视觉进行观测判断，然后进行确认下一步。

再来看看汽车工厂工作的视频，在完全没有二维码的情况下，对盒子进行搬运，并且模仿它流水线上停在一个随机的位置，再基于视觉反馈回收构成一个闭环，在车厂里干了这两件事情，主打了移动操作，机器人的移动操作各种能力，跟一些公司不一样的。

所以银河通用也跟头部车企签订了相关订单。这就是一个典型的移动分拆各种盒子，27个盒放在一起的例子。机器人需要把密集的盒子先从右边拉开，再用左边的手勾住它，整个拆做的过程，跟人工的速度完全配合上，达到自动化，无人化的目的。

除了车厂制造业，人形通用机器人的能力是互通的，在各种应用当中发现移动、搬运、抓取、放置、操作的能力可以赋能千行百业，比如工商业，物流，零售，科研，餐饮等。

比如，用户可以在手机、iPad上下单，夜间超市、药店没有人，机器人通过视觉导航到指定货架，取下货架上用户下单的物体。你看机器人是可以升的，升的话摸到两米四高，这样的话能摸到地面。机器人把物体取下来，然后直接交给快递员。

画面中，我们的机器人拿的是最高层的红色酸梅汤，它左手是一个假爪，右手是吸盘，左手擅长抓各种东西，右手擅长吸一盒一盒的东西，盒装东西拿的时候确保拿一盒，所以吸其实比抓更靠谱。

不仅是下货，环境中没有人的时候，把卖光的货补上去，也是通过视觉来判断哪块货品缺失，机器人不停地补货。目前，全天补货的功能是欧美和日中东地区的刚需，因为他们没有那么发达的快递业，但是一旦商店的东西卖了没有人补它就只能关店。所以这对人形机器人的出海可以说是非常刚的需求。

关于补货有人会质疑，机器人部署在商店里面是不是提前编程了所有物体的位置，等于花了一个工程师的人力成本去解决零售的工作，这个钱是赚不回来的。

所以，通用机器人的最后一个特点就是零代码部署，它不需要任何部署和调试，直接卖。有些人说这怎么可能？大家想象一下，今天的扫地机器人卖给你以后没有任何代码，你就放在家里让它扫地，那么零售的机器人可不可能也零代码部署呢？可以。道理是一样的。

这是我们在今年现场放的高清图，实际这个图不是真实的，是屏幕里播放的。人形机器人给顾客服务的时候，实际上非常清晰的EGC，三维高斯泼溅的神经地图在背后，机器人进到场地以后会对所有的物体进行自动拍摄。这个过程就会自主扫描所有货品信息，图建好以后，每一个字都看得非常清楚，自己的算法可以对这样一个非常清晰的3DGS三维重建进行分割和货品自动匹配。

这个店现在是人维护的，只要把东西摆在正确的地方，机器人一来就把店里所有货品的位置和应该摆在哪儿，摆多少盒全部了解了，后续就可以按照货品的摆放方式进行取货，上货。这个过程它不是完全依照图的，它会先走到货架，抬手，用手上的相机去看位置，到底存不存在要的货品，在的话摆得有多深，再用泛化的方式把它取下来。这个过程是把离线的建图跟在线的观察和泛化的抓取结合，这样的场景我们希望能像扫地机器人一样大面积铺开，进入到千万家。

未来，我们希望机器人能够跟人实现自然语言的沟通，这是从B走到C的重要应用。看到现在我们的机器人耦合了大模型以后，机器人对这样一个新任务新场景进行操作，也能够识别你需要的一些物品。

这样的大模型，我认为它是未来能够走向家庭，听得懂人说的话，在工厂，商店里，机器人就像员工一样跟人一起工作，跟顾客交流，这是一个未来的方向。

在家庭里，除了干抓取，机器人还可以干家务活。我们的机器人可以在合成环境里进行训练，将各种各样的衣服抖平，摊平，用衣架挂起来。这样大规模的合成环境中的双臂协同，挂衣服就能让我们的机器人在没有见过的场景，将没有见过的，各种颜色，各种皱褶，各种长短袖的衣服从摊平到挂起来，这个技能第一次实现了对没见过的衣服高成功率地泛化。

后面可以看到这只是四件不同的衣服，还叠了上百件，这些都是我们通过机器人的具身智能和机器人技能学习，从仿真环境直接迁移到真实环境当中的效果。相信这样一系列的努力可以把人形机器人从现在的硬件或者像人的本体，真正慢慢的发展到人。

其中的一些技术我也给大家分享一下。一是我们从本体和数据去打造通用机器人的基石，在上面通过小脑和大脑打造机器人的操作能力和它的通用感知和规划的能力。我们今天更多是上半身的操作，因为很少有活儿是腿干的，在这样的认知下，没有跟随现在人形机器人里最火热的，研究腿的能力，而是关注于研究双手，手眼脑的协同。

我们做的机器人的本体是轮式底盘，双腿合并成一条腿，它可以直接蹲下抓地面的东西，也可以站起来摸高两米四，这部分对稳定性，需求很高。目前双腿的成本也很高，这一部分转化成成熟的机器人的本体，通过稳定的控制来保证机器人不倒。最核心的一系列技能背后的核心学术突破就是在数据层面。

今天看特斯拉上面是它的人形机器人数据采集工厂，下面是斯坦福的一系列抓取进行的遥控操作数据采集。人力采集到底需要多少才够通用机器人使用？举一个例子，特斯拉自动驾驶端到端的路线完全靠司机采集的驾驶视频，特斯拉需要多少驾驶视频呢？实际上虽然他们进行了大量清洗，但是它的原始数据应该是有千万乃至上亿小时用户驾驶，但人类是不愿意驾驶机器人的，因为驾驶机器人没有省任何功夫，所以今天所有机器人数据采集都是一个非自愿的，全都需要付费。

最大的数据集采了多少呢？谷歌的数据集采了97万条。97万条数据，每一个数据在一分钟，跟自动驾驶千万小时乃至上亿小时的用户价值之间还差了若干个数量集，而且人形机器人干的可不只是驾驶一件事情，而是换各种地方干各种事情。

所以我一直认为，我们需要大量合成数据来赋能机器人。我们在仿真环境里做了大规模灵巧手强化学习，获得了ICCV2023最佳论文候选。一系列工作使得我们可以从数字世界里学习机器人的技能，并且最终完全带到真实世界。我们用合成数据，本质是相信合成数据的3D模态是最适合机器人学习的，因为3D只有几何，没有颜色，光照，纹理，当我们抓、拿一个物体时，最关心的是它的几何形状而不是它上面是不是写着ABCD这些字。

所以我们的第一步就是通过算法把RGB升维到3D，这是我们今年通过千万级别的合成数据训练出来的lefty算法，把结构光双目的IR图3D Data出来，可以看到对传统结构光相机一系列不能够精准测量的比如说高反光物体，透明物体，我们的算法都可以得出亚厘米级精度的，高精的几何形状。也可以跟一系列国际顶尖工作进行对比，只有我们的模型能够给出亚厘米级的深度预测，把RGB转成几何。他们的误差其实都超出了10厘米，这样几何的水平完全不够机器人进行操作，抓取物体它的形状差了10厘米肯定是抓不到的。

在这样的Lefty背后就可以再次在几何上造大规模的抓取标签，这是我们今年的工作，十亿级别灵巧手抓取数据集。也是完全通过自研算法合成的。十亿级别的数据集覆盖了各种物体，各种抓取位置，能够让模型学会给（模型）一个几何（模型）来预测相应的抓取。这样的抓取能力可以看到，在仿人多指手上，给我任何透明不透明、没见过的物体可以进行泛化抓取。而且从玻璃、塑料这些材质再到各种柔性物体，都可以进行泛化抓取。

银河通用接待了包括波士顿动力、谷歌、英伟达在内的参访，他们也都亲自体验了我们的抓取技能，确认了它确实非常泛化，而且远超他们的想象。这一系列技能背后也揭示了具身通用机器人对数据的依赖，我们的模型用到百分之百的数据，就是十亿抓取数据，如果以谷歌或者世界上最大的数据采集量，十万或者一百万水平，距离我们的proliferation，还有10个点，20个点的差距。这也向大家揭示了什么是抓取的scaling law，如果你只靠人力采集的话，离我们真正看到模型的Proliferation，还有四个数量级的差距。所以合成数据对于推动具身智能研发非常重要。

人形上面的抓取也可以把它的能力迁移到其他本体当中，这是我们最新的工作。泛化的四足全身运动抓取，用强化学习控制所有机器人的足式，用自己抓取的能力去控制手臂的转移方向和抓取的物体，这样的能力已经在非常具有挑战的场景中实现了泛化抓取。这样的从人形迁移到四足的能力，也能让我们做其他有价值的事情，比如在公共场景捡垃圾。

从抓取到开柜子开抽屉，到开全身四足控制到灵巧手的强化学习操作，再到叠衣服，我们完全不依赖任何真实世界的数据对机器人全方位的技能进行了开发。所以这些汇集的小脑能力跟大模型，大脑进行调度，就可以实现跟人自由交流，自由交互的具身大模型系统。

现在大家看到的是谷歌端到端大模型系统，我们针对导航任务也基于Lava开发了世界上第一个端到端，也就是说，我们的机器人能在完全没见过的场景里，执行一个自然指令。这样的模型直接把视觉和语言到机器人的动作，实现全部的端到端。在非常嘈杂的环境里，机器人也能按照指定行走。这样的能力是因为我们也用到了百万条合成大数据去训练端到端大模型。

我们最新的工作把深度模态也加入到端到端大模型里，构成了RGBD+语言的四模态端到端导航大模型，我们主打对空间的感知，现有的图文大模型不理解前后左右上下大小的关系，而我们的机器人实现了对空间几何位置关系的精确理解，这部分数据完全是合成的环境里给予我们的三维模态数据。现在我们机器人可以执行这样复杂的指令，这也是呼应李飞飞老师讲的空间智能，今天的大模型不仅理解这个画面里有什么，还要理解这个画面里的东西在什么方位，前后远近关系，我的机器人该怎么样走到另一个地点，如何跟场景的东西进行交互等。

所以最后总结，我认为具身智能的关键是三个智能，一个是空间智能，就是在今天的VLM之上再赋予深度，几何模态，让它真正能够理解空间；第二个是交互智能，要让机器人能够通过大量的动作合成数据，学会各种操作技能；第三是硬件智能，我们需要一个本体去支撑全身具身智能的学习，不管在仿真环境里，还是在真实环境里，从传感到控制到最终的操作，打通硬件智能。

希望具身大模型机器人能够一路走下去，服务千行百业，千家万户。谢谢大家。

请大家继续关注

蚂蚁科技奖专场沙龙

一起期待入选蚂蚁Intech科技奖

首批名单的其他青年学者的

精彩分享

http://mp.weixin.qq.com/s?__biz=Mzg4MTg1OTg4OA==&mid=2247486170&idx=2&sn=58113e9e4abb8f7b95acd9cbca188a1e

蚂蚁技术研究院