2024年上半年,银河通用宣布完成共计7亿元的天使轮融资,成为具身智能赛道最大天使轮,也将整个行业热度带向最高点。
2024中国机器人创投巅峰论坛现场,北大-银河通用具身智能联合实验室主任王鹤分享了对具身大模型走向通用过程的思考及其创新实践路径。
以下是我们对内容的精选,与你分享:
“过去这两年,人形机器人大火。今年早些时候,NVIDIA在GTC大会上推出了Project GROOT项目,这里的”G”和”R”代表的是Generalist Robot,即通用机器人。通用机器人是人形机器人大火背后的真正原因和应用。人形的本质是为了通用,只有像人的身体才能干各种各样人能干的活。”
为什么需要通用机器人?
为什么需要通用机器人?通用机器人到底会给产业变革带来哪些机会?
首先是任务通用,柔性生产。
以汽车制造的冲压、焊装、涂装和总装四大工艺为例,前三个工艺中,依靠没有泛化智能的大机械臂就实现了高精度操作,主要靠工程师把机械臂的轨迹提前设置好。
这种工序更多的是一种自动化,而即便是这样的自动化生产线,也面临着一条产线同时生产多种车型的情况。这就要求生产线必须能够柔性,也就要求机器人能够柔性地适配任务的变化。
为了真正实现柔性工作和技能的持续更新,我们看到特斯拉Optimus通过学习而不是编程的方式,实现了基于端到端神经网络的流水线电池分拣操作。这个过程是几十人戴着VR眼镜、在旁边遥操人形机器人的方式采集训练数据。它目前虽然没有超越传统自动化能做的事情,但是展现了一种用神经网络替代编程、实现更加柔性的任务学习。
银河通用比抓电池的Optimus走得更远。在今年的世界机器人大会现场,我们的机器人可以接住观众给的任务物体,无论是透明的还是柔性的,双手左右开弓,实现泛化抓取。这样任意物体95%以上的抓取成功率,全世界只有银河通用达到了。
这种泛化能力可以赋能场景,在总装产线上,机器人可以做SPS分拣,或者把各种奇形怪状的零部件交给AGV小车送达产线。
第二是移动操作,自由穿梭。
泛化能力的应用并不仅仅是站在原地,还要结合移动操作。人不可替代的一个点就是可以在环境中走来走去,干好几个工位的活。
在总装产线里,我们的机器人同时可以解决物流搬运,根据货箱的位置自动调整底盘的导航点,把箱子搬运到流水线上,再把空箱子搬回到货架上,实现循环搬运。这是非常真实的场景,我们已经入场头部车厂并拿到订单,进行场景产线的整合。
第三是能力互通,跨行业应用。
我们今天讲通用和泛化,本质是和从数据中学习,一开始就是从糙活做起。它要求很强的泛化性,在不同房间和不同物体上直接能用,不需要再写code。但是我们不需要那么高的精度,它不是靠重复的精度来实现,而是靠视觉闭环反馈实现。各行各业都有很多抓取搬运的糙活,从工业到物流,从零售到餐饮,从办公到家庭、养老等等。未来会出现的场景就是,你晚上在家里下单零食或药品,药店不需要有人值班,而是机器人取下对应的商品交给快递小哥,从而解决了夜间值班这件劳累的事情。
这种泛化抓取的能力不是把物体的位置写死了,而是它过去的时候抬手、通过手腕上的相机去识别物体的形状、位置。
第四是零代码部署。
除了夜间取货,机器人白天能干什么?我们的机器人展示了,它可以把一筐中的药品补到货架上,并且进行数量控制。所以没有订单的时候,机器人也是有事情干的。下一步,搭载了多模态大模型的机器人,还能帮助客人导购,提供问题解答和建议。
如何做到这一点?通用机器人的另一个重要特点就是零代码部署。如果每一家店都需要我们去部署和输入商品信息、不断调整代码,一般体量的商店是用不起来的。只有大模型的机器人,具备充分的感知能力和规划能力,实现零代码部署。
为什么我们的机器人知道在哪儿上货和取货?它一进场就会扫描所有的货架,把商品进行完整拍摄,这个过程中会形成三维高斯泼溅的神经网络地图,并随着训练逐渐从模糊到清晰,直到每个字都看得清楚。
下一步,用我们自研的多视角三维分割和货品解析模型,自动跟超市的SaaS系统中的物品进行匹配,完成货架的全自动解析,明白哪个位置放哪种商品。目前,这个解析的成功率达到99%以上。
面向未来的家庭应用,我们在学术上可以实现在完全没见过的场景中对机器人下达全新的物体操作指令,比如“把纸抽出来盖在改锥上”,机器人可以通过大模型的多模感知能力理解你的指令,再通过泛化抓取能力进行操作。这种不需要训练、直接在新任务和新场景中进行的操作,我们称之为零样本操作能力。我们率先实现了对物体三自由度位置和三自由度朝向的摆放进行语言指定,系统直接根据语言指令进行操作。这种大模型言出法随的操作就是未来能够从B端一直击穿到C端的技术。所以,银河通用在商业上的落地就是从零售上货取货,到工厂搬运上料,未来延伸到家庭服务。
这种泛化的干活能力是怎么来的?我们对本体、数据 、小脑、大脑四个关键要素进行了一系列前沿研究。
本体方面,我们关注未来短期内可以立即产业化的形态,把腿的问题留到以后解决,轮式机器人现在能在很多场景里做得非常好。我们的轮式底盘把两条腿并成一条腿,可以稳稳地站立,也可以蹲下来抓取地面的东西,摸高达到了2米4,实现了跟人一样的操作半径,同时成本非常低廉。
轮式体系比同样高度的双足机器人大约便宜一半成本,未来一两年就有望实现10万以下的制造成本,并逐渐起量。
数据端,为什么Optimus只能抓电池?因为它每个数据都是靠旁边的人遥操出来的。这一套遥操装置或VR采集设备即便再便宜,也是需要人来遥控每一条数据的生成。怎样才能构成大数据?特斯拉用了上亿小时才生成端到端自动驾驶数据,如果用这样的方式雇人来采集,什么时候才能实现泛化和通用?
上亿条大模型动作数据怎么来?我们全靠合成。这也是银河通用在世界范围内举起的一个旗帜。在突破具身智能产业化从0到1的阶段,我们不靠真实世界的数据,而是靠合成仿真数据。我们由此获得了CVPR2023年的满分论文、ICCV国际计算机视觉大会最佳论文候选等国际荣誉。
小脑端,我们自研了10亿级别的灵巧手抓取大数据,覆盖了随机的物体堆、排列、形态、材质、纹理,不用任何人力,完成合成仿真。这是银河通用独有的技术,我们凭借这一技术在国际上第一个实现了灵巧手对任意物体的泛化抓取。这也是为什么我们敢于在展会现场接受观众递过来的任何物体。
合成数据展示了具身智能的Scaling Law,也就是10亿条数据才能做得足够好。如果只有10万分之一,也就是谷歌花两年采集到的10万条数据量,那就只能达到58%的成功率。
我们不止做了抓取,还有开柜子、开抽屉、开门,还有对布料这种柔性物体的操作,都是靠合成数据进行泛化的。把各式衣服用撑子挂起来,这种操作也是在国际层面第一个实现的。
大脑端,我们最后要把所有这些技能汇总进来。谷歌的大模型是端到端的视觉语言动作大模型,其数据是基于真实世界,所以非常单一。我们的合成大数据是让机器人在数百个房间里采集上百万条数据,在没有见过的房间里纯靠视觉,基于LLaMA的视频文动作大模型,率先实现跨场景的泛化。
通过这一系列前沿的工作,我们把大脑、小脑、本体和数据组合在一起,终将迎来通用机器人的光明未来。
目前,我们的机器人已经可以做到透明高光物体抓取、倒水等操作;玻璃杯打碎以后,可以拾取透明的玻璃碎片,抓不起来的碎片,甚至可以进一步调用更多步骤,去柜子里找到海绵进行擦拭,清扫进垃圾桶。
它既能够在high level上控制长程任务规划,又能在low level上做物体抓取操作。这些泛化能力值得我们期待它在工商业场景的落地,并走到家庭。
2025年1月13-17日,参加CAN+美国游学营四期即将启程。本次行程持续迭代升维,着眼“AI+”视角,关注具身智能等产品和应用,闻听科技阵地最前沿的创新号角。我们还将完成旧金山和西雅图两座创新枢纽的双城际会,取经英伟达、谷歌、亚马逊、微软、波音等科技巨头,广览知名独角兽和初创企业,在认知冲撞中完成研学共创。