撰文|杨松
编辑|鄢子为
未来的药店、超市里,为人类提供服务的,可能是机器人。
8月下旬,世界机器人大会上,人形机器人Galbot G1用双手完成药品上架、零食取送等任务。
接到搬运任务后,Galbot G1先精准地识别出药品,再确定需要摆放的位置,伸出右臂,取出药盒,平稳地将其放至货架上。
Galbot G1由北京银河通用推出。公司创始人为北大博导王鹤,成立仅16个月,接连斩获高额融资。
6月,其完成天使轮融资,拿到7亿元资金。美团战投、北汽产投、商汤国香基金竞相参投。1个月后,银河通用又获得香港投资管理公司的青睐。
业内人士预计,其最新估值为30亿元。
归国创业
具身智能是典型的多学科交叉行业,需要产业和研究双轮驱动。
银河通用两位创始人能力互补,一位是学者,另一位则拥有丰富制造业经验。
CEO王鹤,今年32岁,担任北京大学计算机学院前沿计算研究中心(CFCS)助理教授、博士生导师。
从清华大学毕业后,他师从Leonidas J.Guibas教授,在斯坦福大学,拿到电子工程系博士学位。
“美国制造业不允许快速做出具身智能的完整demo,零部件供应不全,很多东西都得进口,硬件工程师匮乏。”王鹤在接受采访时表示,在中国做硬件,能做到成本最低、可靠性最高。
2021年9月,王鹤赴北京大学任教,创立具身感知与交互实验室。在具身智能领域,他发表近40篇论文,多次获得best paper等奖项。
“具身智能,是把大模型通用的感知和决策能力,和机器人身体进行执行的能力,结合到一起。”王鹤称,这将带来无限的机会。
联合创始人姚腾洲,拥有丰富的智能硬件产品量产经验,曾就职于ABB机器人研发中心。
两人联手,2023年5月,银河通用成立。
目前,公司在北京、深圳和苏州三地,设有研发中心,与北大、北京智源人工智能研究院,分别成立具身智能联合实验室和研究中心。其研发团队,超80人。
另辟蹊径
抓一杯水,对人类而言,是一个无需思索的习惯性动作。对机器人来说,杯子的形态、材质不同,抓取动作不同。
机器人若要具备人类的抓取能力,需接受大量数据训练。
读博期间,王鹤就开始研究具身智能,在数据处理方面,获得重要进展。
特斯拉Optimus机器人,使用的是传统数据处理方式。王鹤解释道,为了把电池放到红盒子里,特斯拉调用40人团队,通过VR眼镜遥控特斯拉人形机器人Optimus,采集数据。
王鹤认为,机器人是要替代月薪五六千的人来工作,特斯拉数据采集环节如此高成本,产品落地后能否盈利,或将存疑。
“只有合成数据,才能实现规模化量产。”王鹤提及,他一直在研究,怎么把合成数据的训练效果,无缝迁移至真实世界。
银河通用打破陈规,以合成仿真技术,为每个物体合成200条视频,再从一个物体到一类物体……通过成规模注入数据,训练机器人的抓取能力。
“我们是国内较早做到泛化物体抓取的企业。用物理仿真器生产的数据,训练机器人学习抓取、放置等技能,是我们独到的能力。”王鹤说。
据他透露,2023年,银河通用合成了100万条数据,今年一口气合成了10亿条。依托亿级数据体量,灵巧手可以抓取各种各样的东西。
Galbot G1甚至可以抓取由透明塑料皮包裹的半透明物体。公司透露,其抓取透明、高光物体的成功率,超95%。
“靠合成数据,具身智能完成0到1的突破。”王鹤说。
落地应用
数据之外,具身智能机器人,还需配备本体、大脑、小脑。
本体,即机器人“身体”。王鹤称,未来会有各类形态的通用机器人,只有跟人类干活需求相匹配的,才能得到最大的市场份额。
Galbot G1,下半身只有一条腿,装配在一个移动底盘上。
王鹤解释,相较两条腿,这样设计,成本低廉,在货架场景下,其干活水平,接近人类。
他认为,双手在场景落地上更有价值,大量应用场景,不需要双足运动能力,比如巡检、巡逻,机器狗和车一样能做。
G1身高173cm,臂展为190cm,需要抓取地面物体时,它切换到“跪姿”模式;需要拿高度超两米的物品时,又能转换为“站立”模式。其操作范围涵盖0至2.4米。
团队还将负责行动的小脑和负责感知理解的大脑,放在一起。
王鹤举例,搭配GPT-4大模型,机器人可以做到“言出法随”。
比如把一个瓶子立起来放在红色碗里,传统机器人得先采集数据,才能完成动作。银河通用团队依靠大脑、小脑大模型的联动,实现在开放语义状态下,抓取和放置物体。
四季度,售价约30万元一台的Galbot G1,将现身零售场景中。
公司计划与投资方美团合作,打造24小时无人药店。未来两三年,药店里会有更多银河通用机器人。
“把这个场景做好,公司就实现了从0到1的突破,凭借通用、泛化的技能,将辐射到更多行业。”
王鹤坚信,从1到100,是“沿途下蛋”,要一步步做事情。
常点|在看|,及时获取资讯