清华北大联手,投出人形机器人最快独角兽

汽车   2024-10-17 15:09   广东  

今年的云栖大会以「云启智跃,产业蝶变」为主题,聚集了 280 余家产业链生态企业、高校和科研机构,在这场科技盛宴中,银河通用公司以其首款具身大模型机器人——盖博特(Galbot G1)的亮相,成为了关注的热点。

Galbot G1以其卓越的智能人机交互和自主操作能力,在现场演示了一系列泛化任务,如轻松拿取物品等,展现了机器人技术的前沿发展。

在为期三天的展览中,Galbot G1共服务了九百多名观众,取送超过千件商品,取送的商品数几乎可以补满八个云栖大会现场摆放商品的货架。

在展位上不停忙碌的Galbot G1再一次展示了在商业领域无人值守场景中强大且稳定的工作能力,其连续三天的演示和互动,收获了来自各行各业的称赞和认可。

现在,让我们深入了解这家敢于在大会上进行现场真机泛化操作演示,并与观众进行开放互动的创新企业——银河通用(Galbot)

1、成立背景

今年6月,银河通用(Galbot)宣布完成共计7亿元天使轮融资,这是今年国内迄今为止的最大规模的天使轮融资,此时距银河通用成立刚满一年。

资本市场对银河通用的青睐,很大程度上归功于其创始人王鹤博士

王鹤博士毕业于清华大学电子系,后在美国两院院士Leonidas J. Guibas教授的指导下,于斯坦福大学电子工程系获得博士学位。其研究领域涵盖具身智能、三维视觉和机器人学。

2021年9月,王鹤博士回国,在北京大学前沿计算研究中心(CFCS)担任助理教授及博士生导师,并创立了北大具身感知与交互实验室(EPIC Lab)。

他的研究覆盖了多模态、具身大模型、自动驾驶、三维视觉感知等前沿科技领域,特别关注具身机器人在三维复杂环境中的感知与交互挑战。

王鹤博士还担任北大-银河通用具身智能联合实验室主任,以及北京智源人工智能研究院具身智能研究中心主任。

作为具身智能领域的杰出学者和中国领军人物,王鹤博士在计算机视觉、机器人学和人工智能的顶级会议和期刊上发表了50余篇论文。他的研究成果获得了ICCV2023最佳论文候选、ICRA2023最佳操纵论文候选、2022年世界人工智能大会青年优秀论文(WAICYOP)奖,以及Eurographics 2019最佳论文提名奖。

王鹤博士对具身智能的研究历程始于博士期间,他致力于将视觉模型、自然语言模型和机器人操作模型相结合。早在2016年,他就成功地将这三个独立的小模型整合,开发出了一款智能桌面机器人,该机器人能够理解人类动作、预测人类需求并主动响应。

回国后,王鹤博士开始使用宇树机器狗加装机器臂进行实验,尝试进行一系列操作。但他发现,无论是计算、资源还是整个系统,都存在许多不足之处。

2023年,随着全球范围内PaLM-E等具身多模态大模型的出现,多模态感知与具身操作之间的结合成为了可能。王鹤博士决定抓住这一时机,投身创业。

2023年5月,王鹤博士与曾在ABB集团工作的姚腾洲共同创立了银河通用,专注于具身智能和人形机器人领域。

王鹤博士坚信,具身智能的技术方向已经明确:将本体与大模型融合,打造通用机器人。

他认为,越早进入市场,技术和数据的积累就越多,这将在后期形成竞争优势。

当机器人进入真实场景,收集到的数据将进一步完善智能。对于后来者来说,要超越一家已经有上万台机器人、不断回流真实数据、并在场景中积累了丰富经验的公司,将是非常困难的。

2、团队构成与专业背景

银河通用现有算法、软件、硬件研发团队80多人,成员均来自于国内外知名高校和头部企业。团队成员已发表100余篇国际前沿学术论文,具备世界领先的具身智能研发能力,拥有千万级销量的智能硬件产品的量产经验。

银河通用设有北京、深圳和苏州三地研发中心,与北大和北京智源人工智能研究院分别成立了具身智能联合实验室和研究中心。

其他核心成员

姚腾洲,银河通用联合创始人。硕士毕业于北京航空航天大学机器人研究所,师从机器人行业泰斗、中关村智友研究院院长王田苗教授,拥有扎实的专业背景。

姚腾洲曾就职于ABB集团上海机器人研发中心,从事多年的工业和服务机器人研发工作,拥有销量千万级智能硬件产品的量产经验。在设计、制造和销售硬件产品方面积累了丰富的行业经验。

3、银河通用主要业务

(1)人形机器人GALBOT G1

人形机器人GALBOT G1是银河通用推出的首款人形机器人,以其独特的「双臂+单腿+轮式底盘」的结构设计,实现了全方位的360°移动能力。其身高为173cm,臂展为190cm,这样的设计使得它能够应对不同任务需求。

GALBOT G1的躯干提升能力达65cm,操作范围可从0至240cm,极大地扩展了其工作区域,能够胜任不同工作场景。

在需要稳定抓取地面物体时,它可以自主切换到「跪姿」模式;而当面对高度超过两米的物品时,它又能迅速转换为「站立」模式,从而覆盖了更广泛的工作空间。

Galbot G1的双臂设计非常独特,左手配备吸盘,右手配备夹爪,这样的设计使其能够抓取各种物体,包括透明和高光物体,并且掌握了开柜子、开抽屉、晾衣服等泛化操作技能。

此外,Galbot G1还能够完成药品上架、零食取送等任务,显示出其在实际应用中的灵活性和实用性。

Galbot G1拥有可以感知通用环境和理解用户指令的多模态大脑大模型,成功率超过95%的跨形状材质的泛化抓取技术

Galbot G1不仅能按观众的命令拿取商品,还能按根据观众指令抓取观众现场随手放置的个人物品,如口红、车钥匙、房卡等机器人从来没有见过的物品,展现杰出的泛化抓取技术。

在商业零售领域, Galbot G1可在无人值守的零售商超中完成盘点、补货、取货、打包等全部流程工作,24小时随时执行商品运送、库存管理等任务,并正逐步将应用扩展至工业、物流等多个领域。

美团与银河通用已签署战略合作协议,双方将在线下零售、智慧货仓、智慧物流等多个领域围绕机器人赋能服务展开全面、深入的合作

(2)核心技术

a. 三层架构具身大模型

RT-2大模型中包含了谷歌上一代大模型PaLM-E,它的速度只能达到1~3Hz,机器人的反射弧长达0.3秒甚至1秒,这对于实际使用构成障碍。

OpenAI和Figure AI合作用的是小模型,它能够达到200Hz的动作输出频率,大模型如何做到以200Hz的频率输出动作成为通用机器人领域的重要问题。

银河通用机器人在具身大模型的构建上,提出了一个三层架构:底层是硬件层,中间层是三维视觉合成数据驱动的技能层,上层是大模型层。

技能层是通过仿真合成数据不用任何真实世界数据训练的泛化的技能,包括自主建图、自主导航、物体抓取、开门开抽屉开冰箱、移动操作、挂衣服叠衣服柔性物体操作的泛化技能。

大模型层可以调度中间技能API,来实现完整的从任务的感知、规划到执行的全流程。

大模型层负责低频调用,而技能层则负责高频快速执行,这种架构设计既保证了操作的精准性,又提高了系统的响应速度。

b. 合成数据 + Sim2Real

由于真实数据的采集成本过高且容易受到场景、物体的限制,数据规模严重受限,不容易实现具身技能较高程度的泛化。

为了解决这个问题,银河通用采用了一条独家的技术路径——使用天量的仿真合成数据进行训练,然后进行从虚拟到真实的迁移(Sim2Real)。为此,团队开发了大量的相关合成数据集,包括百万级的场景数据以及十亿级的操作数据。

例如,银河通用搭建了世界上第一个以零件为中心的数据集,该数据集覆盖了各种家用电器上可能存在的主要操作零部件,包括旋转盖、推盖、转钮、按钮、直线把手、圆形把手、门等。

然后银河通用把这些零部件放在仿真世界里面,并标注了它的位姿、所有轴的使用方法,从而帮助推理相应开门等操作的方法。这样的合成数据集就能教机器人如何去开生活中没见过的柜子,机器人只要有三维点云、找到把手的位置,正确抓取把手在沿着柜子的方向一拉就可以打开任何抽屉。

相比真实数据,合成数据的优点就在于,可以摆脱现实条件的限制,描绘任意场景和物体,赋予机器人更强的泛化能力,而且能利用计算机图形学技术(CG)进行大规模的数量级扩展。

c. 大型仿真平台Open6DOR

银河通用构建了大型仿真平台Open6DOR,里面包含2500个各种各样的任务。这些任务不用于训练,而是拿来检测具身多模态大模型能不能完成,这其中有200多个家用常用物体。

Open6DOR主要关注三类任务追踪:

  • 第一是Position-track,只关心位置移动,比如把苹果放到勺子的右边、把瓶子放到锤子和改锥的中间;

  • 第二是Rotation-track,把锤子冲向左、易拉罐的标签朝左、把碗上下颠倒;

  • 最后也是最重要的六自由度Track,实现Position+Rotation,比如把盒子放到锅和锅盖之间并让标签冲上。完成六自由度Track意味着实现桌面级操作里的关键性里程碑。


d. 抓取能力

银河通用研发出全球首个可以实现基于仿真合成数据训练抓取任意材质的技术。通过海量的合成数据,银河通用在全球第一次达到了跨场景、跨物体材质、跨形态、跨物体摆放实现泛化抓取,并且首次达到95%的抓取成功率。

对于纯透明、纯反光等物体的泛化抓取对于二维视觉、三维视觉都有极大的挑战性。银河通用的方法能实时将透明高光物体的深度进行重建,并据此进行物体抓取。

此外,当其耦合大模型后,可以实现开放语义的物体抓取,从抓取能力上今年银河通用已经实现了泛化的一指令抓取。

4、估值及融资情况

银河通用目前完成5轮融资。

种子轮融资:2023年6月,银河通用完成种子轮融资,金额未披露,投资方为经纬创投和蓝驰创投。

天使轮融资:2023年8月,银河通用完成天使轮融资,金额未披露,投资方包括蓝驰创投、经纬创投、源码资本、光源资本、商汤基金和讯飞产投等知名机构。

天使+轮融资:2023年10月,银河通用完成天使+轮融资,金额为亿元级,引入战略投资人和多家投资机构,由美团战略领投,北大燕缘创投、清华SEE Fund,IDG资本和智源跟投。

天使轮融资:2024年6月,银河通用宣布完成天使轮融资,金额共计为7亿人民币,投资方包括美团战投、北汽产投、商汤国香基金、讯飞基金等顶级战略及产业投资方;启明创投、蓝驰创投、经纬创投、源码资本、IDG资本等头部财务机构。

战略融资:2024年7月,银河通用完成战略融资,金额未披露,由香港投资管理有限公司直接投资。在新一轮融资后,银河通用的最新估值为 4.25 亿美元。

5、小结

银河通用从实际应用出发,选择了一条与众不同的技术路径。他们认为目前人形机器人的双手在场景落地上更有价值,双腿目前成本过高,直接放弃双腿采用单腿配合轮式底盘模式。

技术研发方面,银河通用致力于解决具身智能研究中的两个主要问题:数据来源有限和机器人反应时间较长。

为了克服这些挑战,银河通用采用了合成数据和Sim2Real方案来扩展数据集,并通过模型分层的方法来提高机器人的反应速度。具体来说,大模型负责接收命令并调度技能,而小模型则负责执行具体的操作,这样的设计有效减少了机器人的反射弧长度。

从效果来看,银河通用是少数敢于公开展示泛化抓取能力的具身智能公司。他们在多个公开场合完成了真机展示,包括在北京智源大会上的现场演示,以及在中国国际服务贸易交易会和2024中国人形机器人开发者大会上的表现。

虽然目前还难以预测哪家具身智能公司能在竞争中最终脱颖而出,但银河通用无疑已经展现了其在这一领域的独特优势和巨大潜力。

- END -


壹汽车
关注汽车行业,传播智能出行行业新观点
 最新文章