国内“最强”具身智能创始团队,发布首个端到端RL具身模型

文摘   2025-01-27 07:30   山东  

温馨提示点击下方图片,查看公众号“Robot猎场备忘录”运营团队(12月整理)原创报告(共195页)

说明:欢迎约稿、刊例合作、行业人士交流行业交流记得先加入“机器人头条”知识星球,后添加(微信号:lietou100w)微信,备注“称呼+所在公司+职位”或者“已加入星球”(非备注,不添加);若有侵权、改稿请联系编辑运营(微信:li_sir_2020),若转载请注明出处;
——

正文:

全球入局具身智能领域公司已超过200多家,主要分三种:专注于具身智能大模型、人形机器人本体和两者同时涉及;全球具身智能大模型(机器人通用“大脑”)公司背景大体可分为:科技大厂和科研院校背景创业团队;目前绝大多数人形机器人本体初创企业走分层端到端大模型路线,依托科技大厂多模态通用大模型赋能,自研操作小模型;并且大多数人形本体初创公司在AI层面投入极少。

春节快乐,这是假期期间小编分享团队2024年度发布的精选原创文章第四篇,以灵初智能、Physical Intelligence和Skild AI三家知名具身智能大模型初创企业,来引出全球具身智能大模型初创企业现状和未来前景。

在具身智能领域投资或创业时,软件是长期竞争力的关键,而硬件能力虽然不可或缺,但提升空间相对有限;软件则处于非常早期阶段,提升空间巨大。目前行业内有一种观点是:硬件决定了人形机器人应用落地能力的上限,但是目前人形机器人产业拥有的硬件基础支撑起来的应用上限,具身智能算法还暂时没有达到。也就是说,人形机器人由于现有AI算法的能力不足,目前的人形机器人还无法真正实现这样的产品力。

目前资本开始从投人形机器人本体,转向投具身智能大模型(机器人“大脑”)毕竟具身智能不仅限于人形机器人,还包括其他实体机器人,如自动驾驶车辆和机械臂,强有利的大脑前景更广阔一些。

目前人形机器人本体初创企业多是依托科技大厂多模态大模型赋能;随着国内“腾讯系”知名人形机器人初创企业【星尘智能】于2024年11月15日发布旗下轮式仿生人形机器人Astribot S1最新视频,搭载新晋机器人通用大模型领域独角兽初创公司【Physical Intelligence】旗下机器人通用的机器人基础模型π0( pi-zero),也让外界看到了初创公司完全可以摘大厂环视的具身智能大模型赛道,抢一杯羹;更何况国内科技大厂并没有推出针对机器人推出专门大模型。

国内具身智能大模型领域初创公司典型代表,小编认为是刚成立的[灵初智能],当然也会有人认为是穹彻智能、千寻智能等。

灵初智能(公司全称:北京灵初智能科技有限公司)于2024年9月北京成立,致力于打造业界领先的通用灵巧操作智能体,被业界称为拥有国内“最强、科学家密度最高”具身智能创始团队的初创公司;技术路线类似刚完成4亿美元融资,投后估值约24亿美元的具身大模型初创公司【Physical Intelligence】(PI)。

创始团队(兼具产业派和学术派,新晋国内具身智能领域最强创始团队):

  • (创始人兼CEO)王启斌博士:在手机(黑莓手机)、智能音箱(Sonos)、机器人领域(云迹科技、京东等)有近20年的成功操盘经验,多次实现产品从定义、开发、到上市、再到全球化0-1-N的产业闭环,是一名深谙机器人商业化落地的“老兵”;

  • (联合创始人)柴晓杰博士:在机器人及无人驾驶领域从业15年,擅长算法、仿真、工程、全栈技术,有L4产品落地的数据闭环经验,是量产经验丰富的研发专家;

  • (联合创始人)陈源培:00后,作为Stanford访问学者,师从Karen Liu和李飞飞教授,曾在全球首次实现利用强化学习在真实世界同时控制双臂、双手多技能操作;

  • (核心初创)温颖副教授:上海交大人工智能学院副教授,研究领域为强化学习,多智能体系统,于2020年在伦敦大学学院获得博士学位;其课题组曾推出多模态决策大模型DB1,实现了对DeepMind通才决策Gato模型的超越,并引入了与现实世界相关的百余个场景任务,为实际业务需求提供了有力工具。

公司与还北京大学成立北大-灵初智能具身灵巧操作联合实验室,由人工智能研究院杨耀东博士担任首席科学家开展横向课题合作;杨耀东博士是强化学习领域的知名青年学者,博士毕业于现代深度强化学习的发源地UCL(伦敦大学学院);同时,北大-灵初联合实验室将和梁一韬博士就具身智能体长程任务规划开展课题合作,梁一韬长期致力于如何将知识注入机器学习中以提高其性能和泛化性,在开放环境MineCraft中取得系列重要成果。

融资轮次:

2024年11月13日,公司宣布完成天使轮融资,本轮融资由高瓴创投(GL Ventures)和蓝驰创投(Lanchi Ventures)领投;2024年10月14日,公司完成首次工商变更,新增股东为国内知名人形机器人创企【上海智元新创技术有限公司】。

小编延伸一下,对于人形机器人创企自己商业化没有跑通,就去投资其他创企,向外发展版图,合适吗

核心技术

公司早期一直深耕基于强化学习的全栈能力,从灵巧操作入手在具身智能领域积累技术壁垒,后将扩展至通用泛化操作。其开发的分层端到端模型领先业界,包含Psi-P0规划模型(陈源培与斯坦福大学共同提出)和Psi-C0 控制模型(梁一韬博士);以及首个基于强化学习的端到端具身模型PsiR0。

Psi - P0模型
Psi - C0模型
Psi R0模型

公司联合创始人陈源培向媒体解释,灵初智能采用强化学习的复合路线是实现接近或者是超越人类灵巧操作的必经之路,也是攻克“不可达三角”(高泛化性、高鲁棒性和高泛化性)的关键。

公司于2024年12月30日发布首个基于强化学习(RL)的端到端具身模型Psi R0,突破Pick&Place,实现长程任务泛化。

基于RL的Psi R0模型,使用海量仿真数据高效训练出双手操作的智能体,并通过双向训练框架串联多技能,在业界率先完成开放环境中的长程任务,具备较强的泛化能力与较高的鲁棒性。


该模型支持双灵巧手协同进行复杂操作,将多个技能串联混训,生成具有推理能力的智能体,从而完成并闭环长程灵巧操作任务;并且,Psi R0还可以实现跨物品、跨场景级别的泛化。


未来规划

公司创始人王启斌近日向媒体透露,公司目前已初步完成硬件研发,将于明年3月公布含数据采集设备、软件算法等的整机解决方案,且只聚焦在双手双臂轮式机器人的操作能力上,不会涉及双足机器人;而技能级上,团队正在打磨样本,预计明年年中会正式上线。

在产品规划上,灵初智能将从2B服务业切入,以头部客户的高价值场景需求为指引,开发整合技能集,实现商业落地,并快速迭代硬件,算法,数据系统,不断提升具身智能整体解决方案的泛化性,灵巧性和成功率,给出具身领域“不可达三角”的最优解。

在落地场景方面,灵初智能预计率先在物流领域实现应用落地,后续逐步向生产制造领域探索拓展,重点针对传统非标自动化设备及集成设备因技能单一而难以应对的复杂生产环节,充分发挥机器人执行多技能组合长程任务的优势。

目前,灵初智能已初步构建起一套较为完整的产品体系:在硬件维度,打造双手双臂轮式机器人,部分核心硬件系自主研发成果;在软件层面,持续迭代机器人的技能级(指通过机器人能做多少种任务、完成任务的复杂程度和完成任务的质量来划分的一种技能等级),使其具备对上千种物体进行泛化长程操作的能力,能广泛适配于柔性生产等多元场景。

小编视角:公司创始团队兼具产业派和学术派大佬,技术功底雄厚,又懂产业懂场景,还兼备强大的工程化能力以及深厚的商业化实战经验,绝对是具身智能领域一批黑马。

目前全球范围内,具身智能大模型赛道有两家独角兽:[Physical Intelligence]和[Skild AI]。

Physical Intelligence简称 PI或 π )拥有全球具身智能领域“最强创始团队,由UC Berkley、斯坦福大学教授团队和谷歌科学家等科研和技术大牛于2024年3月成立,公司致力于创建可以为各种机器人和机器增添高级智能的软件,最终目标是创建一种作为通用机器人系统的AI模型(机器人通用大脑)。

公司成立仅一个月时,官网还没有建(至今也没有建)就获得来自于Thrive Capital 、Open AI、红杉资本、Greenoaks Capital Parners、Lux Captital和Khosla Ventures7000 万美元融资,投后估值4亿美金;11月5日,完成4亿美元新一轮融资,本轮投资由亚马逊创始人杰夫·贝索斯、风险投资公司Thrive Capital和Lux Capital领投,OpenAI、Redpoint Ventures和Bond等参投(注10月末,外媒报道,公司计划筹集3亿美元),投后估值约为24亿美元; 同时取代另外一家机器人通用大模型初创公司【Skild AI】,成为具身智能赛道初创企业最快晋升独角兽企业(Skild AI于2023年5月成立,今年7月份完成3亿美元A轮融资,投后估值高达15亿美元)亚马逊创始人杰夫·贝索斯、红杉资本是两家公司共同投资方。

2024年10月31发布成立以来首个机器人通用的机器人基础模型π0( pi-zero);11月15日,国内“腾讯系”知名人形机器人初创企业【星尘智能】发布搭载π0( pi-zero)的旗下轮式仿生人形机器人Astribot S1最新视频,“最强”家庭机器人来了!!

机器人基础模型π0被称为一种用于通用机器人控制的视觉-语言-动作流模型,参数量只有3B,就能控制机器人,帮你搞定各种家务。

具体视频展示:

视频中,展示了叠衣服、整理桌子、鸡蛋装盒、折叠纸盒、物品分拣等等复杂动作。

据官方介绍:π0与 LLM 不同,它跨越图像、文本和动作,并通过训练机器人的具身经验来获得物理智能,通过学习新颖的架构直接输出低级运动命令;它可以控制各种不同的机器人,并且可以提示执行所需的任务,也可以进行微调以使其专门用于具有挑战性的应用场景。

注:Paper(原版以及翻译)已上传至“机器人头条”知识星球,可加入星球查看

π0模型的核心技术点包括以下几个方面(仅列举部分):

  • π0模型基于预训练的视觉-语言模型(VLM),这使得它能够继承互联网规模的语义知识。

  • 模型使用流匹配技术(Flow Matching)来生成连续的动作分布,这使得它能够处理高频率的动作执行,适合于灵巧任务;为了使模型能够控制机器人产生连续动作,π0引入了一个专门的动作专家(Action Expert)模块,该模块能够通过流匹配产生精细的、连续的动作指令。

  • π0模型通过结合多种机器人类型的数据进行训练,这使得模型能够适应不同的机器人配置和动作表示,包括单臂、双臂系统以及移动操纵器。

  • 模型采用预训练后微调的训练方法,先在大型多样化语料库上预训练,然后在更狭窄、更精细策划的数据上微调,以诱导期望的行为模式,且展示了良好的零样本控制能力(Zero-Shot Control)。

  • 多模态输入和混合专家模型(Mixture of Experts):π0模型采用了混合专家架构,其中不同的“专家”处理不同的输入类型,如图像、文本和机器人状态。

Pi可称为最强创始团队,没有素人,全是行业大牛

左到右,依次是Sergey Levine、Chelsea Finn、Karol Hausman

  • 合创始人Chelsea Finn:现任斯坦福计算机科学与电气工程系助理教授(ALOHA家务机器人项目导师,重点研究通过学习和交互来发展机器人等智能体的广泛智能行为,谷歌学术论文引用数超4.7万;曾在谷歌大脑担任过5年研究科学家,开发机器人深度预测模型MIT 大学毕业后在伯克利取得博士学位,博士导师则是Sergey Levine

  • 联合创始人兼CEO Karol Hausman:之前担任谷歌大脑的高级研究科学家,同时也是斯坦福大学的兼职教授;因 “对可扩展的机器人学习算法做出重大贡献”,获得过 2023 IEEE 奖项;

  • 联合创始人Sergey Levine:现任UC Berkley电气工程与计算机科学系助理教授,专注于研究让自主智能体通过学习获得复杂行为的通用算法,集中在机器学习决策和控制领域;并开发端到端深度神经网络训练策略,曾带领团队与谷歌联合开发 RT-X 机器人项目,被认为是强化学习领域的领军人物之一。

  • 联合创始人:Brian Ichter:先后在谷歌大脑和谷歌DeepMind的机器人团队任职;

  • 联合创始人Lachy Groom :支付公司 Stripe 前高管、著名科技投资人

  • Suraj Nair:丰田研究院ML研究团队的研究科学家,从事ML、机器人和CV交叉领域的工作;

  • Quan Vuong:加州大学圣地亚哥分校四年级博士生;

Skild AI于2023年5月匹兹堡成立,由两位前美国卡内基梅隆大学教授 Abhinav Gupta 和 Deepak Pathak共同创立,他们同为印度裔、也都曾是 Meta 的 AI 研究人员创立,公司长期目标是开发扎根于物理世界的通用人工智能 (AGI),以打造一个通用、灵活、智能的人形机器人产品(“通用机器人大脑”)。

2024年7月9日,Skild AI宣布完成了总额3亿美元A 轮融资,投后估值高达15亿美元,成为当时估值最高的机器人具身智能大模型初创公司。

Skild AI设想了一个类似 OpenAI 的未来:通过微调,就可以在 Skild 基础模型上构建不同的用例和产品;这正是他们颠覆机器人行业的方式。最终,他们希望抵达机器人 AGI,人们可以在物理世界中,与之互动。

核心产品:Skild Brain

团队构成:公司由两位前美国卡内基梅隆大学教授 Abhinav Gupta 和 Deepak Pathak共同创立,他们同为印度裔、也都曾是 Meta 的 AI 研究人员;团队主要来自 Meta、特斯拉、英伟达、亚马逊、谷歌以及卡内基梅隆大学、斯坦福大学、加州大学伯克利分校和UIUC等名校。

构建「通用的」机器人基础模型| 图片来源:Skild AI

技术层面:Skild AI正在构建一个共享的通用大脑,为机器人提供一种基础模型,作为“通用大脑”;Skild Brain是一个可扩展的机器人基础模型,具备使用性和灵活性的能力,能够使机器人在不同硬件、场景、任务之间自适应。

Skill AI团队透露,相比竞争对手,其数据点至少多出1000倍,这一优势使得Skill AI的模型能够更好地理解和适应复杂多变的物理世界。

产品进展:目前没有商业化进展。

Physical Intelligence和Skild AI巨额融资和高估值,无不体现国外资本对具身智能大模型(机器人通用大脑)重视。

人工智能和大模型技术突破性发展催生了本身具身智能浪潮,但同时大模型发展瓶颈也同样是人形机器人商业化核心壁垒;相较于上游机器人核心零部件基本成熟,软件算法进步是推动人形机器人功能提升和应用场景拓展的关键。

国外,科技大厂对具身智能大模型极其重视,并早已入局(如谷歌、英伟达等;谷歌已完成多次技术迭代,从Saycan到RT-H);国内科技大厂目前也逐步切入具身智能赛道,推出相应具身智能大模型,但目前对具身智能大模型研发投入极其有限,华为目前国内佼佼者。

目前国外人形机器人本体公司融资已经处于停滞状态,具身大模型初创公司如今备受资本青睐(如:Skild AI、Physical Intelligence、Covariant等,皆已获巨额融资);国内具身大模型初创公司重视程度虽不如人形本体公司,但目前也开始进入资本视野,已涌现出一轮融资潮(如:[星海图]完成超2亿元Pre-A轮融资以及[千寻智能]、[穹彻智能]、[自变量机器人]亿级融资,[星云智慧]、[灵初智能]千万级融资)。

小编往期文章:投具身智能大模型还是人形机器人本体,资本面临两难抉择中有提到目前全球具身智能赛道资本趋势:人形机器人本体商业化遇阻,渐渐向具身智能大模型公司(机器人通用大脑)倾斜。

编有整理2024年1-12月,具身智能中人形本体和具身大模型公司融资梳理表,获得融资的具身智能大模型初创企业且融资额、融资频率皆逐渐增多。

注:完整版表格,前往“机器人头条”知识星球查看

人形机器人本体商业化遇阻,投人形机器人本体公司,还是投具身大模型(机器人“大脑”)公司,资本目前面临两难抉择,如同先有鸡还是先有蛋,各方各执一词。

... ... ...

本文仅展示极少部分,接下来,小编将详细盘点具身智能大模型领域,全球初创公司(PI、Skild AI、Covariant、有鹿机器人、X Square等)介绍及产品进展、全球科技巨头/大厂(谷歌、英伟达、微软、OpenAI、华为、阿里、腾讯、字节等)现阶段产品进展、人形机机器人本体厂家与科技巨头/大厂合作现状以及科技巨头入局人形机器人本体赛道现状。

... ... ...

本文内容仅展示一部分,更多详细解读,扫码加入星球,查看完整版文章[原创]具身智能大模型赛道:科技巨头技术进展、初创公司盘点,第一款“机器人通用大脑”花落谁家(文字6W+)并深度了解“具身智能&人形机器人”赛道

注:深度了解“具身智能&人形机器人”赛道,加入知识星球“机器人头条”交流学习
注:2025新年特惠:可先添加星主微信(微信号:lietou100w),备注“计划加入星球”,VX红包支付,可享受星球会员费用9折优惠;

——

近期精选文章:

1、马斯克、黄仁勋共同“打响”2025年全球人形机器人商业化第一枪!!

2、科技大厂入局人形机器人本体,初创企业该何去何从?

3、自动驾驶行业精英,正疯狂涌入具身智能赛道!

4、自动驾驶都没搞定,有资格做人形机器人?

5、2025年,全球头部人形机器人公司将实现初步商业化!

6马斯克:相较于软件算法,本体结构设计才是人形机器人规模量产关键!!

7、投具身智能大模型还是人形机器人本体,资本面临两难抉择

8、大厂高管疯狂涌入、爆火CES,具身智能陪伴机器人赛道迎来“爆发期”!!

9、马斯克惊叹!消费级机器人有望在2025年掀起融资潮

10、ToB、ToC or ToG,全球人形机器人产品优选落地场景梳理!

11、人形机器人构型之争:五指灵巧手 or 夹爪,双足 or 轮式

12、浅谈,华为入局人形机器人赛道

13、北京、上海,争当人形机器人商业化“第一城”!


Robot猎场备忘录
☆机器人领域行业资讯/求职/面试/随笔........ ☆机器人领域猎头行业从业者 ☆专注机器人领域人才招聘与咨询
 最新文章