智源研究院院长王仲远:具身智能发展目前陷入“鸡-蛋悖论”

创业   2025-01-07 17:54   北京  
智源人工智能研究院院长 王仲远
编辑马继伟
01
错  位

2024年11月,在一个公开活动上,千寻智能联合创始人高阳将“15年之后10%的人拥有自己的人形机器人”比作登月,产业界关注的是“怎么一步一步登上月亮”,学术界关注的是“50年之后,月亮应该长什么样”。

这句话,很形象地说明了产业界、学术界对于具身智能目标函数的不同。

学术界、产业界从前沿创新、产业落地等不同维度推动具身智能的发展。但它们的主线任务有所差异。产业界特别是产业中的企业要考虑盈利,要考虑将技术成果转化到产业中,创造社会价值。而学术界则相对纯粹和自由,科学家们可以全凭兴趣、自由探索具身智能未来发展方向。

在具身智能领域,像这样的错位还出现在炫酷的视频demo和实际落地的产品上。

这一年来,各种各样的视频 Demo 层出不穷,但实际落地的真机与视频中的机器人差距较大。加速进化 CEO 程昊指出,大多数视频 Demo 是对现有技术的整合与优化,拍摄时刻意突出技术亮点,通过精准演示某些特定功能,营造出炫酷的视觉效果。这种方式类似于“长板效应”,即聚焦优势技术点,展示最高水平的成果。而产品开发则类似造水桶,在产品打造的过程中,机器人产品必须在所有环节上达到基本要求,即便某些技术表现出色,也会因某些短板限制整体性能,在长程任务中出现断点,难以转化为成熟产品。无疑,视频 Demo提升了外界对于具身智能的关注度和期待,为行业吸引了更多目光与资源投入。但理想丰满,现实骨感。目前,具身智能产品的场景价值、社会价值依然不够显化,有人将之称作“花瓶”。

两个错位,各有不同。前一个“错位”指的是产业参与者的目标不同,彼此的发力点与产出结果不一致;后一个“错位”指的是真机演示与视频Demo差距较大,具身智能技术落地需要克服许多困难,以缩小真机表现与被人为拉高的期待之间的差距。

02
桥  梁

具身智能领域,需要一座对齐目标、拉平差距的“桥梁”。智源研究院便充当这样的角色,也正尝试着推动解决多元错位。

智源研究院是具身智能产业生态的组织者。

它依托多模态大模型技术优势资源,联合高校院所、产业链上下游企业,建设具身智能创新平台,重点开展数据、模型、场景验证等研究,打造具身智能创新生态。

智源研究院也是具身智能企业的孵化平台。

曾有媒体报道过智源研究院孵化银河通用的故事。银河通用成立于2023年6月。2024年一年内完成两轮融资,累计融资12亿元,创下具身智能领域融资的新纪录。这背后既有智源的技术前瞻能力,提前落子,提前布局;也体现了其“有所为有所不为”,聚集最优秀人才,让结果(不管是孵化还是技术突破)自然发生。

同时,它还是前沿技术的攻坚方。

设立智源具身多模态大模型研究中心,研发设计了面向机器人具身基础模型的快慢系统框架。为实现该框架,智源探索了具身端到端以及大小脑分层结构的不同技术路线,进行开放世界泛化物体操作,并基于大脑模型进行语义理解与常识推理,实现零样本物体导航。同时提出了四维世界模型Robo4D,为世界模型构建四维时空,探索解决机器人在开放世界中任务操作的物体泛化以及场景泛化等问题。

需要指出的是,“桥梁”与推动错位解决或是智源这家新型研发机构布局人工智能的顺手解决的。智源想做的远远比呈现的,要更为复杂。具身智能只是其推动通用人工智能的支线任务之一。面对通用人工智能(AGI),智源所图甚远,但路径相对清晰。详见下图。

智源研究院的特殊产业位置及其求索,让人期待在推动具身智能产业化过程中,智源看到了什么、听到了什么,正在做和思考什么?这也是近日采访中,黑智与智源研究院院长王仲远沟通的主线。这次采访从马斯克开始,也结束于马斯克。好似一个圆,圆心是具身智能产业化。期间聊到不同背景的人对于具身智能的非共识、没有收敛的技术路线、数据问题、场景落地问题、软硬协同问题以及“鸡生蛋蛋生鸡”的问题。

03
顺  势

人形机器人是马斯克带火的。

其号召力毋庸置疑,加速凝聚行业共识。据王仲远介绍,他在与国内多家人形机器人企业交流时发现,特斯拉的示范效应极大地降低了解释成本。过去这些企业需要花费大量时间向投资机构解释为什么要开发人形机器人。现在,他们只需要告诉投资人,“你看特斯拉有,所以我们也要有。”

马斯克做人形机器人有其合理性。王仲远从“人”和“事”两个角度分析特斯拉做这件事情。

从“人”的角度来说,马斯克是一个“认知水平很高”、“也有魄力和执行力”的人,适合推动人形机器人的落地。

从“事”的角度来看,具备无人驾驶功能的汽车本身就是一种特殊的具身智能,汽车制造也是较为适合具身智能机器人落地的场景。在王仲远看来,一个具身本体加上人工智能技术便是具身智能。从这个角度来看,汽车是本体,智能是基于海量数据驱动、基于视觉端到端的方式来实现的自动驾驶技术。除了上海特斯拉的超级工厂外,其他国家的工厂效率低下,马斯克有痛点也有需求,希望靠机器人来解决这个问题。

当然,推出人形机器人是特斯拉的顺势而为。

目前,已成的“势”有哪些?

(1)大模型技术的发展推动具身智能模型的出现。2023年之前,具身智能主要聚焦于单一任务在单一场景和单一本体上的应用,通常将感知、导航与操作进行独立处理。2024年,在大模型技术的支持下,研究者们已开始开发能够同时执行多项任务的具身智能基础模型,并尝试突破不同本体之间的应用边界。

(2)本体供应链的成熟推动了具身智能的快速落地。人形机器人虽处于发展的早期阶段但将人形机器人造出来已不再困难。今年8月,WAIC展出的“十八金刚”、WRC2024展出的“二十七金刚”,以及更多不断涌现的本体便说明了这一点。这背后是供应链的逐渐成熟、构型的逐渐成熟,以及包括驱动方式在内的多种路线逐渐收敛。

“有了一个躯壳,又有一个大脑装进去,这就产生了一个很自然的将两者结合的想法。”

(3)加速转变的认知推动了具身智能的发展。具身智能机器人涵盖多学科、多领域,许多无形的行业“冰墙”林立,每一个领域的人都有自己的固有思维、优缺点。但现在“冰墙”开始融化。不同行业的人开始尝试了解彼此。过去一段时间,王仲远一直在调研、学习硬件,智源也开始将具身模型部署到不同型号的机器人上。做硬件的企业家开始转变对于人工智能的态度。一位与王仲远相熟、以硬件起家的企业家,曾怀疑、排斥人工智能,但现在已开始积极拥抱AI。最初,他认为引入人工智能的成本过高,认为只需专注于提升硬件的生产,销量也会很好。但现在,他逐渐认识到AI的潜力,并开始愿意招聘人工智能领域的研究员、工程师及算法工程师。

04
分歧与百花齐放是同义词

在某些语境下,分歧与百花齐放是同义词。当下处于早期阶段的具身智能机器人便提供了这样的语境。

两者都是当下产业发展阶段的特点。

先谈分歧,分歧和路径依赖有关。

以智源和波士顿动力为例,智源依赖于大模型技术,并推动该技术从语言大模型向多模态大模型演进。多模态大模型看到、感知、理解、推理世界,并在此基础上做出决策。当多模态大模型应用于物理世界时,便发展为具身大模型。波士顿动力则遵循传统机器人技术发展路径,采用模仿学习、强化学习的方法,不断迭代演进。

(来源:波士顿动力官网)
前者是做大模型的出身,其解决问题的路径是采用海量的、开放的数据并在此基础上,探索具身多模态大模型与大数据构建,践行机器人领域的Scaling Law;后者通常注重控制论与强化学习的应用。以抓取为例,机器人抓取依赖于不断的练习与反馈优化。早期多采用人工控制方式,随后逐渐引入基于行为的强化学习,通过反复试验实现自我改进与能力提升。

百花齐放也是当前阶段具身智能行业的特点之一。

智源将具身智能做了拆解,分为大脑、小脑和本体,大脑负责顶层决策规划;小脑负责运动控制;本体负责动作执行。就具身大脑而言,若将人类大脑视为一种大模型,它能够以多模态的方式感知世界,将图像信息、三维信息、视频信息和声音信息等整合起来,从而实现对外界环境的全面理解。因此,将数据、大模型或多模态大模型引入具身大脑显得顺理成章。当前具身大脑设计思路上,有几种不同路径,其中一种便是简单地将已有多模态大模型转向具身大脑。

(李飞飞创业项目World Labs的成果——能用单张静态图片生成3D世界的AI产品。截图至World Labs官网)
此外,李飞飞教授提出的“空间智能”概念,试图引入空间维度来拓展具身大脑的能力;智源具身多模态大模型研究中心将世界模型从二维拓展至四维,采用先验引导的3D Gaussian Splatting算法,基于单一视角的视频片段生成四维世界空间。采用多轮世界空间映射模型将不同位置的世界空间映射到视频域,最终应用于下游任务,生成式数据提升了机器人操作的泛化性。总得来看,目前,多模态大模型的主要训练和应用仍集中在基于图片的处理,少部分扩展到视频内容的抽帧分析,但其能力远未达到人类对连续性世界的三维理解。人类的感知是动态、连续且具有立体感的,而当前模型尚未能有效模拟这一特性。多模态大模型在全面理解和处理复杂场景方面仍有许多挑战需要克服。如何突破这一局限,行业内尚未达成一致意见,未来的发展路径也有待进一步探索。

就具身小脑而言,传统方式是通过强化学习来打造具身小脑。但在数据获取上,呈现多样化的特点。有的人主张通过实际设备采集数据,有的人则倾向于在仿真环境中获取数据。关于仿真数据的sim2real转化问题也存在争议,有的人认为该过程存在显著的“gap”,难以实现;也有观点表示,sim2real并非难题。此外,关于是否采用端到端技术的争论也未统一。关于端到端也没有形成共识,尽管通过拼接不同模块可以形成看起来还不错的demo,但难以实现泛化性,鲁棒性也存在不足。在这里,本体不再赘述。本体构型五花八门,仅腿部构型就有7-8种。

05
鸡生蛋还是蛋生鸡?

鸡生蛋还是蛋生鸡,是分歧、百花齐放背后难以回避的问题。

在具身智能领域,这个问题换了个形式出现。

汽车即便没有自动驾驶,依然能够卖得出去。但机器人不像汽车,不具备人类能力,也无法完成具体场景中的任务,所以难以形成规模化销量没有规模化销量则无法大规模收集数据,没有大规模数据则无法迭代大小脑。这就陷入了一个死循环,是现在具身智能遇到的一个更大的问题。

从王仲远的角度来看,先有鸡还是先有蛋是当下具身智能“更大”的问题。这里面有一个隐含的对比,也即“死循环”与数据问题、场景问题、软硬结合问题进行对比。这些问题也不容忽视。某种程度上,这些问题的难,也进一步印证了“死循环”的僵局难破。

数据的重要性不言而喻,但如何获取/收集数据没有定论。前面提到数据的获取方式多种多样,多种多样意味着没有共识,意味着“这里面依然有很多坑要踩。”
“现在确实处在一个寻找真正刚需的阶段”。其言外之意,是目前具身智能企业并未找到。王仲远将具身智能落地的场景分为刚需场景、非刚需场景。前者指的是照顾残障人士、孤寡老人,未来随着老龄化进一步恶化、人口减少岗位流失严重,其刚需特点将进一步强化;还指的是特斯拉在海外的工厂,因为海外找不到高效率的中国工人。“没有解决刚需,没有解决真正的痛点问题,华而不实,它只能出货几百台、顶多几千台。”
后者指的是工厂场景特别是汽车制造工厂。进入工厂对于具身智能而言“有点理想化”,部分原因是受到特斯拉的影响,业界想当然地认为机器人就应该进入到汽车制造等工业场景中。然而实际落地仍面临挑战,包括能耗问题、鲁棒性问题、以及复杂环境下越障等。目前来看,人形机器人在工厂中完成分拣与搬运作业,但这些作业并非工厂生产中最核心、最关键的环节。“非刚需型的场景,可以验证落地,但出货量不会特别大,而且国内创业公司既卷又多,本就不大的市场份额,最后大家分到的就更小了。难以支撑企业长期发展。”
软硬结合除了字面意思的“软硬结合”,在实操中,还涉及到不同背景的人的协作与配合等。字面上的“软硬结合”很好理解,软硬件结合,组成一个复杂、完整的系统就会衍生出一个问题,1+1是否大于等于2。王仲远指出,即便每个模块比如抓取成功率高达98%,但一个由多个模块组成的复杂具身系统整体的成功率则可能低于80%。“简单的物理融合肯定是不够的。要产生化学反应,不管是人的化学反应,亦或是技术的化学反应。”“产生跨领域、跨学科的化学反应,难度还挺大的。融合永远都是有难度的。这种跨领域融合的成功案例不多。但随着人才的涌入、资本的涌入、企业开始不断地相互交融,我乐见融合的发生。”
具身智能是软硬件的综合体,难免涉及到专注本体的人和专注大模型的人,两拨人对待同一事物有着不同的话语体系,且对于彼此有着过分的期待——做本体的人往往认为大模型能够处理所有任务,而专注于大模型的人也希望本体能够无所不能。在深入合作过程中,双方发现各自的短板以及力所不逮,于是不同背景的人如何结合成为当下不得不解决的问题。王仲远提到“π型人才”。他认为未来AI将成为基础设施,进入到千行百业中,跨领域的π型人才也将应需而生,“我还是蛮乐见未来世界的发展。”

06
采访后记:100%乐观、80%谨慎

即使王仲远看到眼下的困难比如上文提到的数据采集问题、电池能耗问题、鲁棒性问题、场景落地难等问题,但依然没有影响他对于具身智能这条技术路线的乐观和信心。

在采访中,可以感受到王仲远是一个天生乐观派。他敬畏技术、敬畏技术可能带来的突破,所以他对于具身智能长期发展是100%乐观的。

他说,当下道路一定是曲折的。因为无论是视频演示的、还是真机现场演示的机器人,展示的功能仍不足以支撑它们在场景中发挥与其价格匹配的使用价值,仍不能够解决实际问题。“从长期来看,具身智能机器人的价值是100%的,但当下它的场景价值只有10%或20%。”
相比长期100%的乐观,王仲远对于现阶段具身智能的发展持80%的谨慎态度,因为短期内具身智能的问题仍然无解,难以大规模应用,难以承载人们不切实际的愿望——两三年内人形机器人普及到社会生活的每个角落。

我问他,看得到行业中那么多问题为什么能够保持乐观、不泄气?

这意味着我们的工作有价值、有意义。我们有存在的价值了。”


*创业黑马(300688)是国内创业服务领域首家上市公司。16年来,已陪伴数万名创业者成长,服务企业数以十万计,留下了大量独家创业认知、方法论和丰富的实战案例。


扫描下方二维码

进入黑马智库,对接海量创业资源

与数万名创业者一起成长

(审核通过后,将有专属客服联络)

↓↓↓

黑马智库
创业黑马(A股上市)旗下的创业加速服务平台。十多年来,黑马共深度加速赋能12000多家企业,其中33家企业成功上市,企业累计融资超4800亿元人民币。认知加速、资源加速、资本加速......创业加速,就在黑马。
 最新文章