王田苗:唯有将底层创新与应用结合,方能找到具身智能高质量发展的进化路径

创业   2024-09-13 19:30   上海  

新一轮科技浪潮的推动下,具身智能(Embodied Intelligence, EI)这一智能系统与物理实体相结合的科技创新产物,正悄然改变着世界。它不仅超越了单纯的技术革命范畴,更预示着未来对人类生活方式、制造模式乃至社会结构都将带来一次深刻的重塑。

据不完全统计,仅2024年上半年,关于具身智能的研讨已多达500余次。来自不同领域的行业精英、产业高管、高校学者,都在试图找到具身智能技术进化的规律性与确定性。

尽管从2020年以来,斯坦福、伯克利、MIT、CMU、谷歌、微软、亚马逊、OpenAI、英伟达等众多学者与企业家,对该领域的进化路径孜孜以求。但至今尚未找到机器人或具身智能的通用大模型Scaling Law。

尽管训练参数还在“无限”增加,这一现状甚至不可避免地导致算力需要“无限”增加,能源也需要“无限”增加,相关大模型的单次训练成本已经少则1千万美元,多则接近上亿美元。但大力并没有出奇迹,诸如功能、安全、质量以及实时性等关键指标并没有明显提高。

一种对技术与供应链迭代的“无力感”,在业界蔓延。7月22日,马斯克在推特上宣布,特斯拉Optimus人形机器人二代因未能获得高性价比的成熟供应链支持,而推迟发布。据悉,这代机器人将自主设计全新双手、FSD芯片等核心零部件,以便提高30%的行走速度、减轻10kg的重量,并将成本控制在1万美元,售价控制在2万美元左右。但供应链因素直接导致了马斯克的梦想,被延迟实现。

在中国,人形机器人也是热闹非凡,一级市场可落地产品尚待成熟,二级市场却已率先上扬;人形样机尚未明确具体的应用场景,量产之路也大受供应链掣肘,人形机器人的价格战却已打响。此外,随着7月武汉萝卜无人出租车在指定区域以低速模式尝试商业化短途打车服务,人们开始对未来社会的就业问题产生担忧。

以下是CAN+赛博坦机器人学院名誉院长、北航机器人研究所名誉所长、中关村智友研究院院长王田苗对具身智能的一些思考:

来源:中关村智友研究院(ID:zgc-ir)

什么是具身智能?

它是未来社会的长期刚性需求吗?
它是推动新质生产力的重要引擎吗?

沿着热潮的方向出发,你会发现,当下几乎所有的困惑与纠结都聚焦在人形机器人身上。这个“笨手笨脚的家伙”距离能力爆发到底还要多久?人类还有没有超级场景留给它?未来,真如马斯克所言,全球将有200亿台套人形机器人的市场吗?也许,将视野打开,答案也跃然纸上了。

我想,拥有智慧大脑的人形机器人,固然是具身智能的一种形态。但是具身智能并不局限于“AI+人形机器人”这一范畴,它同样涵盖“AI+通用机器人结构”、“AI+高端制造装备”等多种形式。

自1950年图灵在其论文《计算机器与智能》中提出“非具身或具身智能”概念以来,具身智能这一概念逐渐被广义理解为:智能系统通过物理实体(机器人、无人机、无人车、制造装备甚至各类终端设备等)与环境互动时所展现的一种智能能力。简单理解,具身智能是生成式AIGC与机器人RT的融合,通过人机或环境交互,基于底层模型与数据驱动的离线或在线感知学习、认知判断、智能控制等技术,提升智能机器在本体层、环境层、任务层的人机交互、决策推理及操作行动等智能化水平,并增强其适应不同环境的泛化能力。

而具身智能突出的特点主要体现在两个方面:一方面,它具备人机交互、自然语言理解与认知能力,通过机器学习或大模型,让机器按照人的意图,将目标分解系列化的子目标或思维链,以完成相应的复杂任务;另一方面,具身智能可通过感知、认知、决策,与时变环境及对象进行实时校准互动,在非结构化的复杂环境中,它能够实时在线学习、识辨或修正补偿时变环境。由此看来,只要把感知、学习、判断和认知能力有效嵌入到任何形态的硬件中,都可以被视为广义上的具身智能。

将具身智能落地到服务、制造、商务等多元化的场景中,面对错综复杂的动态环境,我们进而发现具身智能以其自主感知、快速决策、行动与学习迭代的技术能力,展现出前所未有的灵活性和适应性潜力。这不仅有望为传统工业带来新一轮革命性影响,更是未来社会的长期刚性需求。

在这个“布局未来”的过程中,具身智能领域的企业百花齐放,他们各自在奋斗与攻克中展现独特风采。有的专注于人形机器人的研发,力求在人机交互、情感识别等方面取得突破;有的则深耕于高端制造装备领域,通过优化算法、提升精度和效率,推动制造业的智能化升级。

从无人快递车,到无人外卖车,再到如今的萝卜快跑;从智能家电,到智能家居,再到智慧城市;从智能装备,到智能制造,再到柔性供应链……实际上,具身智能已经潜移默化的深入到人类社会的方方面面。

但未来,随着社会发展的不断演进,一系列趋势性变化凸显了具身智能的长期刚性需求。由于人们不愿意从事单独枯燥繁重甚至危险劳动,同时智慧城市人口在不断增加,这对工业制造的效率要求越来越高,社会化智能服务更是期待着更加便捷的模式出现。此外,老龄化社会的加剧将引发更为迫切的康养需求,抢险救灾等高风险工作也亟待智能化的解决方案。从这样的必然趋势看,具身智能是长期的刚性需求。未来在工业制造、商业服务、家庭服务甚至国防军事等方面,将具有广泛的应用市场。

基于上述分析,我愈发认定:具身智能将成为未来新质生产力的一个重要引擎。其将AIGC+RT两者结合,极大的推动了机器人、制造装备、智能终端以及其大脑的进一步进化、泛化与迁移,有望将“一脑多机”与“一脑多型”的技术创想变为现实。我们相信,语言“认知”世界,具身智能工具“改造”世界!它终将改变人、工具、社会三者之间的生产关系,极大提高生产力效率,这一变革不仅对促进我国实体经济的高质量增长发挥作用,更将对未来国际产业竞争格局与我国综合新质生产力的发展产生重大影响。


具身智能百花齐放,

创新的热点方向又有哪些?

近五年来,具身智能领域涌现出了一系列重大的创新研究。其中,我认为以下重要方向仍值得持续深入下去,具体包括:

  • 大脑--通用机器人结构:人形机器人/模块化复合型机器人;数据模拟器与制造工厂--复杂操作分解与机器人动作库的仿真生成数据集;端到端算力芯片--低功耗专用小模型GPU与编译器。

  • 小脑--运动、操作、技能等多品类小脑,AI不只一个,包括实时专业技能操作、复杂智能行为分解与控制、实时安全评测等小模型控制器,这些模型将广泛应用于焊接、清洁、搬运、抛光、打磨、炒菜、保健等领域,以闭源小模型或轻量化模型的形式存在,相关关键训练数据保密,确保模型的独特性与安全性。

  • 空间智能--在空间智能领域,通过视觉、听觉、触觉等多维感知对空间信息的获取、识别、语义理解与表达,并结合Agent代理,将提升机器人的智能交互能力;脑机接口--该领域的在生理解剖学的研究、脑机大模型的构建、微针电极传感器的应用,以及植入式机器人的开发,有望为未来的具身智能开辟新路径。

  • 肢体与上游核心部件--深入这些方向的正向设计,将有效增强机器人的环境适应性与操作灵活性,具体包括高动态、高精度、高负载的电机驱动与丝杠减速器一体化单元,刚柔耦合新材料灵巧手,新型人工肌肉与电子皮肤,低成本生物传感器等。

  • 垂直应用App--工业L2/L3智能工作站,商务L3/L4智能复合型机器人,消费家政L4/L5通用机器人或智能体;免编程与安全算法--编译器与隐私计算等;数据服务--垂直模型专用技能数据服务公司;运营服务--“劳动”租赁派遣公司;制造技术--3D打印,复合材料,热气涨技术,光聚合加工,高效快充电池技术等。法律--就业、隐私、伦理、道德、法律等。

除此之外,我同样期待具身智能在三大热点方向上实现突破。一是,机器人结构(尤其是人形机器人结构)及核心部件的供应链持续优化与迭代;二是,通过更具经济性的具身智能技术创新,推动AI大模型反卷专用化、轻量化的小模型进化发展;三是,加速无人驾驶、低空经济、新能源汽车、物流、养老陪护、危险环境作业等具体应用场景的推进与迭代。


迷雾重重:具身智能的挑战性问题

从传统的汽车、船舶、飞机制造,到前沿领域的仿生“狗”、人形机器人探索与创造,一场由大模型+机器人所引发的“新物种”诞生潮,预示着商业模式将深刻重构,制造模式将迎来新一轮变革,技术应用渗透方式将经历根本性的转型。

然而,在创新机遇之外,具身智能的一系列挑战性问题依然不容忽视。当行业处于一个非共识的混沌状态时,我无比期待具身智能的各方力量,能针对这些挑战性问题,从多维度的思考与实践中探索答案。

  • 挑战性问题一:什么是人形机器人的最佳结构?如何评价人形机器人的能力?未来会不会像马斯克所言:人形机器人市场将会有100亿甚至200亿台套?以全电驱动为主的人形机器人,其相应供应链该如何迭代?有没有更好的驱动模式及其核心部件? 

我想,“新物种”的发展并非一蹴而就,它需要在应用中持续迭代进化,而这一进化过程也深刻影响着供应链与大模型的共同进化。具身智能在面对供应链不健全与复杂性问题时,的确会面临显著挑战。从电机、减速器到控制系统,每一个核心部件的优化都至关重要。

例如为降低成本、实现具身智能产品的小型化与集成化,不少企业在整合供应链的过程中也不断探索。让我们不妨去大胆猜想,未来高动态、大扭矩、低成本的电机、驱动、减速器一体化直驱关节,是否有可能在实现200N.m的性能下,将价格从5000元人民币降至1000元人民币?

  • 挑战性问题二:我们能否找到具身智能的Scaling Law?是否存在统一的机器人或具身智能基础大模型?使具身智能工具能够像人类一样拥有灵巧运动、感知识别、认知推理等多方面能力。

智能层面的技术不断演进,尤其是在大模型“反卷”小模型、大模型轻量化的博弈之中,为具身智能的未来增添了技术路径上的更多可能性。

尽管大模型在通用性和知识覆盖广度上拥有优势,但其泛化能力在某些特定场景的局限性依旧存在。叠加经济性、落地性等一系列现实问题,行业走向了多模态、专业化、轻量化的探索之路。

围绕这些方面,近期领域内的研究取得了多项引人注目的进展。在法国,Mistral模型以70亿参数击败了拥有130亿参数的LLama模型,展示了参数效率的提升;在中国,面壁智能的MiniCPM模型以仅24亿参数就达到了接近1750亿参数GPT-3的性能水平,其背后的首席科学家——清华大学刘知远教授,更是提出“知识密度=模型能力/模型参数”的创新概念,强调模型效率的重要性。

此外,年轻科学家马毅教授预告将在斯坦福大学主持召开“简约与学习”的学术会议,聚焦于低维结构的研究,这进一步推动AI模型向更加精简、高效的方向发展。

而在7月30日的SIGGRAPH大会上,黄仁勋与扎克伯格的对话也聚焦于小模型或分段模型的应用前景上。黄仁勋不仅展示了英伟达在具身智能领域的布局,还透露了由90后华人博士Jim Fan领导的具身智能实验室的研究成果:基于定义具身智能结构,感知环境、潜在学习完成技能等相互嵌入的动态Agents思路。

另一方面,7月25日,斯坦福大学计算机系的李飞飞教授在短短三个月内就完成了一个AI独角兽企业的诞生,该企业利用“三维空间智能技”实现了机器对环境的理解与导航能力,通过模拟猫与桌子上玻璃杯等物体的空间、几何及关系作用,探索了机器“看”与“做”的良性闭环。

7月29日,腾讯RoboticsX实验室张正友团队在《自然机器智能》(Nature子刊)封面发表了重要研究成果,该团队成功将生成式AI-Agent嵌入机器人智能控制系统中。在本体、环境、任务三个层面中,通过快速系统1处理90%的简约感知、认知和行动决策,同时利用复杂认知慢系统2进行知识学习、归纳、推理及决策,实现了机器在本体、环境和任务三个层次上的高效协同。
伴随着具身智能的发展,科学家们对规律的渴求还远不止于此。目前,尽管任务规划的Scaling Law已有一定进展,但环境空间和操作本体的Scaling Law仍处于探索阶段。是坚定不移?还是转变路径?虽没有绝对答案,但我坚信中国的工程师红利即将在其中发挥作用。

甚至在不久的将来(3-5年),我们是不是就将见证一个全新的智能时代到来呢?那时候,API免费,AI服务80%由机器完成,20%通过人工对齐完成,通用的AI服务或产品会不会就像水、电、煤气等基础设施一样,无处不在,触手可得?当终端客户已经不知道他所获得的咨询与解决方案来自哪个具体大模型公司时,这又会引发科技创新领域中怎样的连锁反应呢? 

  • 挑战性问题三:为什么中国机器人或具身智能出现了明显的“内卷”现象?就在几天前,某公司以3.85万的低价开售人形机器人,在缺乏应用场景,尚未建立起标准化的供应链以帮助实现量产的情况下,行业再现“价格屠夫”。人们不禁要问:未来,机器人/具身智能的前景究竟如何?

冷静思考,坚定前行:

开启科技创新的加速之旅

如今,科技创新的浪潮以前所未有的速度席卷全球,显著缩短了从科研探索到商业应用的周期。昔日需数十载方能达成的技术飞跃,如今几年间甚至更短便能触手可及。

科技创新的加速,不仅体现在时间维度上,更体现在探索的深度与覆盖的广度上。当多学科交叉融合成为新常态,基础科学、工程技术、经济学及人文社科等领域的深度融合,构建了一个多元共生、相互推动的创新生态,驱动着科技与产业不断向前跃进。新技术、新业态、新模式不断涌现,不仅为传统产业注入创新活力,同时也催生了一批高技术含量、高附加值、高成长性的新兴产业,成为推动未来经济发展的新引擎。

与此同时,市场快速变化与竞争也在日益激烈。面对挑战,小微企业需要聚焦于细分领域,深耕细作,以“专精特新”为路径,锻造核心竞争力;而大型企业则可依托资源优势,构建平台型或链主型生态系统,整合上下游资源,实现规模效应与协同效应的双赢,稳固市场领先地位。

另一方面,具身智能领域的“行业依附性”特点,又将深入挖掘应用场景的价值提到了更重要的位置上。技术创新,只有与产业需求紧密结合,才能推动具身智能产品的不断升级。这一过程不仅是技术的精进,更是对市场需求的精准把握与快速响应。同时,具身智能形态作为未来发展的重要趋势,其确立对于企业的长远发展具有关键意义。通过场景资源、融资资源等多方资源的交叉融合与螺旋式迭代发展,方能避免“醒得早,起得晚”的遗憾,防止在时代的洪流中被边缘化甚至淘汰。

结尾
回望历史长河,每一次科技的里程碑式突破,都无可避免地伴随着质疑的眼光和挑战的洗礼。数百年前,世界第一艘轮船“克莱蒙特号”在众人怀疑的目光中入水,它摇摇晃晃地模样仿佛随时都会沦为笑柄。然而,正是这份“不在乎他人眼光”的探索精神,让人类得以跨越海洋的阻隔。
在眼前的具身智能浪潮中,颠覆传统、重塑未来的历史再次上演。我无比相信:拥抱变革,穿越周期,坚定信念的创变者们,终将是这次浪潮的赢家!


欢迎关注我们,获取更多精彩内容

参加 CANPLUS
参加CANPLUS是首程资本领衔发起的产业社群平台,致力于以教育为依托,为创新创业者们链接优质的教育资源、产业资源与资本资源。这里有产业大咖干货分享、组织专家实战经验、参加校友故事、智库深度案例研究等各类精彩内容,感谢有你同行。
 最新文章