杨晓:具身智能,技术前沿与未来展望 | 钛资本机器人组

文摘   2024-11-23 11:46   上海  

联系钛资本-机器人组,扫描 ↑ 二维码

智能体时代已经来临。具身智能是一种基于物理身体进行感知和行动的智能系统,其通过智能体与环境的交互获取信息、理解问题、做出决策并实现行动。本体作为实际的执行者,在物理世界负责感知和执行任务,而智能体则是具身于本体之上的智能核心,负责感知、理解、决策、控制等核心工作。区别于传统意义上的机器人,具身智能具备自我决策能力。

具身智能的发展现状如何?未来有哪些落地场景?最近,我们邀请顺为资本投资经理杨晓进行分享,他于2020年加入顺为资本,负责机器人、先进制造等方向的早期及成长期投资,投资案例包括宇树科技、千寻智能、因时机器人、法奥机器人、星迈创新、飒智智能、万勋科技等。此前,曾任职于香港J.P. Morgan投资银行部。拥有上海交通大学工学及金融学双学士学位,以及哥伦比亚大学运筹学硕士学位。主持人是钛资本张智强,关注人工智能、航空航天、医疗健康。

具身智能是什么?

1、具身智能包括物理实体和智能两个层面,涉及机器人形态和AI能力

具身智能不仅限于人形机器人,还包括其他实体机器人,如自动驾驶车辆和机械臂。具身智能区别于AI虚拟人,后者缺乏物理实体,同样区别于传统工业机械臂,后者依赖于人工编程。

具身智能的本质是在真实世界中控制机器人,涉及多个控制层级:任务层、技能层、动作层、基元层和伺服层。任务层到技能层涉及将高级语义理解拆分为子任务或步骤,例如将“清理咖啡”的任务拆解为“移动到洗手间”、“找到抹布”、“拿起抹布”和“擦桌子”。技能层到动作层则是将这些技能进一步细化为具体动作,如将“擦”技能拆解为从A点到C点的直线运动和以C点为圆心的圆周运动。动作层到基元层要求将技能拆解成一系列几何动作序列,而基元层则关注更细致的运动控制,如将一段轨迹插值成每个点的速度、位置和加速度等控制信号。最后,伺服层将这些控制指令转换为电机可以识别的波形信号。

从任务层到动作层的智能程度和泛化性要求逐渐降低,而对实时性和可靠性的要求则逐渐提高。大模型和具身智能主要解决的是任务层到动作层的拆解问题,而动作层到伺服层的拆解在传统工业领域已有成熟解决方案。这五个层级共同构成了实现机器人控制的完整体系,每个层级都有其特定的功能和要求。

2、智能发展的三个阶段

第一阶段是基于模型或规则的实现方式,依赖于人为指定的规则,如输入A得到B,这是传统的实现方式。第二阶段是以强化学习和模仿学习为代表的数据驱动智能,不再需要人为编写复杂控制的规则和程序,而是将机器人控制逻辑视为黑盒,通过数据驱动的方式训练得到控制策略,这一阶段大约在过去五年是业界的主要研究方向。

第三阶段是近两年兴起的大模型驱动下的智能,它使机器人智能能解决一些传统上只能靠人解决的高级别任务。例如,大模型可以将长任务拆解为子任务,如从抽屉中拿薯片的任务被拆解为前往柜子、打开抽屉、拿起薯片、走回用户位置、放下薯片等子任务。大模型在每个任务的实施中扮演重要角色,需要识别物体、判断动作是否成功执行,并在必要时控制机器人重复动作。

另一个例子是环境理解和自主空间探索,大模型可以帮助机器人更好地理解语义和空间构成,如从客厅图片中推断冰箱可能在厨房,并指导机器人移动到未探索的空间,最终完成任务。这些都是大模型在帮助机器人理解三维空间方面的优势。然而,尽管大模型在理论上具有潜力,但在实际应用中,面对复杂环境和任务时,大模型距离实际落地仍有较大发展空间。

具身智能的研究本质是实现在真实世界中的知识抽象和机器人执行任务的泛化能力。泛化能力分为对象级别和任务级别的泛化,前者指机器人学会对不同物体执行相同任务的能力,后者指机器人基于以往经验执行全新任务的能力。

3、算法侧:主要研究方向及现状

学术界对具身智能算法的研究主要分为两大范式:模拟到现实的范式和预训练模型的范式。

模拟到现实的范式包括三个步骤:构建模拟环境、在模拟环境中通过强化学习训练控制策略、将控制策略迁移到真实世界。这一范式的挑战在于虚拟环境与真实世界之间的偏差。预训练模型范式则利用大模型在互联网上展现出的智能,挑战在于将这种智能从比特世界迁移到真实世界,即具身实现。具身实现的方式多种多样,但目前没有一种方式能在高泛化性的同时实现高落地成功率。

具身智能的两个主要范式:模拟到现实(Simulation to Real)和预训练模型(Pre-trained Models)。在模拟到现实的范式下,主要解决行走和操作两大类问题。行走问题,包括四足和双足机器人的行走,已达到较高成熟度。特别是双足机器人,加州大学伯克利分校2023年底发布的基于强化学习的行走策略,标志着学术界的一个重要拐点,基于纯学习的行走策略已被基本攻克,剩余的主要是工程化问题。从2024年开始,我们更频繁地看到人形机器人在展会上动态行走,甚至在室外环境中行走,显示出双足行走问题取得了良好进展。

操作问题的复杂度远高于行走,因为操作涉及的对象、种类和环境多样,面临的挑战也更为复杂。操作任务的发展经历了三个阶段:第一阶段是单一对象的单一操作,如灵巧手抓杯子或转魔方,这一阶段在2022年之前已有较多研究;第二阶段是实现可泛化对象的单一操作,即对象级别的泛化,这是当前努力的方向,但成功率有限,距离产业化落地还有较大距离;第三阶段是任务级别的泛化,目前看来更为遥远。

操作任务的挑战在于背后的仿真器并不完美,物理引擎虽然能仿真真实世界中的物体和交互方式,但仍存在限制。仿真器的不完美直接影响了操作任务的成熟度,因为仿真到现实的迁移依赖于仿真器的准确性。

具身智能在算法和硬件方面的成熟度具有挑战。仿真器虽然发展迅速,能仿真从纯刚性到柔性物体,甚至刚柔耦合和传感器,但在模拟物体的真实性和与环境交互的任务上仍有局限。这限制了从仿真环境学习到的策略在真实世界中的应用逻辑性,成为核心挑战之一。

在预训练模型范式下,基础的多模态大模型和大语言模型已相对成熟,尽管在复杂逻辑和泛化性问题上存在挑战,但对具身智能的落地是可用的。最具挑战性的是如何将这些模型的智能应用到真实世界中,即具身实现。具身实现包括上层任务规划和下层技能实现。上层任务规划需要考虑真实世界的物理约束,而下层技能实现涉及更底层的操作级任务。

尽管有一些代表性的工作,如下层技能实现的Google RT系列,但下层实现的复杂度高,泛化性及任务成功率难以满足产业落地标准,而对数据的高需求和优质数据的稀缺是主要挑战。如果将具身智能比作18岁的成人,那么当前算法端的智能仅相当于3岁的小孩,还未掌握基础的生活自理能力。

在可落地路径方面,当前阶段,对于模拟到现实范式,行走和简单任务的操作是可实现的,长期来看,需要解决仿真器的真实性和大规模获取高质量数据的问题。对于预训练模型范式,虽然端到端是一个理想状态,但为了实现落地,更多需要分层处理,上层用大模型做任务规划,下层做具体技能实现。对于部分任务,传统的基于模型的硬编程进行实现或兜底可能比纯学习方法更容易落地,因为其成功率更高。

4、硬件侧:感知能力+计算能力+执行能力 = 具身智能

在硬件方面,具身智能硬件包括感知、计算和执行三个环节,相对于算法端,硬件端的成熟度较高,可以复用工业和自动驾驶领域的硬件能力。总的来说,具身智能的发展在算法和硬件上都面临挑战,但硬件端相对更成熟,而算法端仍处于初级阶段,需要在仿真器的真实性和大规模高质量数据获取上取得突破。

具身智能硬件的三个核心组成部分:感知硬件、计算硬件和执行硬件的现状和挑战。

在感知硬件方面,视觉传感器如激光雷达和摄像头在自动驾驶和工业机器人中的应用已相当成熟,可以较好地应用到人形机器人领域。然而,由于具身智能所处的环境更加复杂,对传感器的精度和灵敏度提出了更高要求。力传感器在工业领域已经非常成熟,而具身智能对六维力传感器的需求更高。触觉传感器是感知硬件中最不成熟的部分,技术路线分散,包括电容式、压阻式等多种类型,长期来看仍需攻克。

计算硬件包括大脑(SOC芯片)、小脑(控制器)和脑干(驱动器)。大脑端的芯片,如英伟达平台和国内地平线等,相对成熟,存在国产替代的机会。执行硬件包括机械臂、灵巧手和电机等,旋转电机在工业领域已成熟,但具身智能对力控反馈和能量密度有特殊要求。直线驱动器在工业应用较少,但在人形机器人中逐渐成为主流方案之一,尤其在对体形或能量密度有要求的构型下具有优势。

五指灵巧手是智能硬件中成熟度最低的品类,尽管长期价值巨大,因为手的灵活程度与执行任务的柔性程度密切相关。市面上的灵巧手通常有十个以下的自由度,而人手有二三十个自由度。灵巧手的自由度和硬件实现方式存在权衡,例如,为了实现高自由度,可能需要将电机移动到手掌或手腕侧,通过线驱动方式实现,但这会影响寿命、可靠性和控制精度。因此,灵巧手的技术路线尚未收敛,未来有较大的发展空间。

具身智能硬件的现状和未来的发展路径。基于当前供应链状况,搭建成熟可用的硬件并不困难,但核心零部件如触觉传感器和灵巧手仍有较大的发展空间。未来具身智能的硬件形态将多样化,不仅限于人形,而是针对不同场景有最适合的硬件形式。

具身智能未来落地场景推演

短期内,具身智能最适合落地的场景是科研,因为科研无需考虑实际场景的PMF和ROI,只需提供软硬件基础和接口文档。此外,具身智能也可在工业和商业领域进行有限尝试,如工厂搬箱子或商店夜间补货等简单封闭场景,但由于成本高而实际价值低,往往只能以demo形式存在。

中期来看,随着算法成熟和硬件稳定,具身智能将在工业和商业服务领域有更丰富的应用,如执行精度和柔性要求较高的任务,以及在半开放场景中与人类交互。

长期来看,具身智能最有价值的应用领域是商业服务和家庭服务,因为工业场景大多为大批量、标准化、重复性和封闭性,对泛化性需求相对有限。

具身智能在不同发展阶段对公司核心竞争力的考验不同。短期内,考验的是创始团队的场景洞察和工程落地能力,即找到有助于技术打磨且有商业价值的场景,并高效组织研发。中期则考验团队的软硬件综合能力,尤其是算法的迭代和数据工程化能力。长期来看,考验公司是否能建立从硬件部署、到数据收集、到算法迭代、再到硬件部署的闭环,并为各行各业提供应用生态构建的能力。

类比自动驾驶,具身智能的合理发展路径

我们来观察特斯拉从新能源车到人形机器人的发展历程。特斯拉通过持续降本实现新能源车产品的批量化落地,收集大量数据并构建强大的数据处理标注流转闭环的平台,并为自动驾驶引入领先的AI算法架构,再通过正向定义人形机器人品类和创新硬件构型,将自动驾驶领域的技术能力迁移到人形机器人领域,实现正向闭环。这为具身智能的落地路径提供了有力借鉴。

一些观点探讨

在具身智能领域投资或创业时,软件是长期竞争力的关键,而硬件能力虽然不可或缺,但提升空间相对有限。软件则处于非常早期阶段,提升空间巨大。

关于分层与端到端的问题,分层是阶段性选择,端到端可能是终极方案。自动驾驶的发展也经历了从规则到小模型,再到大模型的统一实现的过程,表明渐进性方案更有确定性。

在强化学习和模仿学习之争中,两者目标一致,都是解决泛化性问题,但方法不同。强化学习通过海量数据试错得到最优解,而模仿学习数据训练效率更高,可能只得到局部最优解。尽管年初时更多人倾向于强化学习,但过去一年的产业发展显示模仿学习的权重在提升,大家发现结合Diffusion Policy的模仿学习已经可以实现较好的泛化。长期来看,两者结合可能是方向,例如在预训练模型的基础上,先通过模仿学习得到粗糙轨迹,再通过强化学习进行调优。

在数据选择上,真实数据、合成数据和视频数据各有优劣,需要综合应用。真实数据有效性高但获取难度大,合成数据获取简单但有效性可能较低,而互联网上广泛存在的视频数据尚未被充分利用,其潜力有待挖掘。

在空间智能方面,李飞飞教授认为空间智能涉及机器在三维空间中的感知、推理和行动能力,与具身智能的目标相似,但表达方式不同。空间智能强调从底层使用三维数据表征世界,而传统模型多将二维或三维数据压缩成一维处理,这可能导致信息损失。使用三维数据进行更好表达可能比一维数据更能泛化地训练智能算法。

世界模型是另一个被广泛讨论的概念,它与具身智能不同。具身智能关注个体级别的智能,而世界模型涉及对整个环境或世界的规律、常识和规则的融合,当然具身智能体可以借助对世界模型的理解具备反事实推理的能力,即通过想象回答what-if问题,这也可能是具身智能未来的发展方向。

顺为资本从去年初开始就密切关注具身智能领域,已经进行了一些投资布局,并将持续关注AI+机器人上下游的投资机会。顺为的投资案例包括人形机器人头部企业宇树科技、具身智能领域的黑马千寻智能、五指灵巧手国内头部的因时机器人、工业场景类人作业的复合机器人公司飒智智能等等。

Q:对于创业者组建项目方面有什么建议吗?

A:具身智能是一个长期领域,虽然潜力巨大,但短期内产业落地仍面临挑战。市场上存在对具身智能落地过于乐观的看法,实际上技术距离成熟应用还有很长的路要走。

在具体的投资和实操方向上,建议关注产业链中对行业进程影响最大的环节,尤其是本体,因为它在产业链中占据核心地位。软件算法侧虽然开发难度大,但潜力和上限更高,而硬件侧则是国内产业链的优势,具备更高的确定性。因此,投资者需要根据自己的风格和偏好在软件和硬件类企业之间做出选择。

对于团队能力,在行业的早期阶段,需要一个综合能力强的团队,不仅要有硬件和算法开发能力,还要有场景落地的实践经验。这些能力有助于在行业混沌时期推动产业落地。

总的来说,具身智能投资需要耐心和对技术发展的深刻理解,同时要关注团队的综合实力和场景侧的应用潜力。

Q:中国要赶超美国需要有哪些基础研究方面的投入?

A:当前国内外在具身智能领域的差距仍然较大,主要体现在基础模型方面。无论是大语言模型、多模态模型还是仿真器,这些关键技术主要掌握在OPEN AI、英伟达、特斯拉等海外巨头手中,显示出国内外在底层基础设施上的差距。

尽管如此,国内在硬件和上游零部件供应链方面具有明显优势。国内厂商在全球范围内已经建立了一定的品牌影响力,这是国内企业的一大竞争优势。此外,长期来看,国内在场景应用方面也具有潜力,无论是工业制造、商业服务还是家庭服务,国内企业由于更接近广泛的产业技术和消费群体,因此在某些场景领域有超车的机会。

Q:在特种场景,像军用这些场景,您怎么看?

A:理论上所有需要泛化操作的场景都可以应用具身智能技术,但在技术成熟度不足的情况下,需要根据优先级来决定哪些场景先落地。优先级考虑的因素包括技术的成熟度、场景的难易程度、场景对无人化的迫切性、场景的商业价值以及容错性等。

虽然所有场景都可以是具身智能的潜在应用领域,但实际上需要根据上述因素综合评估。例如,军事领域有高危险性和高付费能力的特点,但也存在商务门槛高、数据不易得等挑战。此外,即使在这些领域内部,也需要根据具体情况决定先做什么后做什么,这需要综合考虑多个因素。

目前可能没有一家公司能立即拿出成熟的方案直接落地,大多数情况下需要在实际场景中进行至少半年到一年的试验。因此,公司的场景洞察、工程落地能力及商务客户资源也成为短期内的关键要素。总的来说,具身智能技术的应用需要根据技术成熟度、场景特点和实际需求来确定优先级,并且需要在实际场景中进行充分的测试和调整。

Q:您更看好哪些行业和场景中的落地潜力?

A:难以给出一个具体的场景作为具身智能最适合或更好的应用案例,但可以提供一些评判标准。首先,适合的场景应该是相对简单和封闭的,与人接触较少,任务种类单一,以适应目前相对成熟的算法。其次,从商业角度来看,场景应具备较强的付费能力,以适应具身智能早期高成本的阶段,尽可能提高投资回报率(ROI)。第三,场景的容错性要高,因为早期具身智能的成功率需要逐步提升,应避免那些对成功率要求极高、一旦失败会造成重大人员或财产损失的场景。

在选择具身智能的应用场景时,应考虑技术适配性、商业可行性和风险容忍度三个关键因素。这些标准有助于确定哪些场景更适合早期的具身智能技术落地和商业化尝试。

从具身智能商业化路径来看,目前商业落地途径主要包括三种:第一种是通用机器人路径,其核心是采用通用的硬件和软件来应对各种多变的使用场景,该路径对于资金和技术要求较高,目前1X、Figure以及特斯拉等行业巨头正加速布局;纯软件路径的是设计通用的操作系统,硬件厂商通过 API 接口即可接入机器人“大脑”,从而实现多种硬件平台共享同一套软件架构,并且随机器人的大规模部署,其边际成本可以无限趋近于 0;第三种路径是垂直领域软硬一体,目前机器人硬件与数据仍处于耦合阶段,公司通过收集传感器数据能够形成细分领域的数据壁垒。未来钛资本将与伙伴们一起,关注、把握具身智能的更多发展机会。

部分交易

企业软件|服务:九州云 | 安畅网络 | NOVA南凌科技 | 云途腾 | 鹏云网络 | 数腾软件  | 爱可生 | 天云大数据|  InfoQuick |  超级导购 |  精鲲科技 | 百特搭 | 弘积科技 | ClickPaaS | 宏原科技 | 司库立方  | 瑞和云图 | 同创永益  | 申石软件 | 优维科技 | 飞速创软 | 讯盟 | 数影星球 | 业询科技 | Around Deal 
企业安全:凯馨科技 | 唯思科技 |  奇盾|  时代亿信 |瀚思科技 | 螣龙安科未岚科技 |安易科技 | 杰思安全 | 神顶科技
工业科技:瑞风协同 | 宇动源
半导体:湃睿半导体 | 亿芯源 | 芯探科技
医疗健康:良福制药
汽车交通:九曜智能 | 麦腾物联 | 东软睿驰达 | 普法芬
新能源:沃太能源
产业互联网:云印 
夹层|信用: 小熊U租 | 蜂电科技上下文


钛资本
钛资本是专注科技创新的投资银行和管理咨询复合服务平台。我们深刻掌握全球前沿技术趋势,且深入理解中国企业级市场特性,致力于成为创新创业企业的长期合作伙伴,为企业更快更稳成长赋能,为资本增值助力。
 最新文章