(精选报告来源:报告研究所)
具身智能临近 IPHONE 时刻
具身智能有望成为智能体最佳载体
具身智能由本体和智能体组成。具身智能是一种基于物理身体进行感知和行动的智能系统,其通过 智能体与环境的交互获取信息、理解问题、做出决策并实现行动。具身智能的核心要素包括本体和 智能体。本体作为实际的执行者,在物理或虚拟世界负责感知和执行任务,而智能体则是具身于本 体之上的智能核心,负责感知、理解、决策、控制等核心工作。区别于机器人,具身智能具备自我 决策能力。根据卢策吾教授在机器之心 AI 科技年会上发表的《具身智能是通往 AGI 值得探索的方 向》中提到,智能体通过感知器和执行器与环境进行交互后,能够实现获取信息、理解问题等功能, 并根据环境的变化做出相应的决策和行动。
小型端侧设备无法消化大模型大算力,具身智能有望成为智能体最佳载体。2023 年,GPT-4 Turbo 发布,其参数量高达 1.8 万亿。2024 年 4 月,国内商汤科技“日日新”大模型体系正式发布,其中 中文语言大模型参数达 1800 亿。随着大模型参数量的大幅增长,传统穿戴设备、手机等无法消化大 模型大算力。从目前市场上的端侧大模型来看,通常设备端越大(功能越多),其端侧大模型的参 数量也越大。例如,面壁智能联合清华 NLP 实验室发布的开源端侧大模型面壁 MiniCPM 参数规模 为 20 亿;小米手机大模型参数达 13 亿;荣耀端侧平台级 AI 大模型参数规模 70 亿。而具身智能需 要处理更复杂的任务,如环境感知、运动控制、决策制定等,其算法和模型需要快速处理大量数据 并做出决策,因此具身智能需要更大的模型参数来支持其更广泛的功能和更高的智能需求。谷歌开 发的 PaLM-E 具身多模态大模型参数量达 5620 亿;华为盘古 Pangu S 大模型参数达万亿。相比小型 端侧设备,具身智能机器人能够消化大模型、大算力。
智能体使机器人由被动编程控制走向主动决策
由专机专用走向通用智能,大模型有望实现机器人系统的重构。2010 年以前,机器人更接近于专机 型的自动化和智能化设备,以特定的机械结构解决针对性场景的作业问题,适用于相对单一、固定 的结构化场景,泛化和迁移能力有限。并且由于机器人缺乏对于任务目标的深入理解,工程师需要 进行大量的任务分解和编程工作,机器人的控制高度依赖人工编程。而且当任务对象或环境发生任 意变化时,需要工程师重新对机器人进行编程和部署。2010-2022 年间,机器人开始拥有初步的感知和规划能力,并逐步实现智能化。这一阶段,机器人在 以下几个方面实现了单点突破:SLAM 技术与激光雷达结合产生了自主移动能力的 AGV(自动引 导车)和 AMR(自主移动机器人);2012 年全球首家轻量级协作机械臂优傲(Universal Robots) 进入中国市场,协作机械臂开始兴起;结合 AI 与 3D 视觉技术后,机器人能够自动进行物体识别 和定位,规划最优路径,实现了上下料、拆码垛、无序分拣、焊接等非标自动化场景的人工替代。2022 年后,大模型逐步与机器人结合。不同于上个阶段的单点性驱动,大模型所展现的泛化能力有 望对机器人感知、决策、控制的整体系统能力带来全面重构,实现机器人的通用化。
大模型与机器人快速融合。2022 年 8 月,谷歌 PaLM-SayCan 首次将语言模型与物理机器人结合, 通过预训练在大型语言模型(LLM)中提取知识,让机器人依据高级文本指令完成物理任务。随后, 机器人与大模型的融合逐步加深。2023 年 7 月,谷歌 DeepMind 推出了 Robotics Transformer 2(RT-2), 是全球第一个控制机器人的视觉-语言-动作(VLA)模型。RT-2 可使机器人直接通过拍摄或感知环 境的方式获取视觉信息,并理解人类语言指令,然后通过动作执行模块进行相应的动作操作。2024 年 3 月,Figure 发布 OpenAI 大模型加持的机器人 Figure 01,Figure 01 采用端到端神经网络,由 OpenAI 大模型提供高级视觉和语言智能功能,神经网络进行底层的控制,能够与人类进行对话交互,理解 并执行人类指令。
大模型使智能体由被动编程控制走向主动决策。与智能体结合后,具身智能以任务目标为导向,不 仅仅是机械地完成程序,其可以根据环境变化,对行动细节进行实时修正,并消除在特定条件下为 特定任务反复编程的需要。依托大模型的涌现能力,具身智能能够从原始训练数据中学习并发现新 的特征和模式,在仅仅依靠网络数据知识的情况下就可以对从未见过的对象或场景执行操作任务。以微软《ChatGPT for Robotics: Design Principles and Model Abilities》为例,操控者只需准备好机器 人底层的函数库,并将任务目标告诉 ChatGPT,ChatGPT 即可自动完成代码并指挥具身智能机器人 行动。
智能体可实现机器人底层控制
智能体对机器人进行控制主要分为两种路径,一种是分层决策模型、二是端到端的具身模型。分层框架的核心是将复杂的长时程任务拆解成可以直接完成的小任务。与机器人结合的大模型可分 为两类:Foundation Models for Robotics 和 Robotics Foundation Models。前者可与机器人结合但其 应用领域并不局限于机器人,其主要功能是作为“大脑”对机器人进行任务分解和规划。后者是结 合机器人数据训练生成到小脑层的基础模型,即机器人具身大模型,其作用是结合各种传感器的信 息以及宏观指令进行运动指令生成。以擦桌子为例:机器人接到任务后,首先将其拆解成一系列的子任务,即找到抹布、拿起抹布、擦 桌子……传统的任务规划通常由工程师来进行,而大模型由于具备高层次抽象能力,可直接实现机 器人的任务定义、拆解,使其实现自主任务规划。任务分解完成后,需要对机器人进行动作轨迹规 划,例如从 A 点到 B 点进行 10 次圆周运动。传统控制通过直接驱动或电机控制来实现基础动作控 制,需要工程师进行编程,而神经网络可以直接使用机器人编程语言完成应用程序的编写、调优和 部署。
区别于分层架构,端到端大模型能够直接输出控制信号。以谷歌的 RT-2 为例,RT-2 是视觉-语言动作(VLA)模型,能够从网络和机器人数据中进行学习,并将这些知识直接转化为机器人控制的 通用指令。RT-2 以视觉-语言模型(VLMs)为基础,VLMs 在 web-scale 数据上进行预训练,能够 准确识别视觉或语言模式并跨不同语言进行操作。在此基础上,谷歌将动作表示为类似于语言标记 的标注,以实现在机器人数据上训练 VLM 模型。RT-2 能够理解复杂的指令并将其转化为机器人的 动作,其接收机器人摄像头图像作为输入,直接预测机器人要执行的动作,实现了从视觉到动作的 端到端控制。
端到端的架构具备更好的泛化性,分层架构可解释性更强。RT-2 能够处理机器人数据中从未见过的 对象或场景,例如执行“拿起即将从桌子上掉下来的袋子”或“将香蕉移动到 2 加 1 的和”等。但 端到端需要构建海量数据训练,且消耗大量计算资源。数据规模越大,调用大模型频率就越高,机 器人决策实时性效果越差。分层架构可将复杂的问题分解为更小、更易于管理的部分,相比端到端 技术难度更低,并且系统拥有更好的可扩展性和可维护性。但是其信息在不同层级之间传递时有可 能会存在损失,因此会影响系统的整体性能和响应速度。
参考自动驾驶发展路径,在早期机器人数据不足的情况下,分层架构发展更为迅速。自动驾驶属于 具身智能子集,是具身智能移动能力的体现。在自动驾驶初期发展阶段,分模块快速发展,在这种 技术范式下,感知、决策、控制由开发人员各自完成,具备更强可解释性。而端到端虽然以全局最 优为导向,相比传统分模块的方式具备更高性能上限,但实现难度较高,且需要海量数据做支撑。
仿真为智能体赋能的主流路径
仿真软件有望实现大范围应用
主流的具身智能训练方法主要包括遥操作、动捕、大模型等。其中,单一的遥操作或动捕需由人类 操作员直接控制,无法实现机器替人。大模型和智能体深度融合,具备较强泛化型。在数据选择上, 可采用仿真数据或真实数据。仿真通过构建虚拟环境生成大量数据,成本较低,适合在新的环境中 大范围学习技能;利用真实数据能够形成细分场景的数据壁垒,但成本及获取难度相对较高。
遥操作(Teleoperation)能够直接有效解决工业、极端危险等应用场景的刚需,但无法实现机器替 人。遥操作主要是通过专用设备将人类的动作直接迁移到机器人身上,再由机器人通过传感器收集 数据,以达到双向反馈的目的。在该种控制方式下,机器人由人类操作员直接控制,人类用户负责 高级规划或认知决策,而机器人负责下层的控制和执行,并通过触觉传感器来感知即将抓取的物体。通过遥操作系统,可以实现机器人的远程控制。遥操作的优势在于能够精准、高效地模仿人类动作, 并且实时捕捉传输关节角度、速度等关键状态信息,相比其他训练路径更为直接有效,且能够解决 工业、极端危险等应用场景的刚需。但遥操作由人类操作员直接控制,数据采集成本较高;并且单 纯依靠遥操作无法实现机器替人。
动捕能够将人类动作直接迁移到机器人身上,但同样无法真正实现机器替人。动捕一般是由演示人 员穿好动作捕捉套装,衣服上的电位器通过数据线和电脑相连接,因此演示人员的的全身运动数据 会被记录下来,供机器人学习。特斯拉在 2023 年股东大会上展示 Optimus 的进展时,视频中工作 人员穿戴动捕服进行演示,人类的动作能够直接迁移到机器人身上,机器人再通过传感器收集数据, 以达到输入的目的。动捕的优势在于人类的动作能够直接迁移到机器人身上,在实际训练中,动捕 往往与遥操作结合使用,因此尤其适合人形机器人训练。但与遥操作类似,单一动捕无法真正实现 机器替人。
大模型具备较强泛化性,仿真数据有望大范围应用。谷歌 RT 采用该种技术路径。谷歌在 RT-1 和 RT-2 的框架上使用 X-Embodiment 数据集进行训练,该数据集包含在 22 个机器人上采集的能够完成 16 万个任务的上百万条数据。其中,RT-1 充当小脑层级的控制器,由大模型负责顶层理解和指令分 解,例如打开抽屉、将物体从抽屉里拿出来等。RT-2 采取端到端路径,将语言、动作 tokens 进行 对齐,微调后得到 VLA 模型,使得模型能够通过视觉输入和语言指令生成正确的动作标记序列。大 模型使机器人从 Model-Based 向 Learning-Based 转变,在解决复杂和高维度的运动控制问题上具备 更高的上限。但是大模型的训练需要海量数据,按数据来源分类,可分为真实数据和仿真数据。真 实数据效果最好,但需要耗费大量人力和硬件成本。仿真数据成本低,可以大规模获取,但通常存 在 sim-to-real gap。
CAE 用于工业仿真模拟,国产化率正快速提升
CAE 属于研发设计类软件,用于工业仿真模拟。CAE 软件分为前处理、求解器和后处理三大模块, 其中求解器为 CAE 软件的核心。前处理过程中,用户在 GUI 为求解器提供/生成实际的几何模型和 空间网格,选择物理模型和数值求解算法及其参数,并根据实际工况设置求解的边界条件;求解器 是针对特定场景,如结构变形、液体流动等,用数字算法模型的方式实现对物理规律、数学原理的 客观还原;求解结束后,后处理模块为客户提供可视化界面,对模拟结果进行提取、分析和多方式 展示。
跨学科能力不断增强,国内市场规模快速增长。CAE 软件集成了物理学、数学、计算机科学和工程 学等多领域的知识,随着其跨学科融合能力的不断增强,CAE 软件能够处理多物理场耦合问题,并 提高产品研发的效率,并通过模拟和分析来优化设计来减少实际制造过程中的迭代次数。从而在汽 车、航空航天、国防军工、电子装备等高端制造业中得到更为广泛的应用。根据 IDC 的中国核心工 业软件市场预测,中国 CAE 软件市场规模将从 2021 年的 32.1 亿元增长到 2026 年的 74.8 亿元,5 年复合增长率达到 18.4%。
专用领域抢占市场份额,国产化率快速提升。目前 CAE 软件国产化程度较低,根据 IDC 的《中国 设计研发类工业软件之 CAE 市场厂商份额,2022:流水争先》,2022 年市场份额排名前三分别为 Ansys、西门子和达索系统,均为国外厂商。但由于 CAE 软件涉及结构、流体、电磁、噪声等各类 不同专业领域,头部厂商很难拥有全物理场的通用仿真产品,国产厂商加大投入,从专用领域抢占 市场份额,国产化率持续提升。根据智研咨询的计算,CAE 国产化率从 2016 年的 7.0%增长至 2022 年的 16.2%,同比增加 9.2 Pcts。
柔性、流体仿真具备较高技术壁垒。流体等具有高度的非线性特性,因此其运动和变形模式较为复 杂,难以用简单的数学模型来描述;而柔性物体在受力作用下可能会发生大变形,因此需要仿真模 型能够准确捕捉到这些变形,传统的小变形理论可能不再适用。因此在进行柔性、流体仿真时,对 于算法的稳定性和收敛性大幅提升。国内厂商如索辰科技在流体领域具备深厚技术积累,其 Aries 通用流体力学仿真软件包含笛卡尔网格 CFD、非结构网格 CFD 等多种求解器,支持气动噪声、燃烧、 多相、热辐射等多物理场仿真计算,已为航空航天、船舶海洋等领域提供多个解决方案。
具身智能商业化落地:关注软件和垂直领域软硬结合路径
数据是具身智能发展的核心
本报告文件将分享到报告研究所知识星球,扫描下方图片中二维码即可查阅
(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)
入群方式:添加助理微信【touzireport666】,发送「个人纸质名片」或「电子名片」审核后即可入群。