AI Agent智能体是具备人工智能能力的智能实体,能够与外部交互、自我更新进化。它涵盖了多种物理形式,如机器人、车、摄像头、专用机械等,并且其功能将从基础的“感知、计算、连接、安全、执行”向高级的“交流互动、端云协作、自主移动”等能力扩展。到2040年,智能体设备的市场规模预计接近200亿台,渗透率超过15%。
围绕AI Agent智能体,下面我们从智能体的概念入手了解智能体的载体、与其他学习模式的差异、当前发展现状、赋能主要路径,并重点了解了智能体赋能机器人的一些情况,并对当前的市场前景及产业化落地情况进行了解,并了解相关公司及未来算力高增背景下,多模态智能体会有怎样的发展趋势等。循着这些问题我们来了解智能体相关知识。
01
智能体概述
1.什么是智能体
智能体是自主完成设定的目标的代理,能够不断迭代学习以与环境相互适应。根据MoPaaS创始人和CEO鲁为民博士在《大语言模型时代的智能体(I):什么是智能体?》一文中的定义,智能体(AI Agents或Agents)是一个可以通过行动能力自主完成设定的目标的代理。智能体具备一些类似人的智能能力和行为,比如学习、推理、决策和执行能力。智能体具备感知、观测、决策和执行四大模块,通过反馈来感知环境及其动态变化,并将行动策略反馈作用于环境,以实现不断迭代学习与环境相互适应。
2.智能体有哪些载体
自动驾驶汽车、人形机器人都可成为智能体的载体。根据智元机器人CTO、首席架构师稚晖君的定义,智能体与“本体”耦合后,即形成具备物理实体的、且能够在复杂环境中执行任务的智能系统。其中本体作为实际的执行者(通常是具有物理实体的机器人),在物理或者虚拟世界进行感知和任务执行;而智能体则承担智能核心的作用,负责感知、理解、决策、控制等工作。卢策吾教授在机器之心AI科技年会上发表的《具身智能是通往AGI值得探索的方向》中提到,智能体通过感知器和执行器与环境进行交互,能够实现获取信息、理解问题等功能,并根据环境的变化做出相应的决策和行动。根据选择的不同具身方法,智能体能够以机器人、自动驾驶汽车等多种形式表现。
3.智能体与其他学习模型有何区别
智能体相比传统深度学习模型具备自主学习的能力。CV、NLP等传统深度学习模型主要通过第三视角以互联网图像、视频或文本等数据集进行学习,其训练主要依靠被动数据投喂。而具身的智能体以第一视角进行感知,并与环境交互,不依靠被动数据投喂,具备主动学习的能力以及较强的泛化性。1963年,麻省理工学院教授理查德•赫尔德通过对比实验发现:当猫的脚被绑住放进盒子里时,即使其能正常观察环境,但并不能发育出正常的视觉能力;而另一只可以自由行走的猫在完全相同的环境下,则发育出了正常的视觉能力,因而他认为只有“具身”的训练,才能真正学习与理解外部的环境与信息。
02
智能体与具身智能
1.具身智能由本体和智能体组成
具身智能是一种基于物理身体进行感知和行动的智能系统,其通过智能体与环境的交互获取信息、理解问题、做出决策并实现行动。具身智能的核心要素包括本体和智能体。本体作为实际的执行者,在物理或虚拟世界负责感知和执行任务,而智能体则是具身于本体之上的智能核心,负责感知、理解、决策、控制等核心工作。区别于机器人,具身智能具备自我决策能力。根据卢策吾教授在机器之心AI科技年会上发表的《具身智能是通往AGI值得探索的方向》中提到,智能体通过感知器和执行器与环境进行交互后,能够实现获取信息、理解问题等功能,并根据环境的变化做出相应的决策和行动。
2.具身智能有望成为智能体最佳载体
小型端侧设备无法消化大模型大算力,具身智能有望成为智能体最佳载体。2023年,GPT-4Turbo发布,其参数量高达1.8万亿。2024年4月,国内商汤科技“日日新”大模型体系正式发布,其中中文语言大模型参数达1800亿。随着大模型参数量的大幅增长,传统穿戴设备、手机等无法消化大模型大算力。从目前市场上的端侧大模型来看,通常设备端越大(功能越多),其端侧大模型的参数量也越大。例如,面壁智能联合清华NLP实验室发布的开源端侧大模型面壁MiniCPM参数规模为20亿;小米手机大模型参数达13亿;荣耀端侧平台级AI大模型参数规模70亿。而具身智能需要处理更复杂的任务,如环境感知、运动控制、决策制定等,其算法和模型需要快速处理大量数据并做出决策,因此具身智能需要更大的模型参数来支持其更广泛的功能和更高的智能需求。谷歌开发的PaLM-E具身多模态大模型参数量达5620亿;华为盘古PanguS大模型参数达万亿。相比小型端侧设备,具身智能机器人能够消化大模型、大算力。
03
智能体发展现状
1.智能体近年来发展迅速
智能体技术近年来取得了显著进展,尤其是在大模型的推动下,智能体的应用场景变得更加丰富。智能体具备多模态感知、推理能力和强大的泛化能力,能够整合图片、语音等异构数据,提高任务处理效率,并解决跨行业、跨领域的问题。智能体的主要能力包括长期和短期记忆、自主规划、工具使用和自动执行任务等,这些能力不仅提高了工作效率,还为用户提供了更好的体验。
智能体应用市场正处于快速增长期,当前市场格局尚未明确,开发门槛仍需进一步降低。为了争夺市场份额,各大厂商如字节跳动、阿里、百度和腾讯等纷纷调整了旗下大模型产品的定价策略,加入了价格战。然而,当前许多平台的操作流程仍然繁琐,界面不友好,复杂的功能设置和参数调整增加了用户的使用难度和学习成本,仍有较多待优化的地方。
2.多方面推动智能体商业化落地
未来多方面将推动人工智能和智能体的商业化落地。国内各地相继出台了关于人工智能的发展政策,预计到2026年,中国人工智能市场规模将超过260亿美元,全球市场规模将在2025年超过6万亿美元。美国在人工智能领域的发展较为成熟,许多智能体应用已经在为企业服务,且美国有意与人工智能强国组成战略伙伴,共同推动AI科技的发展。智能体的应用能够推动政府、金融、制造、能源、医疗、零售等多个行业的智能化转型,尤其是在多模态和跨模态方面的应用前景广阔。
3.在多模态理解及交互方面尚存在不足
在Agent的理论框架中,自主思考和规划能力是其核心特征,这也是Agent与ChatBot和Copilot等应用的关键区别。然而,当前阶段的智能体实际构建与这种理想状态仍有显著差距。
现阶段的智能体大多局限于通过Prompt构建短期记忆,事实性记忆则多通过RAG(Retrieval-Augmented Generation)来构建。虽然大模型的上下文长度上限在不断提升,但仍然缺乏在对话之外持久保存和累积知识的机制。此外,智能体在多模态理解方面仍存在不足,尚未完全实现对多模态信息的深入理解。
当前,智能体主要应用于自动化和情感需求等领域。单智能体通过试错学习适用于简单任务,而多智能体则在复杂环境中通过合作或竞争调整最佳策略。尽管智能体在这些领域表现出色,但在商业化进程中仍面临成本挑战,特别是在智能体交互过程中可能出现的错误循环和高token消耗问题。
4.智能体被认为是大模型商业化落地的重要方向
智能体建立在大模型基础之上,具备规划、记忆、工具、行动和交互能力,被认为是大模型商业化落地的重要方向。智能体的优势在于门槛低、生态潜力大,开发者可以通过调用已有大模型的API,根据不同场景的数据训练智能体,从而更好地发挥数据价值和竞争优势。2024年以来,大模型使用费的下降预计将推动行业整体受益,降低开发者的试错成本,并有助于解决当前大模型应用落地场景不足的问题。
04
智能体赋能主要路径
主流的具身智能训练方法主要包括遥操作、动捕、大模型等。其中,单一的遥操作或动捕需由人类操作员直接控制,无法实现机器替人。大模型和智能体深度融合,具备较强泛化型。在数据选择上,可采用仿真数据或真实数据。仿真通过构建虚拟环境生成大量数据,成本较低,适合在新的环境中大范围学习技能;利用真实数据能够形成细分场景的数据壁垒,但成本及获取难度相对较高。
1.遥操作
遥操作(Teleoperation)能够直接有效解决工业、极端危险等应用场景的刚需,但无法实现机器替人。遥操作主要是通过专用设备将人类的动作直接迁移到机器人身上,再由机器人通过传感器收集数据,以达到双向反馈的目的。在该种控制方式下,机器人由人类操作员直接控制,人类用户负责高级规划或认知决策,而机器人负责下层的控制和执行,并通过触觉传感器来感知即将抓取的物体。通过遥操作系统,可以实现机器人的远程控制。遥操作的优势在于能够精准、高效地模仿人类动作,并且实时捕捉传输关节角度、速度等关键状态信息,相比其他训练路径更为直接有效,且能够解决工业、极端危险等应用场景的刚需。但遥操作由人类操作员直接控制,数据采集成本较高;并且单纯依靠遥操作无法实现机器替人。
2.动捕
动捕能够将人类动作直接迁移到机器人身上,但同样无法真正实现机器替人。动捕一般是由演示人员穿好动作捕捉套装,衣服上的电位器通过数据线和电脑相连接,因此演示人员的的全身运动数据会被记录下来,供机器人学习。特斯拉在2023年股东大会上展示Optimus的进展时,视频中工作人员穿戴动捕服进行演示,人类的动作能够直接迁移到机器人身上,机器人再通过传感器收集数据,以达到输入的目的。动捕的优势在于人类的动作能够直接迁移到机器人身上,在实际训练中,动捕往往与遥操作结合使用,因此尤其适合人形机器人训练。但与遥操作类似,单一动捕无法真正实现机器替人。
3.大模型
大模型具备较强泛化性,仿真数据有望大范围应用。谷歌RT采用该种技术路径。谷歌在RT-1和RT-2的框架上使用X-Embodiment数据集进行训练,该数据集包含在22个机器人上采集的能够完成16万个任务的上百万条数据。其中,RT-1充当小脑层级的控制器,由大模型负责顶层理解和指令分解,例如打开抽屉、将物体从抽屉里拿出来等。RT-2采取端到端路径,将语言、动作tokens进行对齐,微调后得到VLA模型,使得模型能够通过视觉输入和语言指令生成正确的动作标记序列。大模型使机器人从Model-Based向Learning-Based转变,在解决复杂和高维度的运动控制问题上具备更高的上限。但是大模型的训练需要海量数据,按数据来源分类,可分为真实数据和仿真数据。真实数据效果最好,但需要耗费大量人力和硬件成本。仿真数据成本低,可以大规模获取,但通常存在sim-to-realgap。
4.CAE用于工业仿真模拟,国产化率正快速提升
CAE属于研发设计类软件,用于工业仿真模拟。CAE软件分为前处理、求解器和后处理三大模块,其中求解器为CAE软件的核心。前处理过程中,用户在GUI为求解器提供/生成实际的几何模型和空间网格,选择物理模型和数值求解算法及其参数,并根据实际工况设置求解的边界条件;求解器是针对特定场景,如结构变形、液体流动等,用数字算法模型的方式实现对物理规律、数学原理的客观还原;求解结束后,后处理模块为客户提供可视化界面,对模拟结果进行提取、分析和多方式展示。
跨学科能力不断增强,国内市场规模快速增长。CAE软件集成了物理学、数学、计算机科学和工程学等多领域的知识,随着其跨学科融合能力的不断增强,CAE软件能够处理多物理场耦合问题,并提高产品研发的效率,并通过模拟和分析来优化设计来减少实际制造过程中的迭代次数。从而在汽车、航空航天、国防军工、电子装备等高端制造业中得到更为广泛的应用。根据IDC的中国核心工业软件市场预测,中国CAE软件市场规模将从2021年的32.1亿元增长到2026年的74.8亿元,5年复合增长率达到18.4%。
专用领域抢占市场份额,国产化率快速提升。目前CAE软件国产化程度较低,根据IDC的《中国设计研发类工业软件之CAE市场厂商份额,2022:流水争先》,2022年市场份额排名前三分别为Ansys、西门子和达索系统,均为国外厂商。但由于CAE软件涉及结构、流体、电磁、噪声等各类不同专业领域,头部厂商很难拥有全物理场的通用仿真产品,国产厂商加大投入,从专用领域抢占市场份额,国产化率持续提升。根据智研咨询的计算,CAE国产化率从2016年的7.0%增长至2022年的16.2%,同比增加9.2Pcts。
柔性、流体仿真具备较高技术壁垒。流体等具有高度的非线性特性,因此其运动和变形模式较为复杂,难以用简单的数学模型来描述;而柔性物体在受力作用下可能会发生大变形,因此需要仿真模型能够准确捕捉到这些变形,传统的小变形理论可能不再适用。因此在进行柔性、流体仿真时,对于算法的稳定性和收敛性大幅提升。国内厂商如索辰科技在流体领域具备深厚技术积累,其Aries通用流体力学仿真软件包含笛卡尔网格CFD、非结构网格CFD等多种求解器,支持气动噪声、燃烧、多相、热辐射等多物理场仿真计算,已为航空航天、船舶海洋等领域提供多个解决方案。
05
智能体赋能机器人
1.搭载智能体后机器人有哪些能力方面的提升
(1)由智能体赋能的机器人以任务完成为导向,相比传统机器人大大减少了编程的需要
传统模式下,机器人以程序执行为导向,通常需要经过任务定义、将任务分解为动作、编写程序以及执行任务等流程。工程师需要构建高低级指令代码,并且随时更改代码以修正机器人行动,整个过程耗时长且成本昂贵。而搭载智能体的机器人以任务目标为导向,不仅仅是机械地完成程序。具身的智能体可以根据环境变化,对行动细节进行实时修正,其自主学习能力能够消除在特定条件下为特定任务反复编程的需要。
微软在相关研究中提出,大语言模型(LLM)能给机器人提供常识,非工程师也可对机器人进行控制。操控者只需准备好机器人底层的函数库,并对其进行描述。将任务目标告诉ChatGPT后,ChatGPT即可自动完成代码并应用在具身智能机器人上。以居家机器人为例,设计者只需写出机器人进行物品定位、移动到某一位置、抓取物体以及做饭的函数库,然后告知ChatGPT相应函数的作用以及要到达的目标,ChatGPT就会自动写出相应代码。
(2)搭载智能体后机器人涌现能力显著提升,可完成没有预先编程的新场景
2023年7月谷歌DeepMind推出机器人模型RoboticsTransformer2(RT-2)。RT-2以视觉-语言模型(VLMs)为基础,以Path ways Language and Image model(PaLI-X)和Pathways Language model Embodied(PaLM-E)为支柱,通过输入图像生成一系列自然语言文本的标记。RT-2可用于执行视觉问答、图像字幕或对象识别等任务。RT-2展现了较好的涌现能力,即从原始训练数据中自动学习并发现新的、更高层次的特征和模式的能力。
在谷歌具身智能试验中,机器人对从未见过的对象或场景上执行操作任务,在仅依据网络数据知识的情况下,机器人可完成诸如“拿起即将从桌上掉下来的袋子”或“将香蕉移动到2加1的和”等任务。实验结果显示,RT-2对于未曾见过的情景的平均成功率达60%,相比RT-1提升了3倍以上。
2.智能体使机器人由被动编程控制走向主动决策
由专机专用走向通用智能,大模型有望实现机器人系统的重构。2010年以前,机器人更接近于专机型的自动化和智能化设备,以特定的机械结构解决针对性场景的作业问题,适用于相对单一、固定的结构化场景,泛化和迁移能力有限。并且由于机器人缺乏对于任务目标的深入理解,工程师需要进行大量的任务分解和编程工作,机器人的控制高度依赖人工编程。而且当任务对象或环境发生任意变化时,需要工程师重新对机器人进行编程和部署。
2010-2022年间,机器人开始拥有初步的感知和规划能力,并逐步实现智能化。这一阶段,机器人在以下几个方面实现了单点突破:SLAM技术与激光雷达结合产生了自主移动能力的AGV(自动引导车)和AMR(自主移动机器人);2012年全球首家轻量级协作机械臂优傲(Universal Robots)进入中国市场,协作机械臂开始兴起;结合AI与3D视觉技术后,机器人能够自动进行物体识别和定位,规划最优路径,实现了上下料、拆码垛、无序分拣、焊接等非标自动化场景的人工替代。
2022年后,大模型逐步与机器人结合。不同于上个阶段的单点性驱动,大模型所展现的泛化能力有望对机器人感知、决策、控制的整体系统能力带来全面重构,实现机器人的通用化。
大模型与机器人快速融合。2022年8月,谷歌PaLM-SayCan首次将语言模型与物理机器人结合,通过预训练在大型语言模型(LLM)中提取知识,让机器人依据高级文本指令完成物理任务。随后,机器人与大模型的融合逐步加深。2023年7月,谷歌Deep Mind推出了RoboticsTransformer2(RT-2),是全球第一个控制机器人的视觉-语言-动作(VLA)模型。RT-2可使机器人直接通过拍摄或感知环境的方式获取视觉信息,并理解人类语言指令,然后通过动作执行模块进行相应的动作操作。2024年3月,Figure发布OpenAI大模型加持的机器人Figure01,Figure01采用端到端神经网络,由OpenAI大模型提供高级视觉和语言智能功能,神经网络进行底层的控制,能够与人类进行对话交互,理解并执行人类指令。
大模型使智能体由被动编程控制走向主动决策。与智能体结合后,具身智能以任务目标为导向,不仅仅是机械地完成程序,其可以根据环境变化,对行动细节进行实时修正,并消除在特定条件下为特定任务反复编程的需要。依托大模型的涌现能力,具身智能能够从原始训练数据中学习并发现新的特征和模式,在仅仅依靠网络数据知识的情况下就可以对从未见过的对象或场景执行操作任务。以微软《ChatGPT for Robotics: Design Principles and Model Abilities》为例,操控者只需准备好机器人底层的函数库,并将任务目标告诉ChatGPT,ChatGPT即可自动完成代码并指挥具身智能机器人行动。
3.智能体可实现机器人底层控制
智能体对机器人进行控制主要分为两种路径,一种是分层决策模型、二是端到端的具身模型。
分层框架的核心是将复杂的长时程任务拆解成可以直接完成的小任务。与机器人结合的大模型可分为两类:Foundation Models for Robotics和Robotics Foundation Models。前者可与机器人结合但其应用领域并不局限于机器人,其主要功能是作为“大脑”对机器人进行任务分解和规划。后者是结合机器人数据训练生成到小脑层的基础模型,即机器人具身大模型,其作用是结合各种传感器的信息以及宏观指令进行运动指令生成。
以擦桌子为例:机器人接到任务后,首先将其拆解成一系列的子任务,即找到抹布、拿起抹布、擦桌子……传统的任务规划通常由工程师来进行,而大模型由于具备高层次抽象能力,可直接实现机器人的任务定义、拆解,使其实现自主任务规划。任务分解完成后,需要对机器人进行动作轨迹规划,例如从A点到B点进行10次圆周运动。传统控制通过直接驱动或电机控制来实现基础动作控制,需要工程师进行编程,而神经网络可以直接使用机器人编程语言完成应用程序的编写、调优和部署。
区别于分层架构,端到端大模型能够直接输出控制信号。以谷歌的RT-2为例,RT-2是视觉-语言-动作(VLA)模型,能够从网络和机器人数据中进行学习,并将这些知识直接转化为机器人控制的通用指令。RT-2以视觉-语言模型(VLMs)为基础,VLMs在web-scale数据上进行预训练,能够准确识别视觉或语言模式并跨不同语言进行操作。在此基础上,谷歌将动作表示为类似于语言标记的标注,以实现在机器人数据上训练VLM模型。RT-2能够理解复杂的指令并将其转化为机器人的动作,其接收机器人摄像头图像作为输入,直接预测机器人要执行的动作,实现了从视觉到动作的端到端控制。
端到端的架构具备更好的泛化性,分层架构可解释性更强。RT-2能够处理机器人数据中从未见过的对象或场景,例如执行“拿起即将从桌子上掉下来的袋子”或“将香蕉移动到2加1的和”等。但端到端需要构建海量数据训练,且消耗大量计算资源。数据规模越大,调用大模型频率就越高,机器人决策实时性效果越差。分层架构可将复杂的问题分解为更小、更易于管理的部分,相比端到端技术难度更低,并且系统拥有更好的可扩展性和可维护性。但是其信息在不同层级之间传递时有可能会存在损失,因此会影响系统的整体性能和响应速度。
参考自动驾驶发展路径,在早期机器人数据不足的情况下,分层架构发展更为迅速。自动驾驶属于具身智能子集,是具身智能移动能力的体现。在自动驾驶初期发展阶段,分模块快速发展,在这种技术范式下,感知、决策、控制由开发人员各自完成,具备更强可解释性。而端到端虽然以全局最优为导向,相比传统分模块的方式具备更高性能上限,但实现难度较高,且需要海量数据做支撑。
06
智能体市场前景及产业端变化
1.蓝海市场前景广阔,5年市场规模复合增速有望超50%
具身智能体市场空间广阔,5年市场规模CAGR有望超50%。智能体目前仍处于发展初期阶段,其与机器人、自动驾驶、智能传感器和智能设备、增强现实(AR)和虚拟现实(VR)等多个行业相关,市场空间广阔。以人形机器人市场规模进行参考,据Markets and Markets测算,到2028年全球人形机器人市场规模将达到138亿美元,复合增长率预计为50.2%。
政策密集催化。2023年以来,多项智能体相关政策陆续发布。5月,北京市发布《北京市促进通用人工智能创新发展的若干措施(2023-2025年)(征求意见稿)》,提出要探索具身智能、通用智能体和类脑智能等通用人工智能新路径。同期,上海发布《上海市推动制造业高质量发展三年行动计划(2023-2025年)》,提出要瞄准人工智能技术前沿,建设国际算法创新基地,加快人形机器人创新发展。湖北、深圳、广东等省市纷纷加快布局,促进产业高速发展。政策带动下,智能体产业进入快车道。
2.产业端加速落地,Gemini有望接入机器人
英伟达推出多模态具身智能系统NvidiaVIMA。英伟达创始人黄仁勋在ITFWorld2023半导体大会上表示,AI下一个浪潮将是“具身智能”,具身智能将开启新的应用和市场,如智能机器人、智能医疗、智能教育等。目前英伟达已推出多模态具身智能系统NvidiaVIMA,并在NVIDIAAI上运行。NvidiaVIMA能在视觉文本提示的指导下,执行复杂任务,如在虚拟环境中搭建乐高积木、在真实环境中操作机器人手臂等。
谷歌打造“通才”AI模型PaLM-E。3月,谷歌联合柏林工业大学团队发布PaLM-E(Pathways Language Model with Embodied),参数量高达5620亿。PaLM-E是PaLM-540B语言模型与ViT-22B视觉Transformer模型的结合,它基于谷歌现有的“PaLM”大语言模型(类似于ChatGPT背后的技术)。谷歌通过添加感官信息和机器人控制,使PaLM“具身化”。PaLM-E可以连续观察图像信息或传感器数据,并将它们编码为一系列与语言标记大小相同的向量,使得模型以与处理语言相同的方式“理解”感官信息。同时,PaLM-E还借鉴了谷歌之前在ViT-22B视觉Transformer模型上的工作。ViT-22B接受过各类视觉任务的训练,如图像分类、对象检测、语义分割和图像字幕。作为多模态具身视觉语言模型(VLM),PaLM-E不仅可以理解图像,还能理解、生成语言,还可以执行各种复杂的机器人指令而无需重新训练。
当被要求执行“把抽屉里的薯片拿给我”的任务的时候,PaLM-E首先对机器人相机的数据进行分析,而非对场景进行预处理(消除了人类预处理或注释数据的需要),以实现更自主的机器人控制。随后PaLM-E引导机器人从厨房取出薯片袋,当研究人员从机器人拿走薯片后,机器人仍然能找到薯片并再次抓取它们。
Gemini具备强泛化能力,有望成为机器人智能体。12月6日,谷歌原生多模态大模型Gemini发布。Gemini可泛化并无缝理解、操作和组合不同类型的信息,包括文本、代码、音频、图像和视频。它包括三种量级:能力最强的GeminiUltra,适用于多任务的GeminiPro以及适用于特定任务和端侧的GeminiNano。其中Ultra版可用于大型数据中心等,属于处理高复杂度任务的模型;Pro版则用于各种扩展任务,属于日常使用模型,目前已搭载于谷歌的对话机器人Bard中;Nano版则是应用于智能手机等移动设备终端上的模型。与BERT等模型相比,Gemini具有更多的参数和更深的网络结构,此外Gemini还采用了更先进的训练方法,例如知识蒸馏和自监督学习等,模型泛化能力显著提升。在GLUE和SQuAD等多项自然语言处理基测试中,Gemini分别取得了94.1%和93.3%的准确率。谷歌人工智能高管哈萨比斯在接受杂志Wired采访时表示,谷歌DeepMind已经在研究如何将Gemini与机器人技术结合起来,与世界进行物理互动。
阿里千问大模型有望接入工业机器人。在第六届数字中国建设峰会上,阿里巴巴董事会主席兼CEO、阿里云智能集团CEO张勇透露:阿里云工程师正在实验将千问大模型接入工业机器人。接入千问大模型后,在钉钉对话框输入人类语言,操作者即可远程指挥机器人工作。通过钉钉对话框向机器人发送“我渴了,找点东西喝吧。”的指令后,千问大模型在后台自动编写代码发给机器人。机器人对周边环境进行识别,在找到水后,自动完成移动、抓取、配送等一系列动作,并顺利递送给工程师。
国内首款开源鸿蒙机器人发布。12月5日,国内首款可跳跃的开源鸿蒙人形机器人在深圳发布,该款机器人人形机器人KUAVO(夸父)由乐聚自主研发,重量约45kg,全身自由度26个,步速最高可达4.6km/h,快速连续跳跃高度超过20cm,是国内首款可跳跃、可适应多地形行走、并且可实现量产的开源鸿蒙人形机器人。目前,夸父已进入全面量产阶段,并在科研教育和特种作业领域率先实现商业化落地。乐聚机器人也有望因此成为国内首家实现大机器人量产交付单位。
07
智能体相关公司
国内智能体相关公司涵盖了多个领域,包括华为、中科曙光、软通动力、星火智能体、达闼、宇树科技、优必选等在自动驾驶、机器人、财税、教育、影视动画等行业的龙头企业。这些龙头公司在智能体的技术研发、商业化落地和应用场景扩展方面都展现了较强的实力和潜力。
1.中科曙光
中科曙光:背靠中科院,核心信息基础设施领军企业。中科曙光隶属于北京中科算源资产管理有限公司,实控人为中国科学院计算技术研究所。随着1990年863计划的推出,公司于1993年研发出国内首台全对称共享存储多处理机系统曙光一号,1996年曙光公司成立并发布计算机系统曙光1000,2014年中科曙光在上交所上市。目前,公司脱胎于高性能计算机产品,在高端计算、存储、安全和数据中心等领域积累了深厚的技术实力和市场份额,成长为全产业的高端计算服务生态。
中科曙光主营业务主要分为两部分:IT设备(高性能计算机、存储产品)和围绕高性能计算机的软件集成、系统开发及技术服务。
中科曙光通过其新一代工业仿真云平台“力源•久宇”,为智能体的生成式模型训练提供数据仿真支持,尤其是在自动驾驶和机器人等领域。
2.软通动力
软通动力:从IT服务到软硬一体战略,致力提供一流全栈服务。公司业务始于IT服务,前身软通科技成立于2001年,软通动力于2005年注册成立,2006年与华为展开合作,2013年与华为成立合资公司,不断提升IT技术与服务能力,2022年在A股上市,2024年公司收购同方计算机和同方国际,致力于转型成软硬一体全栈化服务提供商。
并购前,软件业务主要分为:通用技术服务、数字技术服务、咨询与解决方案、数字化运营服务。24年2月完成同方计算机收购后,构建计算产品与数字基础设施业务板块,并将数字能源与智算服务作为新兴业务长期布局。
软件与数字技术服务业务为公司基本盘,覆盖科技、制造、互联网、金融等多个领域。依托多年的行业深耕、积累和沉淀,公司持续为ICT、互联网与运营商、金融科技、高科技与制造等多个重点行业客户,提供以咨询及解决方案为核心的软件与数字技术服务,构建了从咨询与解决方案、数字技术服务、到通用技术服务、数字化运营服务等全方位的服务体系。公司软件与数字技术服务业务覆盖咨询与解决方案、数字技术服务和通用技术服务三大方向。
软通动力推出了iSSMeta数字仿真推演平台,支持智能体在多个领域的应用,尤其是在自动驾驶和机器人等场景中的数据仿真需求。
3.索辰科技
索辰科技是一家专注于CAE仿真的厂商,其在柔性、流体仿真等技术方面具有优势,相关技术将为具身智能的训练和商业化落地提供支持。索辰科技也被建议关注其在智能体商业化路径上的表现。
深耕CAE赛道近20年,多领域具备完善产品线。索辰科技成立于2006年,是国内首家CAE(Computer aided engineering,计算机辅助工程)软件上市公司,于2023年4月在科创板上市。公司是国产仿真软件龙头,主要为航空航天科技等央企重工客户及科研院所等提供工程仿真软件及仿真产品开发服务,其中工程仿真软件包含单一学科仿真软件(结构、流体、声光电磁、测控等领域)、多学科耦合仿真软件、工程仿真优化产品等标准软件产品(2019-2022年毛利率在95%以上);仿真开发服务则涵盖仿真-试验融合验证系统、高性能计算平台、工业仿真云平台、定制仿真软件开发四部分偏项目制业务(近三年毛利率在30%左右);2022年收入2.68亿元,归母净利润0.54亿元。
工程仿真软件齐全,产品力持续升级。在工程仿真软件领域,公司主要产品包括流体仿真软件Aries、结构仿真软件Virgo、电磁仿真软件Polaris、声学仿真软件Taurus、光学仿真软件Somap等单一学科仿真软件(2021年占工程仿真软件板块收入的61%),基本覆盖主要下游应用场景;同时提供热-结构耦合、热-流体-结构耦合、热-结构-光学耦合等多学科仿真软件(2021年占工程仿真软件板块收入的32%);还提供部分工程仿真优化产品(2021年占工程仿真软件板块收入的7%),主要实现需求分析、指标分解、数据管理、知识管理、制造系统管理等功能。
仿真开发服务有力补充收入,有望孵化标准软件。在标准化软件之外,公司依靠自有的仿真软件进行二次开发和软硬件集成,为客户提供相对定制化的解决方案,其中包括:1)仿真-试验融合验证系统,即软硬件结合的仿真验证平台;2)高性能计算平台(HPC),为客户开发仿真软件运行的高性能计算环境;3)工业仿真云平台,即以云服务的形式提供仿真分析需要的CAE软件、高性能计算&存储&网络资源;4)定制化仿真软件开发,即根据用户实际需求定制开发前后处理、求解计算模块。我们认为仿真开发服务是公司收入的有力补充,而定制化的仿真软件有望在不同客户中实现复用,并逐渐沉淀为新的标准化软件。
成立机器人事业部,推出六维力学传感器,已具备成熟应用。据公司官方公众号发布,索辰于24年2月成立机器人事业部,并成立于此前与上海智籍机器人共同成立子公司索辰仿真,并计划推出高性能六维力与力矩传感器,满足人机器人指尖、手腕、脚腕等力测量需要,并在人形机器人上开展实际应用。六维力传感器按照原理分为多种类型,不同类型优势各不相同。目前主流方案为应变传感器,全球领先的ATI及索辰科技均主要采用此方案。
上海交大高峰教授实验室为基础,实现科研成果转化的重要途经。据索辰科技官方公众号,高峰教授将担任索辰机器人首席科学家,高教授担任上海交大机械系统与振动国家重点实验室主任,长期从事机器人学研究数十年,此前研发的滑雪机器人、六足机器人已在多领域实现应用。
ATI目前全球领域有优势,索辰产品精度已经达到全球先进水平。ATI总部设在加拿大,目前是较为领先的六维力学传感器供应商,其原理为应变式。根据官网介绍,ATI的力/力矩传感器被广泛的应用与各个工业领域,如产品测试,机器人装配,打磨和抛光等;在研究领域被用于外科手术机器人,仿生机器人,康复机器人,以及神经学等其他不同的应用中。
08
智能体未来发展展望
未来多方面推动人工智能发展,应用级别智能体有望快速落地。国内各地相继出台关于人工智能的发展政策,推动其为重要的研究方向。预计2026年国内人工智能市场规模超过260亿美元,全球人工智能市场规模2025年超6万亿美元。海外以美国为例,相关政策出台时间较早,人工智能领域发展更加成熟,许多智能体应用已在服务各类企业。并且美国有意与人工智能强国组成战略伙伴,共同发展AI科技。
多模态大模型利用异构数据提升应用效率,促进AI Agent发展。将智能体赋能于图片+语音的多模态大模型中,可以减少使用工具和交互的过程,使智能体完成更多复杂任务,解决跨行业、跨领域的问题。智能体发展能推动政府、金融、制造、能源、医疗、零售等行业的智能化应用向多模态和跨模态转变。
1.海内外政策推动人工智能发展加速
多地陆续出台关于人工智能发展的指导文件,2024年政府与企业的投入资金有望迎来大幅增长。国务院在《2024政府工作报告》中提出,要开展“人工智能+”行动,实施数字化转型。智能体作为人工智能应用领域的重要研究方向,相信众多企业和研究部门会开展更多研究工作。另外,像上海、杭州、广东、北京等省市也出台了相关政策,其中杭州市推出“算力券”约2.5亿用于支持本地的算力发展。广东省也将算力作为重点发展方向,预测2025年的人工智能核心产业规模超过3000亿元。
中国人工智能市场份额稳定增长,未来AI实体项目增多利好智能体发展。根据IDC预测,国内人工智能市场规模预计在2026年达到264.4亿美元,2021年到2026年期间的CAGR超20%。根据增长率计算,从2022年开始,每年市场规模会保持20%左右的稳定增长态势。根据澎湃新闻援引德勤统计,未来2025年世界人工智能市场规模将超过6万亿美元,2017年-2025年期间复合增长率将超30%。AI高速发展中或利好更多实体企业,专门提供智能体产品服务的厂商规模也将快速扩张。
美国相关政策落地较早,人工智能发展已成规模。在2021年3月,大模型还未进入公众视野时,美国人工智能国家安全委员会已经发布了对该领域未来发展的规划。文件中写到了美国坚定在人工智能领域的投入,且规定了研发投入资金的比重。另外,在2023年5月,美国白宫发布《国家人工智能研发战略计划》,对之前提出的8项重点战略目标进行了优化和完善,同时强调了人工智能领域国际交流的重要性。另外,文件还对比了2020年发布计划中的各项指标与实际指标差距,并针对细分领域加强研发投入。
美国增强型人工智能投资研发保持高增速,AI战略联盟强大。2024年美国在该方面的投入预计为15亿美元,NSCAI希望在2025年把这一数字提高到80亿美元,增幅高达433%。且在2025年之后,保持每年投入增长80亿美元的趋势。最高预计在2030年投入高达350亿美元。美国强调了AI盟友的概念,与澳大利亚、加拿大、英国、日本等国家构建人工智能战略伙伴关系,未来将会吸引更多AI强国加入联盟当中。
2.算力规模高增,企业对AIGC的投入意愿强
2021年中国的智能算力规模为155.2EFLOPS(每秒百亿亿次浮点运算)。据IDC预测,规模将在2026年达到ZFLOPS级别(每秒十万亿亿次浮点计算)。预计在2021-2026年期间,智能算力增长的CAGR为52.3%。随着算力规模的大幅增长,将会带动AI技术快速发展。根据中国信通院的测算,每在算力中投入1元,将带动3-4元的经济产出。在智能体发展中,更强的算力能支持更复杂的模型计算并且给予其更快的响应速度。当大模型能快速迭代,AI Agent将会有更强力的基座,相同运行模式下或能显著提升F1-score和Recall水平。
根据IDC统计,2023年已有34%的企业在AI中的投入已见成效,AI能力正在稳步发展。AI Agent目前多为企业自研,仅有少部分企业将Agent融入真正工作中,若AI Agent能在未来用低成本撬动高效益,则会引起越来越多的企业重视。定制化AI Agent或成为一片蓝海市场,拥有成熟技术和一揽子解决方案的企业能占据大量市场份额。
风险投资青睐的智能体初创企业聚焦于横向应用领域,广泛涉及销售、客户支持及企业级与常规生产力工作流程优化。当前市场上专注于垂直行业特定应用的初创公司仍属少数,大部分代理技术开发的新兴企业主要面向企业客户,而非个人消费者。这些Agent初创公司希望用技术取代SDR、软件工程师、合规分析专家、客户服务专员等多个职位的职能。这一趋势的影响力将极为广泛且深远,不仅限于日常工作中对公司员工的增加或取代,更会改变公司面向外界客户的交互形象,或使企业的运营方式与客户体验发生改变。
3.多模态智能体有望实现大规模商业化
多模态大模型能利用大量异构的数据资源提升应用的效率和能力上限,同时也利好AI Agent发展。多模态的概念或能提高智能体的工作效率,例如将其赋能于一个能形成图片+语音的多模态大模型中,单个智能体能完成更多复杂的任务,有效的减少智能体数量和任务中的交互次数。多模态智能体有望解决跨行业、跨领域的复杂问题和各类长尾场景。
目前,研究开发的核心领域已经包括多模态信息识别与理解技术以及群体智能技术,这些将有望加速人工智能从感知向认知的转变。这些技术成果还能够解决其他单项技术领域(如自然语言处理和计算机视觉)所面临的瓶颈问题,例如视觉领域的盲区和遮挡问题。此外,自动驾驶的激光点云、时空感知与测绘信息等更多类型的模态数据也将被整合到大模型中。未来,政府、金融、制造、能源、医疗、零售等多个行业的智能化应用将逐步转向多模态和跨模态的形式。
4.全球智能体市场增速加快
根据markets and markets的数据显示,2019年全球自主智能体(Autonomous Agent)市场份额为3.45亿美元,预计2024年将达到29.92亿美元,期间CAGR为54%。机构预测2023年全球自主人工智能和自主智能体的市场规模在2028年能达到285亿美元,期间CAGR为43%。智能体的需求增长迅速,企业希望用到最先进的AI科技来实现快速创收,未来智能体软件公司有很高发展潜力。
各行业用户正积极探索生成式AI的应用场景,开发数字化产品和服务,挖掘数据要素的潜在价值,并尝试智能化商业模式。根据IDC的数据,软件和信息服务、银行以及通讯行业在人工智能方面的投资最为突出,预计到2027年,这三大行业的投资占比分别为23.8%、9.7%和9.4%。IDC的调查显示,近一半(43%)的受访组织正在研究生成式AI的潜在应用,其中2023年有55%的金融机构和电信公司投资了生成式AI技术。这些技术正在帮助金融和电信行业提升反犯罪和监控能力,提供个性化的投资建议,并减少人工成本。
5.智能体的商业化将迎来新的突破
未来智能体(AI Agent)的前景十分广阔,通过多模态大模型,智能体能够整合图片、语音等异构数据,提高任务处理效率,并解决跨行业、跨领域的问题。技术方面,智能体具备长期和短期记忆、自主规划、工具使用和自动执行任务的能力。这些能力不仅能提高工作效率,还能为用户提供更好的体验。单智能体通过试错学习适用于简单任务,而多智能体则在复杂环境中通过合作或竞争调整最佳策略。
智能体将从概念走向实际应用,成为各行业的重要助力。当前,智能体主要应用在自动化和情感需求等领域,但商业化进程仍面临成本挑战,特别是在智能体交互过程中出现的错误循环和高token消耗问题。中国政府积极推动人工智能的发展,各地相继出台相关政策,预计到2026年,中国人工智能市场规模将超过260亿美元,将在政府、金融、制造、能源、医疗、零售等多个领域实现智能化应用。
结合中国政策对人工智能和算力的发展,未来智能体技术有望在国内迅速落地并大规模应用。国内政策的支持和企业的积极投入,将推动智能体技术不断进步,特别是在算力快速增长的背景下,AI Agent的发展前景更加可期。多模态智能体的出现,将进一步推动各行业智能化应用的升级,智能体的商业化将迎来新的突破。
09
参考研报
慧博财经
微信号【 huiboinfo】