1、“具身智能”是一个涉及人工智能、认知科学和机器人学的概念,通俗解释就是将AI植入到各种机器人上,让机器人可以对周围环境变化做出感知,并且做出相应决策。其外形可以是任意有形的实体。
2、相较于传统算法模型的局限性,以大模型为核心的人工智能赋予机器人泛化能力,打开了机器人通用的大门。但受限于数据量级不足,分层端到端大模型是现阶段的主流方案,在模仿学习和强化学习等学习框架下,基于仿真环境、真实世界数据以及混合数据源进行学习有望解决数据量级不足的难题。
3、人形机器人作为最适合人类环境的机器人外形,是具身智能的最佳载体。在大模型的加持下智能水平快速提升,正处于从0到1的产业化关键阶段,有望带来千亿级新蓝海市场。
根据中国计算机学会专家的定义,具身智能(Embodied Artificial Intelligence, EAI)是指一种基于物理身体进行感知和行动的智能系统,其通过智能体与环境的交互获取信息、理解问题、做出决策并实现行动,从而产生智能行为和适应性。简单来说,具身智能一般由“本体”和“智能体”构成,其中机器人本体在物理环境或者虚拟环境中进行感知和任务执行,智能体具身于本体之上的智能核心,负责感知、理解、决策和控制,二者耦合形成能够在复杂环境中执行任务的智能系统。具身智能的外形可以是任意有形的实体,包括人形机器人、机器狗、自动驾驶汽车、迎宾/扫地机器人、机械臂等等。
具身智能的主要产品类型
资料来源:《2024年具身智能产业发展研究报告》,36氪
智能体作为具身于本体之上的智能核心,技术实现通常基于深度学习、强化学习等先进算法,能够处理复杂的传感数据,提取信息,并生成控制指令。想要做到像“人”一样,需要成熟的感知系统基础、强大的算法分解任务和规划动作、大模型不断仿真训练以及超强的算力支撑,同时要求算法与硬件相匹配。
过往软件层面的局限限制了机器人的通用化能力。过往在软件层面只能通过针对某一个特定领域训练对应的基础模型,形成能够满足特定用途的机器人AI算法,比如工厂车间大量采用的机械臂、家用扫地机器人等。而无法做到根据用户实时下达的指令,实时编写出完成指令所对应的程序并执行各种任务。软件层面的局限性使得机器人只能用于具体的某个场景中,难以进行拓展,通用性较差。
大模型的强大泛化能力为机器人实现通用打开了大门。泛化可以理解为一种迁移学习的能力,把从过去的经验中学习到的表示、知识和策略应用到新的领域。大模型具备较强的自然语言处理等能力,可以有效帮助机器人理解任务内容,然后将任务拆解,最后编程执行,完成任务。这意味着实时编程成为可能,大模型在没有被训练过的场景中也表现出色,使机器人实现通用变为可能。以人形机器人为例,其所面临的应用场景与人类的日常生活接近,需要面对多种多样、不重复、没见过的任务,算法模型的泛化能力就成为了其能否真正实现通用的核心要素。比如,通过遵循设计的原则,OpenAI的ChatGPT可以为机器人场景生成代码,而不需要依赖工程师编写和迭代代码。因此无需任何微调,用户可以利用大模型的知识来控制不同形状的机器人来执行各种任务。
1、分层端到端大模型是具身大模型现阶段的主流
大模型可以分为非具身大模型、具身智能大模型(又叫做机器人大模型)。它们的区别是能否生成运动姿态(例如夹爪的末端位姿等),即是否能跟物理机器人联系起来。
从技术路线来看,具身大模型算法方案大致有两类:一类是端到端大模型,输入是图像及文本指令,输出是夹爪等末端动作。直接端到端地实现从人类指令到机械臂执行,以谷歌RT2为代表。另一类是分层端到端大模型,将任务分解成不同层级,以多个神经网络训练,再以流程管线的方式组合。大多数机器人公司采取该方案,包括Tesla FSD、Figure AI、银河通用、智元机器人等。如Figure 01顶层接入OpenAI的多模态大模型,提供视觉推理和语言理解;中间层神经网络策略作为小脑进行运动控制并生成动作指令;底层机器人本体接受神经网络策略的动作指令,进行控制执行。
端到端大模型同时训练决策和操作,直接端到端地实现从人类指令到机械臂执行,其特点有:(1)需要大量真实长任务数据才能有效,且要覆盖所有可能的任务,所需数据量估计达到万亿级别。如谷歌RT模型花费上千万美金、16个人耗时17个月收集得到13万条厨房数据训练RT模型,模型在厨房表现很好,但在厨房外的场景中成功率却骤降至30%。主要是由于机器人的物理数据不如互联网图像/文本数据那样大量且易得,所需数据量比单一自动驾驶任务也大很多。(2)推理速度慢。RT2采用谷歌PaLM-E大语言模型,频率1-3Hz,响应速度0.3s-1s。在移动马克笔的任务中,因为其运控速度远低于马克笔的滚动速度而失败,并且其生成的运动指令只是机械臂的末端位置和姿势,未涉及传统机器人运控范畴。
由于端到端大模型的局限性,目前大多数机器人公司采取分层端到端的方案,该方法需要的训练数据相对较少。多层端到端大模型的上层是多模态通用大模型如GPT-4o,可以调度中间技能API来实现从任务的感知、规划到执行的全流程。中间层是任务/运动规划模型,通过数据训练泛化技能,包括自主建图、自主导航、物体抓取、开门开抽屉、移动操作、挂衣服叠衣服柔性物体操作等。底层是硬件驱动执行算法,实现机器人的平衡,实时精准的运控。
分层端到端大模型
资料来源:国泰君安证券
以Figure 01为例,Figure 01机器人采用了VLM(感知+规划决策模型)+控制小模型方案。VLM部分由OpenAI赋能提供语言和视觉理解能力,频率达到200Hz。Figure AI则提供了下游的机器人运动控制小模型指令,生成速度达到1kHz,可以较好应用于现实场景,包括响应人类想吃东西的问题时递过去苹果,然后一边将黑色塑料袋收拾进框子里一边解释递苹果的原因。国内银河通用也采取分层大模型系统,底层是硬件层,中间层是响应快的小模型,上层是用来做推理和任务规划的大语言模型LLM。当机器人得到指令,大语言模型LLM负责分析和安排调度小模型API进行执行,然后LLM分析结果,研究进一步行动。
资料来源:量子位智库、国泰君安证券等
在数据量级不足的当下,分层端到端具身大模型可能是较为切实的选择。机器人公司需要做好动作小模型,因为小模型在单一任务上的数据需求远小于大模型,当企业在抓取、放置、柔性物体操作、关节类物体操作等小模型上做得足够好,并在某些场景实现大规模商业应用,获取大量数据及启动数据飞轮后,或许可以进一步迈向端到端具身大模型。
2、学习框架:模仿学习与强化学习
学习进化框架是具身智能实现持续进步和适应性的关键。它允许智能体通过与环境的交互来不断学习新知识、优化决策策略并提高任务执行效率。
在深度学习范式下,具身智能学习框架主要集中在模仿学习和强化学习两大块。模仿学习通过采集特定任务的轨迹数据集并用深度神经网络来拟合状态或观测(如第一视角的图像)的时间序列到动作的映射来实现技能的学习,一般来说数据采集成本较高。强化学习则是让智能体与环境直接交互,在交互的过程中优化预先定义好的与特定任务相关的奖励函数来学习新技能,一般来说奖励函数的设计需要反复迭代。
相较于模仿学习对精选数据的要求,强化学习方法则不需要人为构造复杂数据集来学习策略,而是只需要与环境交互,并通过优化奖励函数在线地学习策略。强化学习(尤其是无模型强化学习)由于无法直接获取环境动力学的梯度信息,在样本效率方面往往比模仿学习低几个量级,对于学习在物理环境中运行的策略,这样低效的学习方式是不现实的。通常有两种解决方案:一种是构建一个与真实环境类似的模拟器,在模拟器中使用大量数据学习到一个策略,然后在真实环境中零样本泛化或在线微调。另一种方案是学习一个关于环境的模型,并利用学到的模型来生成学习数据,从而极大减少对真实环境数据的需求,有研究者使用该种方法让机械狗仅仅通过与真实物理世界交互1小时就学会走路并抵抗外界的干扰。
然而,目前没有证据表明基于强化学习方法训练出的智能体能涌现出对其所解决的任务和环境的认知能力,比如上述提到的训练需要频繁人为重置机械狗的位置,机械狗的奖励函数只鼓励它向前走,因此即使碰到墙也会反复向前冲撞。
基于目前的深度学习范式来实现通用具身智能面临一些根本性挑战:(1)目前的学习系统本质上仍是一个开环系统,需要人类智能的介入(如根据学习结果,有针对性地采集更多更好的数据,调整数据的概率分布,反复迭代优化奖励函数等)来实现闭环,目前的机器学习系统是辅助智能,而实现通用具身智能需要的是自主智能;(2)目前的方法还不具备从自然模态中学习到关于世界的结构化表征与抽象的能力,而人类和动物在婴儿时期就能从自然模态(如视觉,听觉等直接来源于外部世界的信号)中学习并基于直觉理解物理世界的结构和运作规律,这种自然习得的认知能力是实现通用具身智能的关键。
3、数据采集:具身智能的挑战之一
数据是机器人智能体进行感知、理解和决策的基础,也是泛化能力的关键,但数据的稀缺性一直是机器人学习领域的制约因素。互联网上各类文本、图像和视频数据集庞大,但机器人的场景和交互有价值的数据量相对较小,限制了AI模型在机器人上的泛化能力。Coatue报告中提到,机器人场景数据集仅有2.4M,远远低于文本数据集的15T Tokens和图像数据集的6B Images,相差好几个数量级。
资料来源:Coatue Management
目前,具身智能的数据采集大致有四种方法:(1)远程操作:由实验人员操作机械手柄,远程控制机器人做出相同动作,以此来积累数据;(2)增强现实:通过AR(增强现实)技术让人机交互过程具备更强的可解释性,从而进行数据积累;(3)仿真:通过海量算力进行模拟运算,计算得出海量机器人训练数据集;(4)视频学习:通过多模态大模型,直接让机器人通过视频学习人类动作,积累训练数据。目前主流的方法是远程操作和仿真,其中仿真可能是目前最有可能做到规模化数据生成的路径。
随着人工智能的快速发展,具身智能体的训练方式已经从依赖大量真实世界数据,逐渐转向了通过仿真环境、真实世界数据以及混合数据源进行学习。机器人智能体可以通过模仿学习在生成的数据集上进行有效训练,以在长期和高精度任务中获得出色的性能,例如多部件组装和制备咖啡等任务。合成数据有望解决机器人领域高质量训练数据不足、采集效率低下等问题,是一条扩大机器人学习的强大且经济的途径。但现实世界本质上比模拟环境更加复杂和动态,充满了噪音和不确定性。从模拟到现实的转移过程充满挑战,涉及的问题包括解决模拟与现实在感知和动态方面的“领域鸿沟”、结合真实和模拟数据以提高样本效率、增强模拟到现实转移的鲁棒性、训练在不同环境中能很好地泛化的模型等。
1、为什么是“人形”机器人
目前人类社会的基础设施建设已达到前所未有的规模,这些设施从根本上考虑人类活动的特性和需求。以人类为中心的环境构建,为类人形态机器人技术的发展提供了得天独厚的条件。类人机器人因其形态上的相似性,能够更加灵活地适应现有环境,无论是家庭、办公场所还是工业现场,都无需大规模改造既有设施就能有效运作,极大提高了部署的便捷性和实用性。此外,人类社会长期积累的知识体系、交互模式以及技术文档,大多围绕人形或与人交互的视角构建,这为人形机器人提供了天然的学习资源和训练素材。相比之下,非人形机器人在理解和应用这些资源时会遇到更多障碍,需要额外的转换或适配,这无疑增加了开发的复杂度和成本。
从全球范围来看,劳动力市场正面临前所未有的压力。特别是在一些发达国家和地区,劳动力短缺问题因老龄化趋势而加剧,导致对高效、可持续工作力量的需求急剧上升。人形机器人作为技术创新的前沿,在医疗、服务、工业生产等领域有巨大潜力。因此,发展人形机器人不仅是对当前社会需求的积极响应,也是对未来劳动力市场变化的前瞻性布局。
2、大模型支撑人形机器人走向具身智能
人形机器人领域从2022年开始出现爆发式突破,与大模型技术的突破和实际应用的时间高度重合,这是大模型技术对人形机器人领域全面促进的结果。不同于传统满足特定用途的机器人AI算法,AI大模型有望从语音、视觉、决策、控制等多方面实现同人形机器人的结合,形成感知、决策、控制闭环,大大提升机器人的“智慧”程度,带来人形机器人商业化应用的曙光。
资料来源:国泰君安证券
另一方面,随着人形机器人技术的不断演进和其产业应用场景和规模的不断深入与扩大,人形机器人本体不断收集的各类传感数据、对现实世界物理空间的交互以及动作执行,会持续汇总到云端的基础大模型,有助于让原本只存在于数字世界的“离身”大模型,不断学习现实世界的空间构成与交互操作,成为能够理解物理世界运行的“空间智能”大模型。两者的相互促进融合将真正打开人类通往AGI(通用人工智能)的技术之门。
大模型与人形机器人相互促进
资料来源:阿里研究院
3、人形机器人产业正在孕育千亿级新蓝海
应用场景多元化,劳动力缺口带来对人形机器人的需求。人形机器人下游应用场景丰富,包括生产制造、应急救援、家庭陪护、教育、医疗等。在产业场景中,人形机器人主要在智能制造领域发力,如IBM结合AI、遥感和边缘计算的力量打造新一代安防巡检机器人,亚马逊采用AI技术驱动机器人用于自动化的仓库操作和物流处理等。劳动力缺口扩大导致用工成本上升,工厂机器替人需求逐渐增加,有望进一步加速机器人产业化进程。
人形机器人主要应用领域
资料来源:36氪
领先厂商已启动汽车工厂、科研、零售服务等场景的商业化落地。特斯拉计划2025年开始小批量生产人形机器人,并在特斯拉工厂部署超过1000个人形机器人。国家地方共建具身智能机器人创新中心公布了“百台天工计划”,将向重点科研机构与高校提供超百台“天工”系列机器人。银河通用预计将在2024年第四季度与美团进行合作,开启智慧药店和智能零售的机器人店试点。
资料来源:证券日报之声、上海证券报、北京亦庄、极客公园等、开源证券研究所
目前,人形机器人还处于产业化初期,市场规模主要由产品技术的进步速度、大规模商用进程和下游渗透率决定。可以预见,一旦通过产业链优势实现工程化的成本控制,人形机器人产业将迎来规模化发展的拐点。一方面,产业链的优化和成本控制将能够有效降低制造成本,提升人形机器人在市场上的竞争力,进一步激发市场需求,促使应用场景不断拓宽,满足更多领域的需求。另一方面,随着人形机器人技术的不断成熟,市场接受度将进一步提高,应用渗透率也将逐步提升。按中国人形机器人产业大会上发布的《人形机器人产业研究报告》预测,2024年中国人形机器人市场规模约27.6亿元,2029年将达到750亿元,占据世界总量的32.7%,位居世界第一,到2035年有望达到3,000亿元的规模。
中国人形机器人的市场规模(单位:亿元)
资料来源:《人形机器人产业研究报告》
广阔的市场前景吸引了大量资本进入。据IT桔子统计,2023年中国人形机器人产业投融资迎来新高,投资数量达22起,已披露融资金额达54.61亿元人民币,同比增长300%以上。2024年1-9月国内人形机器人企业共获得超过30笔融资,融资金额超过30亿元人民币,其中共10家企业,11次成功获得亿元级别及以上的融资。
人形机器人产业趋势逐步明确,产业已经进入到从0到1的重要突破阶段。从产业链角度,聚焦人形机器人中的具备关键核心技术的专用传感器,这些传感器对于提升人形机器人视、听、力、触、嗅等综合感知能力至关重要;也要关注减速器、电机、关节总成、伺服驱动器等驱动执行模块,这些部件决定了人形机器人运动控制能力。
人形机器人成本拆解及潜在供应商概览
(以Tesla Bot为例)
资料来源:中航证券研究所
相较于传统工业机器人,人形机器人核心零部件种类、数量更多。人形机器人若进入大规模产业化阶段,不仅能带来对新型核心零部件的需求,也能进一步提升传统机器人零部件的市场天花板。
人形机器人与工业机器人产业链比较
资料来源:中信建投证券
注:红色框线为两者都需要的零部件,蓝色框线仅为人形机器人必须零部件
随着人工智能技术的进步,尤其是大模型及生成式AI的发展,使得具身智能有望成为现实。人形机器人作为具身智能的优质载体,大模型为人形机器人的发展带来了新的突破。AI大模型赋予了机器人更强的事物处理能力和自然语言交互能力,机器人有望获得泛化能力从而实现通用化,进而在生产制造、应急救援、家庭陪护、教育、医疗等场景中获得商业应用。
海内外多家人形机器人相继进入工厂实训,表明人形机器人产业化落地进入初级阶段。区别于传统工业机器人,人形机器人硬件需求更复杂、更多元,不仅可提升传统机器人相关零部件的市场空间,还能带来新型零部件的市场蓝海。
但从目前来看,距离实现真正的具身智能水平的模型还有很长的路要走。机器人大模型还面临着诸多问题:机器人算法的训练需要大量机器人真实数据,但实际可用于训练机器人学会执行新任务新技能的高质量数据非常匮乏;同时,机器人大模型行动控制的周期仍太长,无法做到实时响应,需要大量算力支撑;人形机器人零部件众多,做好软硬件协同才能发挥其硬件水平。
— 国投泰康信托有限公司出品 —
如需转载或引用
请注明出处:公司名称、作者、来源等