“形”“型”合璧，恰逢其会-人形机器人是大模型技术的高级呈现形态

科技 2024-08-26 19:18 北京

摘要

人形机器人产业近两年爆发式突破，与大模型技术的突破和实际应用的时间高度重合，这绝不是偶然，背后是大模型技术在人形机器人本体、运动控制、物理空间的理解与操作、感知/理解/推理/决策这“一硬三软”四大关键领域的全面技术促进。同时，人形机器人不断收集和产生的数据以及对物理世界的交互以及动作执行，有望于让原本只存在于数字世界的“离身”大模型，进化为能够理解物理世界运行的具备“空间智能”的大模型。两者的相互促进融合，将真正打开人类通往AGI（通用人工智能）的技术之门。

人类对类人形态机器人的畅想从未停止，从《列子·汤问》中记载3000多年前能唱歌跳舞的木甲艺伶，到1000年前阿拉伯发明家阿尔-加扎利设计的自动仆人，再到500年前达芬奇绘制的具有复杂机械结构的“骑士”，以及大量文学作品中描绘的人造生命形象，如手冢治虫笔下的阿童木和风靡全球的变形金刚，无不展现出人类对超越自然界限、创造智能生命的深切渴望与无尽想象。这些设想不仅仅是技术探索的体现，更是人类对于自身存在、伦理道德以及未来社会形态深刻思考的映射。

直到大约50年前，随着计算机科学、人工智能、材料工程与传感器技术的迅猛发展，真正的高仿真度人形机器人开始步入公众视野。而近几年大模型技术的飞速发展，更使得人形机器人在认知能力、情感交互、运动控制乃至物理空间的理解与操作上取得了前所未有的突破，一个新的时代正在来临。

本文的研究分析聚焦在人形机器人这一范畴，在展开分析之前，首先对若干近期被广泛使用的词汇进行范围阐释：

具身机器人(Embodied Robots)：也常被描述为“具身智能”（Embodied AI），业界普遍的共识是“具有与现实世界感知和交互的实体，且能够通过物理实体与现实世界的交互获取信息并具备学习、推理、决策、执行和不断适应和进化”，即为具身智能。具身智能更强调的是具备交互、感知、学习和适应的智能化能力，而其外形可以是任意有形的实体。换言之，人形机器人、机器狗、自动驾驶汽车、迎宾/扫地机器人、机械臂等等，只要具备交互、感知、学习和适应的智能化能力，都可以被归入具身机器人（具身智能）的范畴。
人形机器人（Humanoid Robots）：也常被称为“类人机器人”或“仿人机器人”等。人形机器人指“具备类似于人类的外观，可以执行与人类相似的动作和任务”的一类具身机器人，换言之，人形机器人是具身机器人（具身智能）领域的一个细分门类。

1、为什么是“人形”机器人

a. 对人形机器人：适应性与便利性

在当前全球范围内，人类社会的基础设施建设已达到前所未有的规模，这些设施的设计从根本上考虑了人类活动的特性和需求。这种以人类为中心的环境构建，为类人形态机器人技术的发展提供了得天独厚的条件。类人机器人因其形态上的相似性，能够更加灵活地适应现有环境，无论是家庭、办公场所还是工业现场，它们能够无需大规模改造既有设施就能有效运作，从而极大地提高了其部署的便捷性和实用性。此外，人类社会长期积累的知识体系、交互模式以及技术文档，大多围绕人形或与人交互的视角构建，这为人形机器人提供了天然的学习资源和训练素材。相比之下，非人形机器人在理解和应用这些资源时会遇到更多障碍，需要额外的转换或适配，这无疑增加了开发的复杂度和成本。

b. 对人类社会：必要性与紧迫性

随着全球经济的持续发展和人口结构的深刻变化，劳动力市场正面临前所未有的压力。特别是在一些发达国家和地区，劳动力短缺问题因老龄化趋势而加剧，导致对高效、可持续工作力量的需求急剧上升。人形机器人作为技术创新的前沿，展现出了在解决这一系列社会挑战中的巨大潜力。在医疗护理领域，人形机器人可以提供个性化、不间断的照护服务，减轻医护人员负担；在服务业，它们能够执行重复性高、劳动强度大的任务，提升服务效率和质量；而在制造业，通过人形机器人的引入，可以实现生产线上的人机协作，增强生产灵活性并弥补劳动力缺口。因此，发展人形机器人不仅是对当前社会需求的积极响应，也是对未来劳动力市场变化的前瞻性布局。

更进一步，全球多国即将或已经步入深度老龄化的社会阶段，从抚养比率变化趋势来看，中国正处在抚养比率急速攀升的阶段，这一趋势对社会保障体系、经济活动的持续性构成了直接挑战。在此背景下，加速人形机器人技术的研究与应用，不仅是对社会服务需求增加的直接响应，更是把握时间窗口，利用科技手段保障社会福祉、维持经济活力的关键举措。人形机器人的发展不仅是技术进步的必然产物，更是应对社会经济变革、实现可持续发展目标的重要途径，其战略意义和实践价值不容忽视。

注：本文中的抚养比率（Dependency Ratio）是指在人口当中，非劳动年龄人口（15岁以下+65岁以上）对劳动年龄人口数之比。抚养比越大，表明劳动力人均承担的抚养人数就越多，即意味着劳动力的抚养负担就越严重。

2、人形机器人的三个典型发展阶段

从1972年第一个真正意义上的全尺寸人形机器人诞生至今，已有50余年。这期间，人形机器人的发展可简要概括为如下三个典型阶段：

阶段1-早期验证突破：1972年，日本早稻田大学研制的世界上首台全尺寸人形机器人WABOT-1，终于走出了实验室。其每走一步需要耗时45秒，步伐只有10公分，搭载了可识别物体形状和颜色的视觉传感器，并基于录制好的声音进行初级的指令交互。尽管以现在的眼光来看，WABOT-1的各方面能力都极为羸弱，也不具备规模商业化的可行性，但这一成果首次验证了人类有能力制造出类人形态的机器物种，成为机器人技术发展历程中的一个重大里程碑。
阶段2-运动控制突破：时间来到21世纪初，随着运动控制算法、运动学和动力学建模仿真、传感器硬件等方面的不断进步，人形机器人在运动控制领域的进展显著。本田的ASIMO和波士顿动力的Atlas机器人代表了这一时期在运动控制技术上的重要进展。ASIMO以其先进的平衡能力和高度模仿人类动作的能力而闻名，而Atlas则以其各类令人惊叹的复杂动作展示而备受瞩目。这些机器人展示了在运动控制技术方面的关键突破，为后续的人形机器人技术发展奠定了基础。
阶段3-智能交互突破：随着近年来大模型技术的飞速发展，人形机器人的智能交互能力实现了质的飞跃。大模型技术在人形机器人领域的深入应用和结合，赋予了机器人更深层次的自然语言理解、推理和决策能力。这些技术使得人形机器人能够更加精准地理解复杂指令，进行多轮对话，并在交互中展现出更加人性化的响应和反馈。例如，通过集成多模态大模型能力，机器人能够处理更加复杂的场景，实现与人类更加自然和流畅的交流。同时，在空间交互方面，大模型技术通过提供高级的空间感知和操作执行能力，使得人形机器人在执行物理任务时更加灵活和精确，如在复杂环境中导航、操纵物体或进行精密作业。大模型技术的融合，为人形机器人的自主性和灵活性提供了前所未有的支持，标志着人形机器人技术向更高层次的智能化和自主化迈进。

需要强调的是，尽管已经是“具身机器人”领域的一个细分门类，但人形机器人领域的形态范围同样非常广泛，既有轮式人形机器人、也有下半身采用反曲膝关节设计的人形机器人、同时也有高度模拟人类全身形态的人形机器人。不同的外形设计是为了适应不同的工作环境和任务需求，而并不代表“高级程度”的差异。

3、人形机器人的关键突破领域-一硬三软

人形机器人要真正从实验室和测试验证环境走进现实场景的大规模应用，仍需要在四个领域不断突破，本文将这四个关键领域总结为：“一硬三软”。

一“硬”-本体

人形机器人的本体是其物理基础，涵盖框架结构、关节与执行器、传动系统、末端执行器、传感器集成、能量源、控制系统、通信接口、安全系统以及环境适应性组件。这些组件共同确保机器人的稳定性、灵活性和环境感知能力，是实现精确运动控制和复杂任务执行的关键。随着技术发展，本体设计趋向模块化、自适应性和智能化，以适应多样化的应用需求。

第一个“软”-运动控制

运动控制和状态评估是使机器人能够执行复杂动作的关键软件技术。它涉及到运动规划、轨迹生成、动态平衡以及自适应控制等。运动控制算法需要能够处理机器人的动力学和运动学问题，确保动作的流畅性和准确性。该领域的典型代表企业有国外的波士顿动力，其复杂而精确的动作演示备受业界瞩目。以及国内的宇树科技，在该领域的实践落地上国内领先。

第二个“软”-物理空间的理解与操作

这涉及到机器人对周围环境的感知和理解，以及如何在这个环境中进行有效的操作。机器人需要能够识别和分类物体，理解它们的位置、形状和特性，并能够预测和适应环境变化。这需要集成多种传感器数据，运用计算机视觉、机器学习等技术，实现对复杂场景的理解和操作。该领域的典型代表企业为特斯拉，基于其在自动驾驶领域的深厚积累，特斯拉将FSD算法移植到其机器人研发当中，具备业界领先的基于全视觉的空间感知和飞速成长的任务执行和操作能力。国内的小鹏汽车在机器人研发的思路上与特斯拉类似，基于其对自动驾驶的深度研发积累，为人形机器人的物理空间理解与操作提供技术借鉴。

第三个“软”-感知、理解、推理、决策

这是赋予机器人智能和自主性的核心，涉及到对环境信息的感知、对信息的理解和分析、基于理解进行推理，以及基于推理结果做出决策。机器人需要具备高度的自主性，能够在没有人类干预的情况下，独立完成复杂的任务。这需要集成自然语言处理、情感识别、伦理决策等高级认知功能，使机器人能够更好地与人类交流和协作，甚至在某些情况下能够做出符合社会规范和伦理的决策。该领域的典型代表企业为国外创业公司Figure AI，与OpenAI合作基于通用大模型能力进行感知/理解/推理/决策。国内创业公司银河通用在此领域的开展思路类似，同样是借鉴通用大模型能力在机器人端侧构建大脑大模型。

需要强调的是，人形机器人的上述四个领域是相互依存、不可分割的。本体的物理设计直接影响运动控制的实现，而运动控制软件又依赖于精确的传感器数据和强大的计算能力。对物理空间的理解与操作是感知、理解、推理和决策的基础，而高级的认知功能又进一步提升了机器人的自主性和适应性。因此，人形机器人的设计需要一个全面的方法论，将硬件和软件、机械工程和人工智能、数字世界的完整知识和物理世界的理解与操作整合在一起，以实现一个协调一致、高效可靠的完整系统。

4、大模型技术对人形机器人的全面促进-“两间接，两直接”

人形机器人领域从2022年开始出现爆发式突破，与大模型技术的突破和实际应用的时间高度重合，这绝不是偶然，而是大模型技术对人形机器人领域的全面促进的结果。结合对人形机器人四个关键领域的分析，大模型技术对人形机器人发展的促进可总结为“两间接，两直接”。

间接促进作用：

首先，在本体领域，虽然大模型技术不直接参与本体的物理制造，但通过深度学习和仿真技术，可以在设计阶段对本体进行优化，这属于间接影响。这些算法帮助预测和评估设计对性能的影响，从而在制造之前进行改进。
‍
其次，在运动控制领域，运动控制领域存在两大流派-机理模型和人机映射。其中机理模型依赖于对机器人物理特性的精确理解，而人机映射则利用人工智能来模拟人类的运动特征。大模型技术可以通过分析大量的人类运动数据，学习并模仿人类的运动模式，从而提高机器人的运动自然度和适应性。

直接促进作用：

首先，在物理空间的理解与操作领域，大模型技术，特别是其Transformer架构，已经在自然语言处理领域显示出其强大的能力。将其应用于物理空间的理解，可以实现对物体和环境的更深层次的语义理解。通过将空间物体进行token化表示，机器人可以更好地理解其所处的环境，并进行有效的操作。
其次，在感知、理解、推理、决策领域，这是大模型技术最直接发挥其优势的领域。搭载了先进基础大模型的人形机器人，能够处理和分析大量的感知数据，进行复杂的推理，并做出快速准确的决策。这些模型可以帮助机器人更好地理解语言、情感和社会规范，提高其与人类交流和协作的能力。

需要强调的是，大模型技术的发展，和人形机器人的发展，两者之间不只是“单向促进”的关系，而是“相互促进”融合的关系。如果从身体自由度的角度来审视两者之间的关系，通用基础大模型可以被看做是一个“零自由度”的，脱胎于对数字世界的丰富知识学习汇总的“离身”智能；而人形机器人则是具备几十个自由度且不断逼近人类数百个自由度的高度模仿人类身体结构的“具身”身体，且能够持续汇总对物理世界的传感信息和交互操作能力。在大模型对于人形机器人的“两间接、两直接”促进作用的同时，随着人形机器人技术的不断演进和其产业应用场景和规模的不断深入与扩大，人形机器人本体不断收集的各类传感数据、对现实世界物理空间的交互以及动作执行，持续汇总到云端的基础大模型，有助于让原本只存在于数字世界的“离身”大模型，不断学习现实世界的空间构成与交互操作，成为能够理解物理世界运行的具备“空间智能”的大模型。两者的相互促进融合，将真正打开人类通往AGI（通用人工智能）的技术之门。

5、人形机器人产业发展的几项思考

人形机器人当下的飞速发展，背后与大模型技术的持续进步密不可分，同时也是多学科多领域交叉融合与创新驱动的必然结果。本文结合人形机器人的关键突破领域、与其他产业领域（如自动驾驶）的技术交叉融合，以及当前所处的发展阶段，总结对产业发展的如下思考：

a. 需高度重视“软”的领域创新突破，产业发展需要“软”“硬”并重‍‍

人形机器人的“一硬三软”关键突破领域中，本体硬件的持续突破和产业链布局固然重要，但绝非全部。我国在传统工业机器人的发展中，在硬件领域如伺服电机、减振器等领域的突破有目共睹，但只依靠硬件并无法构建足够有效的竞争壁垒，当前我国的传统工业机器人产业已出现本体硬件价格激烈竞争的现象。

要避免上述现象在人形机器人领域再次上演，需要高度重视人形机器人“软”的领域，无论是运动控制领域、物理空间理解与操作还是感知、理解、推理、决策领域，均有待技术的持续创新突破和产业政策的精准引导。我国人形机器人产业技术竞争力的持续追赶提升，需要“软”“硬”并重。

b. 需对人形机器人、自动驾驶、智能制造等产业规划做“并案处理”

人形机器人、自动驾驶、智能制造领域的大规模设备更新，虽然各自有独立的产业规划，但它们背后的技术体系具有高度的同源性，均依赖于人工智能大模型技术加持下的感知、认知、推理、决策能力，以及物理空间感知与操作技术，也同样需要GPU算力集群、AI芯片、训练数据积累和仿真环境平台等共性资源。

数字经济背后的技术体系正在呈现出横向跨行业深度技术融合的特征。这一特征对传统的纵向行业划分和规划方法提出了全新的挑战。为了适应这一趋势，须打破产业间传统划分方式的认知壁垒，横向跨行业开展共性技术与平台的整体推进。

c. 需包容与匹配产业发展的“不确定性”

人形机器人产业的探索尽管已经历经50余年的时间，但真正的技术突破和场景实践则在近两年才开始随着大模型技术的演进而集中爆发，这还是一个非常“年轻”的产业领域，无论在技术实现、市场空间和应用场景上都存在着巨大的“不确定性”。例如，即使是人形机器人这一细分门类中，其形态范围也非常广泛（见本文第二章节分析），即使是硬件本体，其技术方案仍存在高度的“不确定性”，但并不阻碍产业对各类应用场景进行积极探索。

相比之下，无论是5G、高铁还是新能源汽车，这些产业的发展则是有着相对明确的技术确定性和市场确定性，是以“集中力量办大事”的“新型举国体制”坚定推进的成果体现。而基于人形机器人产业的“不确定性”特征，则需政策在“看准终极目标，但看不准发展过程”的现实前提下，既能够坚定不移的支持产业健康高速发展，又能够鼓励不同技术体系的良性竞争，并鼓励创造丰富的技术创新和场景应用空间来匹配产业发展的不确定性。

致谢

感谢阿里集团战略投资部胡晓、蒋珊珊，阿里云智能羊岵、楚度、戴威、宋逸群、谢天、高骏杰，达摩院张冰，阿里集团公共事务部王敏雅、王静，阿里研究院王峥、法桐等专家为本文研究提供的产业判断、理论支持和技术指导。

系列文章参考文献

[1] Humanoids: Investment Implications of Embodied AI, Morgan Stanley, 2024

[2] The Path to General-Purpose Robots, Coatue, 2024

[3] Aligning Cyber Space with Physical World: A Comprehensive Survey on Embodied AI, PCL,Pengcheng Laboratory，2024

[4] Robotics Hardware Market Forecast, Omdia, 2024

[5] Intelligent humanoids in manufacturing to address worker shortage and skill gaps: Case of Tesla’s Optimus, Ali Ahmad Malik et al., 2024

[6] Large Language Models for Robotics: A Survey, Fanlong Zeng et al., 2024

[7] Learning Human-to-Humanoid Real-Time Whole-Body Teleoperation, Carnegie Mellon University, Tairan He et al., 2024

[8] AnyRotate: Gravity-Invariant In-Hand Object Rotation with Sim-to-Real Touch, Univerisity of Bristol, Max Yang et al., 2024

[9] 中国人形机器人产业发展蓝皮书，高工咨询，2024

[10] 人形机器人：中国汽车制造业竞争力外溢下的下半场, 中信建投证券，2024

[11] 拆解人形机器人结构，寻找高价值量细分领域，华宝证券，2024

[12] From text to motion: grounding GPT-4 in a humanoid robot "Alter3", The University of Tokyo, Takahide Yoshida et al., 2023

[13] 国内外人形机器人产品梳理及未来发展趋势探讨，国金证券，2023

[14] 人形机器人行业深度：具身智能，迈向广阔蓝海市场，中泰证券，2023

[15] 国产人形机器人全维度对比，华福证券，2023

版块介绍 — 产业之声

紧跟产业发展脉搏，我们汇集行业领袖与企业的真实声音，在算力基础设施的规划与布局、能耗优化、大模型能力发展、大模型评测体系、产业应用案例深入研究、新技术与应用趋势前瞻探索等方面，剖析成功案例背后的逻辑与挑战，并提供基于产业深度洞察的策略建议。同时，我们依托于阿里巴巴集团在人工智能领域的全面布局，分享阿里的AI产业生态和应用的实践落地，探讨技术如何重塑产业格局并推动社会经济的转型升级。

推荐阅读

Reading

1、被“套壳”割韭菜，是谁在制造AI焦虑？

2、观察｜“兼济天下”与“产业繁荣”：从中法联合声明看中国的“AI力”

3、智能背后的电能保障：GPU算力集群能源挑战的全球视角与中国应对

4、产业之声 | 阿里调研：生成式AI在电商场景的应用、前景与挑战

5、产业之声 | 生成式AI驱动的数据要素价值创造新模式

6、阿里云内部全面推行AI写代码，未来20%代码由通义灵码编写

7、安筱鹏：中国没有“百模大战”，也没有“十模大战”

8、达摩院AI助力农业育种，遗传学分析加速1000倍

9、安全治理与能力发展兼顾并重，Claude 3对中国大模型发展有哪些启示

10、【“人工智能+”深度案例】从智能工厂到ChatBI，雅戈尔的“智能+”实践