具身智能系列 | “百人大战”来临，人形机器人产业发展需要“软硬并重”

科技 2024-09-25 10:52 浙江

截至2024年8月，全球范围内已发布的各类人形机器人数量已超过150款，而我国已有超过60款人形机器人发布问世，是发布人形机器人数量最多的国家，数量上大幅领先美国与日本。在刚刚结束的2024年世界机器人大会上，就有27款不同型号的人形机器人集中亮相。“百人大战”的火热局面下，产业似乎正处于“爆发前夜”的关键时刻。

阿里研究院具身智能系列文章《“形”“型”合璧，恰逢其时——人形机器人作为大模型技术的高级呈现形态》，对人形机器人的“一硬三软”四大关键领域进行了深入探讨。文章指出，人形机器人产业的发展在本体制造、运动控制、空间感知与操作、以及指令理解/推理/决策等四个关键领域还有待持续突破，并且强调了“软硬并重”发展的重要性。本文对人形机器人“软硬并重”发展的策略建议，做进一步深入阐述。

一、技术上，软件所代表的智能能力才是突破的关键

1、人形机器人待突破领域中，“软”的部分极为关键

人形机器人要真正从实验室和测试验证环境走进现实场景的大规模应用，仍需要在“一硬三软”四个领域不断突破，而三个软件领域的突破是这其中极为关键的部分。

第一个“软”-运动控制：运动控制和状态评估是使机器人能够执行流畅复杂腿部动作的关键软件技术。它涉及到运动规划、轨迹生成、动态平衡以及自适应控制等。运动控制算法需要能够处理机器人的动力学和运动学问题，确保动作的流畅性和准确性。
第二个“软”-空间感知与操作：这涉及到机器人对周围环境的感知，以及如何在这个环境中进行有效的操作。机器人需要能够识别和分类物体，感知它们的位置、形状和特性，并能够预测和适应环境变化，以实现精细的操作任务。这需要集成多种传感器数据，运用计算机视觉、机器学习等技术，实现对复杂场景的理解和操作。
第三个“软”-指令理解/推理/决策：这是赋予机器人智能和自主性的关键，基于对环境信息的感知和输入的指令、对指令的理解和分析、基于理解进行推理，以及基于推理结果做出决策，机器人需要具备高度的自主性，能够在没有人类干预的情况下，更好地与人类交流和协作，并独立完成复杂的任务。

同时需要强调的是，人形机器人硬件与软件之间，以及各软件领域之间并非独立发展，而是相互依存、不可分割的。人形机器人的设计需要整体方法论，将硬件和软件、机械工程和人工智能、数字世界的完整知识和物理世界的理解与操作整合在一起，以实现一个协调一致、高效可靠的完整系统。

2、大模型是人形机器人软件关键领域突破的“题眼”

人形机器人领域从2022年开始出现爆发式突破，与大模型技术的突破和实际应用的时间高度重合，这绝非偶然，而是大模型技术对人形机器人领域的全面促进的结果。

在运动控制领域，运动控制领域存在两大流派-机理模型和人机映射。其中机理模型更依赖于对机器人物理特性的精确理解，而人机映射则利用人工智能算法来模拟人类的运动特征。大模型技术可以通过分析大量的人类运动数据，学习并模仿人类的运动模式，从而提高机器人的运动自然度和适应性。
在空间感知与操作领域，大模型技术，特别是其Transformer架构，已经在自然语言处理领域显示出其强大的能力。将其应用于物理空间的表征，通过将空间物体进行token化表示，机器人可以更好地感知其所处的环境，并进行有效的操作。
在指令理解/推理/决策领域，这是大模型技术最直接发挥其优势的领域。搭载了先进基础大模型的人形机器人，能够基于大量的感知数据和输入的指令，进行复杂的推理，并做出快速准确的决策。这些模型可以帮助机器人更好地理解语言、情感和社会规范，提高其与人类交流和协作的能力。

二、应用上，软件定义的智能和承载的场景是本体发挥作用的基础

1、本体制造的“入行”门槛正在显著下降

据不完全统计，当前业界人形机器人的开源项目已超过40个，如HuggingFace的LeRobot项目和斯坦福大学的HumanPlus项目等。这些开源项目为研究团队提供丰富的库和工具，包括硬件套件、硬件驱动代码、AI模型以及从组装、配置到训练的完整操作指南，以帮助开发者快速搭建出能够执行简单任务的机器人原型。国内上海人形机器人制造业创新中心已于今年5月推出全球首个全尺寸人形机器人开源社区，通过开放操作系统、软件、硬件和图纸等资源，促进整个产业的技术进步。智元机器人也于今年8月宣布其一系列开源计划，并在其官方商城中提供包括电机、关节、域控制器、自适应夹爪等关键零部件。“手搓”一个能动起来的人形机器人，门槛正在显著下降。

2、硬件本体需搭载智能能力以发挥应用价值

机器人的智能能力并不在于其能够展示各类炫酷的操作，而在于其是否具备对环境的适应性和对任务的自主智能决策能力。人形机器人所代表的具身智能的技术进步，如果说硬件本体以及相应关键元器件的进步是形态层面的“秀外”，那么软件定义的智能能力的进步则是大脑层面的“惠中”。以某具身智能创业企业为例，其智能大脑搭载在商用扫地机器人上，具备物理世界环境感知和任务理解执行能力，能够实时分析地面垃圾量和位置，智能调整清扫策略，从而提高清扫速度效率并大幅节省电量与耗材。相比本体形态，真正搭载“智能能力”，才更能够在具体应用领域发挥价值。

3、硬件本体需匹配具体场景以促进产业应用

人形机器人的形态范围同样非常广泛，既有轮式人形机器人、也有下半身采用反曲膝关节设计的人形机器人、同时也有高度模拟人类全身形态的人形机器人。不同的外形设计是为了适应不同的工作环境和任务需求，而并不代表“高级程度”的差异。事实上，轮式人形机器人在特定作业场景中的实用性和效率，预示着它们可能成为率先实现大规模商业化部署的人形机器人形态。虽然其无法应对复杂地形的挑战，但在线下零售的货架物品整理拾取、厂房内的分拣搬运等领域，轮式人形机器人提供了一种更为实用和经济的解决方案。产业政策需鼓励技术创新与应用场景的匹配融合，以促进机器人技术的多元化发展，并加速其在实际工作场景中的应用，以推动人形机器人产业的健康发展，并实现技术突破与商业价值的双重提升。

三、总结与思考：“重硬轻软”思维定势亟需破除

此轮人形机器人产业的快速发展，得益于大模型技术的全面促进，并以软件领域的“智能化”能力为“关键器件”。这意味着，软件和算法的重要性不亚于乃至更甚于硬件本身，它们共同构成了人形机器人的核心竞争力。传统硬件产业的发展思路，可以简单概括为以整机制造为牵引，并在硬件制造的上下游衔接布局，同时注重对关键元器件的突破。但在重视硬件整机制造之上，同样需要重视对“软”的领域的前瞻布局和政策支持。

产业政策需高度重视人形机器人产业的全面发展，特别是在软件与算法等关键技术领域的创新与突破。通过提供更为精准的政策支持和资源配置，不仅能够促进产业链的均衡发展，还能够为我国在全球人形机器人产业竞争中赢得更为有利的战略地位。这不仅关乎产业的短期利益，更关乎长远的技术创新与国家竞争力的提升。本文总结对产业发展的如下思考。

1、需坚持把软件关键领域作为人形机器人产业发展的重要环节

在人形机器人产业中，硬件的制造和组装虽然是基础，但并非是唯一的竞争壁垒。随着技术的进步，硬件本体制造的门槛逐渐降低，而软件和算法的开发则成为了产业竞争的新高地。软件领域的创新，包括运动控制算法、环境感知、智能决策等，是赋予机器人更高智能和自主性的关键。因此，产业政策需更加重视软件技术的研发和应用，以推动人形机器人向更高级别的智能化发展。

我国人形机器人产业走在台前的“明星企业”，绝大多数是硬件本体厂商。而运动控制、物理空间的理解和操作、以及感知/理解/推理/决策等人形机器人“软”的关键领域研发厂商却较少受到关注，至于产业链更靠后端的多模态数据采集分析、环境建模与仿真等环节则更不容易被注意到。

一批专注于人形机器人“通用大脑”技术的初创企业正在国内外兴起，在国际市场上，如Skild AI和Physical Intelligence等初创企业，受到资本市场的追捧。而相比之下，国内同类型初创企业如穹彻智能、若愚科技、X Square、跨维智能等虽有融资，但在融资金额和估值水平上远远不如硬件本体厂商。

随着人形机器人产业的快速发展，软件和算法的重要性日益凸显，它们已成为推动行业发展的关键因素。除了硬件制造之外，进一步强化对“软”领域的企业的关注和扶持，通过“以软带硬”、“以软补硬”的产业政策，可以促进整个产业链的均衡协同发展，从而真正提升人形机器人的智能化水平。

2、需打破产业垂直划分壁垒，开展横向跨行业共性技术与平台的融合推进

近年来，尤其在进入2024年之后，各地方在大模型产业、人形机器人、智能网联汽车、工业设备大规模更新等领域纷纷加速出台相对独立的发展规划。但需要注意到，无论是人形机器人，还是智能网联汽车中的端到端自动驾驶，乃至工业机器人的智能化革新，其技术体系具有高度的同源性，均依赖于人工智能大模型技术加持下的指令理解/推理/决策能力以及空间感知与操作技术，也同样需要GPU算力集群、AI芯片、训练数据积累和仿真环境平台等共性资源。

随着大模型技术为代表的人工智能领域的飞速进步和深度产业融合，数字经济背后的技术体系正在呈现出横向跨行业深度技术融合的特征。这一特征对传统的纵向行业划分和规划方法提出了全新的挑战。为了适应这一趋势，须打破产业间传统划分方式的认知壁垒，横向跨行业开展共性技术与平台的整体推进。

3、需高度重视在统一大市场下的跨行政区域协同布局发展

越是高新科技产业，其产业链布局越会呈现出在统一大市场下“跨区域、强协同”的明显特征。鉴于人形机器人产业链的复杂性和专业性，仅靠单独一个省级或市级行政区域内的技术力量，很难实现“门门领先，样样精专”。这需要各省市地区结合自身的产业基础、人才资源、科研实力和市场需求，加强跨行政区域的共建与合作，同时摒弃地方保护主义，避免针对本省市企业和外省市企业设置差异化的市场准入限制和政策扶持标准。通过“有整体布局，有优势切入，有协同合作”，在全国范围的统一大市场下，共同构建跨区域的产业链和创新生态。这不仅有助于提升整个产业链的竞争力，更能够为我国在人形机器人这一战略性新兴产业的全球竞争中赢得优势。

致谢

感谢阿里云智能科技研究中心罗治兵为本文研究提供技术指导。

参考文献

[1] Humanoids: Investment Implications of Embodied AI, Morgan Stanley, 2024

[2] The Path to General-Purpose Robots, Coatue, 2024

[3] Aligning Cyber Space with Physical World: A Comprehensive Survey on Embodied AI, Pengcheng Laboratory, 2024

[4] CyberRobo全球人形机器人Wiki, 2024

[5] Made in China 2025: The making of a high-tech superpower and consequences for industrial countries, MERICS, Jost Wübbeke et al., 2016

具身智能系列文章

版块介绍 — 产业之声

紧跟产业发展脉搏，我们汇集行业领袖与企业的真实声音，在算力基础设施的规划与布局、能耗优化、大模型能力发展、大模型评测体系、产业应用案例深入研究、新技术与应用趋势前瞻探索等方面，剖析成功案例背后的逻辑与挑战，并提供基于产业深度洞察的策略建议。同时，我们依托于阿里巴巴集团在人工智能领域的全面布局，分享阿里的AI产业生态和应用的实践落地，探讨技术如何重塑产业格局并推动社会经济的转型升级。

推荐阅读

Reading

1、被“套壳”割韭菜，是谁在制造AI焦虑？

2、观察｜“兼济天下”与“产业繁荣”：从中法联合声明看中国的“AI力”

3、智能背后的电能保障：GPU算力集群能源挑战的全球视角与中国应对

4、产业之声 | 阿里调研：生成式AI在电商场景的应用、前景与挑战

5、产业之声 | 生成式AI驱动的数据要素价值创造新模式

6、阿里云内部全面推行AI写代码，未来20%代码由通义灵码编写

7、安筱鹏：中国没有“百模大战”，也没有“十模大战”

8、达摩院AI助力农业育种，遗传学分析加速1000倍

9、安全治理与能力发展兼顾并重，Claude 3对中国大模型发展有哪些启示

10、【“人工智能+”深度案例】从智能工厂到ChatBI，雅戈尔的“智能+”实践

11、夸克：大模型时代，创造革新性搜索产品的探索之路

12、数字技术助力国产猕猴桃产业破解“即食”难题

13、AI驱动电商，淘天集团用科技定义商业

14、《自然·医学》刊登中国科学家关键突破：癌症筛查的黄金时代准备就绪

15、安筱鹏：制造业是AI大模型应用的主战场

16、【观点】阿里妈妈万相实验室首发上线电商进入AI上新新时代

17、数字时代组织管理工具“钉钉HCM”重磅发布

18、产业之声 | 生成式AI驱动的数据要素价值创造新模式

19、产业之声 | 生成式AI在电商场景的应用、前景与挑战

20、产业之声 | 为AI供电-超万卡GPU算力集群的算电协同与零碳发展

21、产业之声 | “软硬兼施，以软带硬” - 缓解“算力焦虑”的模型与芯片协同优化策略

22、产业之声 | 安筱鹏：智算集群的“三个不等式”

23、“形”“型”合璧，恰逢其会-人形机器人是大模型技术的高级呈现形态

24、具身智能系列 | 人形机器人会替代机械臂吗？- 人形机器人在制造业中的定位与价值分析

25、产业之声｜大模型问月：首个月球科学多模态专业大模型发布

26、OpenAI o1大模型的技术、安全与应用简析 | 积跬步，虽未至千里，仍指引前行

27、产业之声 | 安筱鹏：超越AI大模型的“加拉帕戈斯”效应

- END -

http://mp.weixin.qq.com/s?__biz=MjM5NTg0NDE1Mw==&mid=2652625371&idx=1&sn=a53c0cf76c97ecd6e4dfcaef46d06605

阿里研究院

依托阿里巴巴集团先进的AI科技能力、丰富的应用场景与负责任的技术生态，总结提炼科技发展的案例实践和治理经验，为产业政策制定实施提供科技企业的智识建议。

最新文章

价值之探 | 2024世界互联网大会乌镇峰会聚焦“以人为本，智能向善”

治理之智 | 梅夏英《复杂系统与智能涌现：未来数字法研究的范式图景》| 专论

产业之声 | 1个月砸入上亿元，智能驾驶进入算力游戏

治理之智 | 合成数据在生成式人工智能时代的价值与风险

陶哲轩神预言！Transformer破解百年三体难题，凭数学直觉找到李雅普诺夫函数

治理之智 | 周汉华：论我国人工智能立法的定位

招募 1024 个人来过节，不懂代码的优先！

具身智能系列 | 摆脱“地心引力束缚”-人形机器人进厂实习背后的产业发展逻辑

司南 OpenCompass 9 月榜单揭晓！开源模型首次占据榜首！

刚刚，我们一起登上国际顶级学术期刊《Cell》

域外之见 | 加州法案：起源、演进、否决与启示

域外之见 | 北美跨境电商“低值豁免”制度改革方案研判

阿里巴巴入选2024年《财富》“改变世界”榜单

治理之智 | 检索增强：解决企业“上云用模”的数据安全隐忧

重新定义开源AI的背后：解析模型开放框架的理论

具身智能系列 | “百人大战”来临，人形机器人产业发展需要“软硬并重”

多数据中心训练：OpenAI 击败谷歌 Infra 的大计（两万字精校）

产业之声 | 安筱鹏：超越AI大模型的“加拉帕戈斯”效应

《阿里云安全白皮书2024版》发布：国内首推“安全共同体”理念

云栖十问人形机器人：具身智能如何创造“图灵时刻”？

云栖Day1重磅合集！ Qwen2.5-72B成为全球最强开源模型

吴泳铭：AI最大的想象力不在手机屏幕，而是改变物理世界

治理之智 | 算法影响评估的三个基本问题：制度定位、机制模式与改革启示（下篇）

OpenAI o1大模型的技术、安全与应用简析 | 积跬步，虽未至千里，仍指引前行

治理之智 | 算法影响评估的三个基本问题：制度定位、机制模式与改革启示（上篇）

治理之智｜对“数据入表”的若干思考：重视数据意识能力，回归要素价值本源

大语言模型的“智能飞轮”！阿里最新综述全面解析大模型的自进化之路

LLM的范式转移：RL带来新的 Scaling Law

产业之声｜大模型问月：首个月球科学多模态专业大模型发布

具身智能系列 | 人形机器人会替代机械臂吗？- 人形机器人在制造业中的定位与价值分析

“形”“型”合璧，恰逢其会-人形机器人是大模型技术的高级呈现形态

逐际动力发布新一代通用人形机器人CL-2，在2024世界机器人大会展示其潜力

谷歌前CEO埃里克·施密特最新论AI崛起, 全球竞争与科技演变· 万字全文

产业之声 | 安筱鹏：智算集群的“三个不等式”

治理之智 | 合成数据：模型能力跃迁的必经之路

产业之声 | “软硬兼施，以软带硬” - 缓解“算力焦虑”的模型与芯片协同优化策略

模型开源不是智商税开闭源并非二选一

产业之声 | 为AI供电-超万卡GPU算力集群的算电协同与零碳发展

产业之声 | 生成式AI在电商场景的应用、前景与挑战

产业之声 | 生成式AI驱动的数据要素价值创造新模式

模型上云的数据安全保护——以Apple PCC为借鉴

大模型时代：消失的飞轮

如何应对“模型抄袭”？对“斯坦福抄袭中国大模型”事件的三重思考

价值之探 | 在生成式AI时代，我们还需要团队吗？

2024全球梦想家招募开启

价值之探 | 达摩院大模型入选AI for Good创新案例集

价值之探 | 全球首位AI胰腺癌早筛技术的受益者

治理之智 | 《大模型训练数据白皮书》在第七届数字中国峰会发布：大模型是数据要素价值释放的最短路径

治理之智 | 《国际论坛》贾开、俞晗之、薛澜：人工智能全球治理新阶段的特征、赤字与改革方向

域外之见 | AI 在非洲：中国社会科学院-南非金山大学走进阿里巴巴

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉