具身智能系列 | 摆脱“地心引力束缚”-人形机器人进厂实习背后的产业发展逻辑

科技   2024-10-23 13:28   北京  


导 语

制造业成为人形机器人在产业实践落地的首选,这是产业刚起步的“起手式”还是落地前的最后一步?本文揭示人形机器人产业中存在的现实“引力束缚”,指出制造业的高度标准化、高度流程化、高度封闭的生产环境,能够为人形机器人提供高质量、大规模的实际应用数据,成为摆脱“引力束缚”的“助推器”,并进一步走向千行百业的广阔应用场景。


2024年,多个厂商的人形机器人开启了“进厂实习”热潮:在国外,特斯拉的擎天柱机器人在特斯拉汽车工厂测试电池分拣工作,Figure AI的Figure 02在宝马北美工厂测试搬运和装配工作。在国内,优必选机器人在蔚来、极氪工厂进场,傅里叶机器人在上汽通用工厂上岗。制造业成为人形机器人在产业实践落地的首选,这是产业刚起步的“起手式”还是落地前的最后一步?本文将基于此开展研究探讨,旨在揭示人形机器人“进厂实习”背后的原因和产业发展逻辑。


一、人形机器人产业本身存在现实“引力束缚”


人形机器人的潜在应用场景种类繁多,每个场景需要的能力和相应训练数据各不相同,难以复用。而在当前产业发展的极早期阶段,其在每一个特定场景中都存在“不具备实用性→无法形成商业化规模→无法收集足够的学习数据→无法提升技能与性能→不具备实用性”的发展“悖论”,本文将其称之为“引力束缚”。



人形机器人作为新物种,本身并没有“上一代产品”的规模化基础,这意味着其暂时在任何一个细分场景中,都还没有验证实用性。而在实用性没有被验证的当前阶段,任何一个场景都难以将人形机器人进行大规模推广部署。但在没有大规模推广部署的前提下,人形机器人就无法获取足够规模的训练数据,也就无法提升其针对该场景的技能和性能,进而也难以开展知识和任务的泛化,从而扩展到更多细分场景。


与此形成鲜明对比的是自动驾驶行业。自动驾驶技术的发展得益于汽车行业百年的积淀,汽车的实用性已经被广泛证实,在此基础上发展自动驾驶技术就显得顺畅许多。汽车行业提供了一个庞大的、持续增长的市场,以及源源不断的实际运行数据,这些都是自动驾驶技术能够快速发展的重要基础。


数据的缺乏直接制约了人形机器人算法模型的训练和进化,而如果能够有一个特定的场景,能够提供高质量、大规模的实际应用数据,再进一步泛化至更多的场景,就有希望破除上述恶性循环,从而建立正向健康的商业模式。


二、数据的缺乏,是难以摆脱“引力束缚”的根本原因


“具身”的人形机器人对数据的需求,尤其是数据类型的需求,与“离身”的大语言模型有极为明显的区别。大语言模型的数据主要来自于互联网上的海量文本、代码、图片、音视频,但人形机器人则更需要如下类型的数据用以学习训练:


●  多模态感知数据:用于机器人对环境的感知和理解,包括视觉、听觉,并延伸涵盖触觉、温湿度、重力、摩擦等人类从未特意收集过的数据类型。数据可来自现实世界中收集,也可以来自模拟环境中的合成数据。

●  交互与控制数据:涉及机器人与环境之间的物理交互和动作执行的控制信息。

●  任务规划与示范数据:包含任务分解、逻辑步骤和专家示范动作的数据,用于指导机器人完成任务。


当前业界已经通过遥操作、视频学习等方式尝试加快人形机器人的真实数据获取速度,若干机构也已经推出开源数据集为人形机器人训练提供便利,但是相比人形机器人的任务复杂度来说,仍然是杯水车薪。当前最大的机器人数据集OpenX-Embodiment 仅包含200 多万条真实机器人轨迹数据,这与大语言模型动辄十几T(万亿)token的训练语料规模相去甚远。业界也已经在探索通过合成数据来大幅提升训练数据集的规模。但这条路径是否可行,产业界尚有争论。而且无论是哪种合成数据的方式,其终究绕不过首先“real2sim”(真实到仿真)以及最终“sim2real”(仿真到真实)的使用逻辑,最后对数据的需求和使用还是需要“从真实中来,到真实中去”。


因此,“从哪里能够获取持续、稳定的有效真实数据”,哪怕只是对应一小部分任务场景,让人形机器人先验证这一小部分场景的可用性,就成为产业界共同思考的问题,而人形机器人厂商不约而同的答案指向均是-制造业。



三、制造业是人形机器人摆脱“引力束缚”的助推器


对于人形机器人而言,要打破这一“地心引力束缚”,就需要一个能够提供大量数据和学习机会的环境。在这样的环境中,人形机器人可以快速迭代技术,验证和提升其实用性。而制造业,特别是那些高度标准化、高度流程化、高度封闭的生产环境,恰好契合这一诉求。


●  高度标准化:在制造业中,高度标准化的环境为机器人提供了一致的操作框架。这种一致性确保了机器人可以准确无误地执行预设的任务,同时简化了编程和维护过程。标准化还促进了技术的快速迭代,因为机器人可以在一个可预测的环境中收集和分析数据,从而加速性能的优化。

●  高度流程化:流程化的生产环境为机器人提供了清晰的任务指导,使得它们能够专注于执行特定的、定义良好的任务。这种专注不仅提高了工作效率,还减少了错误发生的可能性。此外,流程化环境产生的大量操作数据为机器人的持续学习和性能改进提供了宝贵的信息资源。

●  高度封闭性:封闭的生产环境为机器人提供了一个稳定且受控的工作环境,这有助于减少外部变量对机器人性能的影响。封闭性还增强了安全性,因为机器人可以在没有人类干预的情况下工作,降低了事故风险。此外,这种环境允许机器人在不影响其他生产活动的情况下进行技术测试和迭代,从而提高学习与训练效率。


制造业,尤其是汽车、3C制造本身高度标准化、流程化和封闭性的特征,能够为人形机器人提供一个高度确定性的封闭环境。人形机器人可以针对特定的、重复性高的任务进行学习,积累训练数据和动作任务库,并有机会借助这一“助推器”,率先在制造行业实现可用性验证和性能泛化,摆脱“引力束缚”困境。



四、制造业是人形机器人产业迈向“星辰大海”的必经之路


依托在制造业“进厂打工”所积累的训练数据和任务库,人形机器人有望初步具备一定的泛化技能并在制造业的搬运、分拣、装配等环节验证其可用性,这为其在更复杂开放的环境中去适配更多的应用场景打下了基础。随着技术的不断进步和成本的逐渐降低,人形机器人的应用领域将进一步拓宽,其价值将在特种领域、toB服务、toC服务等多个领域得到发挥。


●  在特种行业,人形机器人以其独特的灵活性和适应性,能够执行人类难以或不愿执行的任务。例如,在搜索救援、灾难现场评估、核能设施维护、高温或带电作业等高风险环境中,人形机器人可以有效降低人员伤亡,提高作业效率和安全性。


●  在toB服务领域,人形机器人的测试验证场景已扩展到物流、零售、医疗等多个行业。在物流行业,人形机器人同样在物流仓库中“进厂实习”,进行货物的搬运、分拣和包装工作,提高物流效率,减少人工成本。在零售行业,人形机器人,尤其是轮式人形机器人,则在线下药店、便利店的货架整理、物品拿取等方面开展测试验证工作。医疗领域,业界正在探索将人形机器人用于病人情感陪伴、复健辅助等方面。


●  toC服务是人形机器人最大的潜在市场。随着技术的成熟和成本的降低,人形机器人有望成为家庭中的智能助手,承担清洁、烹饪、陪护等家务任务。此外,人形机器人还可以作为儿童的教育伙伴和老年人的护理助手,提供情感支持和生活辅助。多家人形机器人公司已发布家居服务领域的演示视频,但正如本文分析与探讨,人形机器人首先需要在制造业的封闭环境中验证其可用性并积累和泛化技能,在此之前,“演示视频”还依然停留在“演示”阶段,进入toC的家庭服务领域还有相当长的路要走,业界普遍估计人形机器人在这一领域的规模化普及还需要10-20年的发展。



五、总结与思考


制造业为人形机器人提供了一个可行的环境来作为“助推器”,以验证和提升其实用性。但仍需要清醒的认识到,人形机器人产业当前仍处在发展的极早期,这个“看得准终极目标,但看不准发展过程”的阶段,也同样在考验产业政策的灵活性和精确性。本文总结对产业发展的如下思考。


(一)近期内不宜设置收入或利润的量化发展目标


人形机器人产业尚处于发展的早期阶段,制造业的“进厂实习”为人形机器人提供了宝贵的实践机会和数据积累,但还远远未达到人形机器人规模化铺开的成熟阶段。从资本扶持层面,当前国有资本对高新技术产业的支持空前高涨,但国资基金需对这一新兴产业的发展阶段和应用规模有一定的耐心预期,避免过早设置收入规模和经营利润的量化要求,可更多关注被投企业在技术领先性、商业变现路径,以及相应市场估值上的提升。从产业政策扶持层面,避免过早将智能工厂之类的考核与人形机器人的应用挂钩,以免揠苗助长,造成行业发展的不合理预期和压力。


(二)“先B后C,先厂后家”设置行业场景发展目标与时间表


人形机器人的应用场景广泛,其技术要求和市场成熟度各异。在推动人形机器人产业发展时,应区分场景制定优先级和规划。例如,制造业由于其高度标准化和流程化的特点,成为人形机器人技术验证和初步应用的理想场所。而在家庭服务领域,由于环境的复杂性和任务的多样性,人形机器人的广泛应用可能还需要较长时间的研发和测试。产业政策规划中需充分考虑这些因素,为不同成熟度的场景设定合理的发展目标和时间表。


(三)以“鼓励”而非“主导”的方式建设训练数据的基础能力


如前文所述,高质量的训练数据是人形机器人发展的关键。当前,人形机器人产业面临的一个主要挑战是缺乏足够规模和多样性的训练数据。国内若干先行者厂商已经开展相关的探索工作,包括但不限于多模态数据集的构建与开放、合成数据的探索、仿真平台的开发等环节,如智元机器人、银河通用、穹彻智能、若愚科技、X Square、跨维智能等等。产业政策需尊重先行者对商业利益的保护,并鼓励产业社区以市场化机制进行开放共享,同时在促进人形机器人厂商和制造业典型企业的“进厂结对子”方面架设沟通桥梁,而无需主导创设独立的数据汇聚平台、仿真平台、中试基地等机构或平台。让数据的问题在真正的产业内各环节之间充分流转进而得以解决,方能促进整个行业的技术进步和创新。



致谢

感谢阿里云智能集团高级研究专家罗治兵为本文研究提供的理论支持和技术指导


参考文献



[1] Humanoids: Investment Implications of Embodied AI, Morgan Stanley, 2024

[2] The Path to General-Purpose Robots, Coatue, 2024

[3] Aligning Cyber Space with Physical World: A Comprehensive Survey on Embodied AI, PCL,Pengcheng Laboratory,2024

[4] Robotics Hardware Market Forecast, Omdia, 2024

[5] Intelligent humanoids in manufacturing to address worker shortage and skill gaps: Case of Tesla’s Optimus, Ali Ahmad Malik et al., 2024

[6] 中国人形机器人产业发展蓝皮书,高工咨询,2024


具身智能系列文章








 版块介绍 — 产业之声

 

紧跟产业发展脉搏,我们汇集行业领袖与企业的真实声音,在算力基础设施的规划与布局、能耗优化、大模型能力发展、大模型评测体系、产业应用案例深入研究、新技术与应用趋势前瞻探索等方面,剖析成功案例背后的逻辑与挑战,并提供基于产业深度洞察的策略建议。同时,我们依托于阿里巴巴集团在人工智能领域的全面布局,分享阿里的AI产业生态和应用的实践落地,探讨技术如何重塑产业格局并推动社会经济的转型升级。


推荐阅读

Reading

1、被“套壳”割韭菜,是谁在制造AI焦虑?

2、观察|“兼济天下”与“产业繁荣”:从中法联合声明看中国的“AI力”

3、智能背后的电能保障:GPU算力集群能源挑战的全球视角与中国应对

4、产业之声 | 阿里调研:生成式AI在电商场景的应用、前景与挑战

5、产业之声 | 生成式AI驱动的数据要素价值创造新模式

6、阿里云内部全面推行AI写代码,未来20%代码由通义灵码编写

7、安筱鹏:中国没有“百模大战”,也没有“十模大战”

8、达摩院AI助力农业育种,遗传学分析加速1000倍

9、安全治理与能力发展兼顾并重,Claude 3对中国大模型发展有哪些启示

10、【“人工智能+”深度案例】从智能工厂到ChatBI,雅戈尔的“智能+”实践

11、夸克:大模型时代,创造革新性搜索产品的探索之路

12、数字技术助力国产猕猴桃产业破解“即食”难题

13、AI驱动电商,淘天集团用科技定义商业

14、《自然·医学》刊登中国科学家关键突破:癌症筛查的黄金时代准备就绪

15、安筱鹏:制造业是AI大模型应用的主战场

16、【观点】阿里妈妈万相实验室首发上线 电商进入AI上新新时代

17、数字时代组织管理工具“钉钉HCM”重磅发布

18、产业之声 | 生成式AI驱动的数据要素价值创造新模式

19、产业之声 | 生成式AI在电商场景的应用、前景与挑战

20、产业之声 | 为AI供电-超万卡GPU算力集群的算电协同与零碳发展

21、产业之声 | “软硬兼施,以软带硬” - 缓解“算力焦虑”的模型与芯片协同优化策略

22、产业之声 | 安筱鹏:智算集群的“三个不等式”

23、“形”“型”合璧,恰逢其会-人形机器人是大模型技术的高级呈现形态

24、具身智能系列 | 人形机器人会替代机械臂吗?- 人形机器人在制造业中的定位与价值分析

25、产业之声|大模型问月:首个月球科学多模态专业大模型发布

26、OpenAI o1大模型的技术、安全与应用简析 | 积跬步,虽未至千里,仍指引前行

27、产业之声 | 安筱鹏:超越AI大模型的“加拉帕戈斯”效应


阿里研究院
依托阿里巴巴集团先进的AI科技能力、丰富的应用场景与负责任的技术生态,总结提炼科技发展的案例实践和治理经验,为产业政策制定实施提供科技企业的智识建议。
 最新文章