在去年11月工信部发布的《人形机器人创新发展指导意见》,将人形机器人称作“继计算机、智能手机、新能源汽车后的颠覆性产品”。乐聚机器人创始人冷晓琨在2024一次峰会上说,马斯克做擎天柱之前,他需要频繁向投资人解释为什么做人形机器人。但是在2022年10月,“擎天柱”作为特斯拉首款人形机器人亮相特斯拉AI Day之后,他就再也不用解释了。人形机器人,一夜之间不再被质疑。从2023年到现在,相关新公司、新产品、新融资消息不断出现。笔者参加活动,总能看到名场面——以几位人形机器人创业者为中心,一堆人将他们团团围住,当然其中也有我。创业者亮出自己的微信二维码,大家一边拿出手机扫码加微信好友、一边争先恐后地介绍自己,求合作。创业者淡定地表示感谢、再联系。但火,不意味着质疑声就此打住。质疑不会消失,只会转移。有的人在悄悄嘀咕“泡沫”“伪需求”“中看不中用”、除了科研市场,不知何时跑出第一个场景;也有的人,在行业活动上,问当红炸子鸡们,什么时候才能够实现规模化应用。2024年被誉为人形机器人元年。只是在这个元年里,人们期待人形机器人不但要跑得快、跑得稳,还得翻得了跟头、比得了心,甚至还赚得了钱。收集了一些疑问,我采访了峰瑞资本李罡。李罡是峰瑞资本早期项目负责人,关注硬科技,特别是软硬件结合的项目。峰瑞参与投资了多家具身智能项目,其中李罡主导投资了动易科技。在对话中,他传递了他的信心、判断与谨慎乐观。需要说的是在对话中,我们聊的有人形机器人也有具身智能,而峰瑞资本认为人形机器人是具身智能表现形态之一。01
峰瑞资本曾梳理过工业革命之后主要技术的发展周期,发现大部分技术的发展趋势呈现为s型曲线——两头向下、中间一段发展较快。整个周期约50年。这种长周期技术包括人工智能、芯片以及新能源革命等。具身智能也是如此。目前,具身智能刚经过第一个10年,以探索或者科研为主。传统机器人与具身智能机器人是两个物种。传统机器人的识别能力和运动规划能力仅限于有限范围、有限场景中的特定任务。且执行任务需要大量手工编程,难以实现泛化。而具身智能机器人开始扩展到在相对变化的场景中处理相对复杂的任务。具体表现有二:一大模型带来了理解或规划层面的突破,机器人可以更好地理解人的命令和理解环境的含义;二在运动控制方面表现得更好。软件Sim2Real和强化学习等方面的技术突破,较大提升了机器人在运动控制方面的表现。Optimus全身有50个自由度,分布在各个身体部位。这种控制复杂度用传统方法是难以实现的。而根据汉纳范人体力学模型,人类拥有76个自由度,人形机器人的自由度要超过60个才能够在模仿人类姿态方面达到“及格线”。软件对硬件提出了新要求。在感知方面,具身智能受益于相关产业的发展,例如激光雷达、自动驾驶和深度摄像头等感知技术的复用,但在触觉和力传感器方面也提出了新需求。在决策方面,具身智能在决策上有所进步,但多数应用依赖模块之间的信息传递,在端到端的机器人决策模型有待提升。在执行器方面,随着大模型的出现,机器人需执行更多复杂任务,因此新硬件需求出现。传统的吸盘和夹爪在灵活性和自由度上已无法满足需求,机械臂和灵巧手等高自由度执行机构成为新的发展方向。软硬件呈现出“鸡生蛋、蛋生鸡”的关系。尽管灵巧手和高自由度机械臂已面市,但软件尚未发挥出硬件优势,需二者相互促进,共同进步。(2024具身智能全景图1.0 来源:中国信通院 )
02
若以50年的时间维度看当下具身智能的形态、技术路线,当下的分歧和讨论是阶段性的、过程中的。它们最终在发展中走向统一。对于具身智能而言,人形机器人,李罡认为“大概率不是唯一的选择”,但却是“现在必须的路线”。前者是站在未来角度来谈的,将来机器人进入到家庭未必全都是人形形态,“从需求正推,其实也不仅仅推出来(人形)”;后者站在当下,贴近人的数据量大是促使大多数具身智能机器人呈现类人特征的重要原因。此外,从机器人需要适应人类的生存空间来看,在尺寸、重量和自由度等方面跟人差不多就可以了。“百花齐放”是当下国内具身智能企业所选择的技术路线的特点。就数据而言,有人认为使用仿真数据可以显著提升效果,有人认为使用视频数据进行训练更为有效,有人认为应先使用遥操作数据,而也有人认为应该像马斯克一样通过大量机器人采集真实环境中的数据。但李罡认为虽然各自的技术路线不同,但本质是一样的,“都是左边是数据,右边是应用,中间如何用AI来实现。”“数据有不同的渠道,模型也有不同的思路、方案,但是整个pipeline 感觉是比较相似的。”就硬件而言,目前市面上主要外形有类人形、四足或轮式结构,上肢通常采用六到七自由度的双臂,但末端执行器设计差异较大,有高自由度的灵巧手、中等自由度的灵巧手、三指手或夹爪等形式,以满足不同任务需求。此外,驱动形式也存在多种技术路线。围绕硬件的结构变化与创新一直就没有停过。硬件一方面为AI服务,另一方面也受益于AI的辅助设计。“预期近两三年能看到一些比较大的变化。”03
拿苹果,是李罡向我举的一个例子,以此说明语言模型和具身智能的差异。在家庭场景中,若向语言模型和具身智能下达“帮我拿一个苹果”的指令,二者的处理方式有所不同。以语言模型为例,它会通过语言逻辑分析“找苹果”这一指令,逐步关联一系列与“找苹果”相关的响应。可能关联到苹果在冰箱中,并给出“去冰箱找”的建议。而具身智能,不仅理解“苹果”这一概念,还会结合环境做出相应判断。首先,机器人会在桌面等显而易见的地方寻找苹果,若未找到,将进一步推理苹果可能在冰箱中,并执行“打开冰箱,找到并拿取苹果”的操作。从这个角度来看,具身智能对“苹果”的理解不仅限于词汇,更包括苹果的视觉特征和物理属性等。例如,具身智能知道苹果的大小、形状及质地,因此在拿取时会注意力度,以避免过度用力导致苹果被捏碎,或因力度不足而掉落。大语言模型类似于“缸中之脑”,能看到、听到、理解所有的东西但无法与真实世界直接交互。“它的智能可能是不完备的。”“脑子和身体的重要性是相当的。”具身智能将物理世界token化。从数据的角度来看,它采集到的数据是视频+多维传感数据,比语言数据至少多出3到4个数量级。从这个角度看,具身智能是对语言模型的补充。而具身智能本身也是AI探索世界的重要载体。两者殊途但终将同归,同归于AGI。04
若以50年的视角来看,具身智能创业者注定要走一条漫长、曲折向上的道路。初创公司需要先把产品做出来,然后找钱、搭建相对稳定的团队;它的苦恼或来自以后,想着如何根据市场需求进一步迭代产品。成长期的公司则面临当下的压力——收入压力和技术突破压力是实实在在的。以国内某具身智能公司为例,它硬件起家,是国内排得上号的具身智能企业,融了很多轮,出货量也不错。但无奈整体硬件市场尚在发育,营收不高,策略之一是等待,但投资人不同意。它开始做软件和应用,希望提升产品整体价值,以此扩大更多的市场份额。李罡说,“大家至少在某一个点上做出特色、做得足够深。因为具身智能也许在短期内难以实现质的突破,你必须有一些好的中间结果能给大家看到,不管是从公司发展上讲,还是从后续融资的角度来讲都是比较需要的。”05
热度出现,是当下必然性的情况。所谓市场过热,可以看作大家对具身智能的阶段性乐观,提前将企业的技术潜力折现出来。从50年的技术周期来看,具身智能是一个可以长期下注的赛道,中间将多次出现高峰和低谷。从VC投资的角度来看,李罡表示,峰瑞资本在赛道、企业、人三个维度精挑细选潜力股,因为好投资标的是投资机构无惧周期的关键所在。赛道:从大小脑、本体到传感器均有布局。但侧重点不同。投资软件比如大小脑时,关注核心研发能力和AI能力;投资传感器等硬件,关注其通用性,除了应用在具身智能领域还能够应用到其他行业。就李罡而言,这一两年,他首先关注的是软硬件结合的公司,其次是做核心传感器的公司,最后关注的是垂直场景的企业。企业:目标明确且人才密度足够高的团队。目标明确指的是有明确的发展方向和目标,比如李飞飞致力于做空间智能;人才密度指的是在一个规模不大的团队中,大部人的核心能力都是比较强的。人:主要指的是创始人。他需要具备以下特点:(1)技术广,创始人具有相对通用的技术能力。(2)韧性强,因为创业之路充满挑战,困难常出没。(3)高能量,年轻聪明,行动力强,学习能力强,有激情。“你只要觉得创始人的成长性很强,他的公司也都多半不会太差。”
*创业黑马(300688)是国内创业服务领域首家上市公司。16年来,已陪伴数万名创业者成长,服务企业数以十万计,留下了大量独家创业认知、方法论和丰富的实战案例。
扫描下方二维码
进入黑马智库,对接海量创业资源
与数万名创业者一起成长
(审核通过后,将有专属客服联络)
↓↓↓