机器人类型也多得令人眼花缭乱,比如“上蹿下跳”的机器狗、整齐划一“摇曳”的机械臂,还有可以做到不把酒撒出来的“送餐小能手”等。
不论是机器人数量还是参展热度,人形机器人都堪称“C位”。据官方表示,这是人形机器人数量最多的一届大会,而现场几乎一半的观众都集中在人形机器人公司的展台。
这些人形机器人高矮胖瘦各不相同:从仅有110cm的加速进化“小巧”型Booster T1,到足有185cm的“壮汉”型青龙机器人一应俱全。每一家机器人的机械臂形态、电池位置,脸部造型,乃至移动方式都风格各异,但他们都在卖力地表演着“绝技”。
论武,它们能打咏春、拳击、跳“海草舞”,甚至能在有钢管的地上跑步飘逸;论文,它们会写毛笔字,还能做菜、洗衣、叠衣。在多个展台上,机器人们显得一派绝活学尽,就等着进厂打工或是去客户家服务的高昂姿态。
(逐际动力双足机器人P1上坡)
但一位长期关注人形机器人赛道的投资人逛完展会后,却对腾讯科技表示:“我一个也不想投了”。
他们目前既不够有用,又拉不开差距。
比如,工业场景人形机器人,主要任务是做拣选和小范围的搬运、挪动,但现有的传统自动化机器人已经有很成熟的方案,再做人形机器人意义不大。而聚焦家用场景的人形机器人主要任务就是烹饪、叠衣服、炒菜,虽然各家机器人在这类场景的完成度有差异,但投资人表示,“你能做到的对手也能做到,并不存在不可逾越的差距,只是时间问题而已”。
经腾讯科技不完全统计,此次大会一共有28家人形机器人公司参展,各家公司产品的服务场景除了科研之外,多数都集中在工业或家用场景。
从腾讯科技的统计可以看到,这些机器人的机械性能差异不小,比如自由度、峰值扭矩等指标,最多能有5倍差距;单拿移动速度来看,最快的一级能达到7km/h以上,慢的却只能做到2.5km/h。但在软件基础——大模型层面上,各家却很难拉开大的差距。
而这本应是今年人形机器人的最大亮点。
因为比起特定应用的工业机器人,“人形”这类型的机器人设计其实并不高效。它最大的优势就在于更能实现在人类社会中的“通用”,即人类不需要为了方便机器人的运转而特意改造环境,人类的双手能够着、双腿能抵达的地方,人形机器人也可以。
而实现“通用”的关键就在于有足够强的通用模型。
对这位投资人来说,展会内软件突破有限的人形机器人已让他感到审美疲劳。“现在能让我眼前一亮的,大概是真正拥有泛化能力的机器人”,比如一个会拖地的家庭服务机器人,可以不用主人发号指令,就能自己想到主动去房间铺个床,干个活。
腾讯科技沟通了多位关注机器人赛道的投资人,他们普遍认为,做人形机器人,硬件本体并不存在真正意义上的壁垒,软件才是难题,因为它决定着人形机器人的泛化能力,只有拥有强大的泛化能力,人形机器人才能在多种任务场景中工作,才能更接近“通用性”。
但通往AGI是一个美好的理想,除了要奔向远方,也要结合当下的技术条件循序渐进。
虽然今年的人形机器人赛道让VC们略感失望,但和往年相比,我们发现这个赛道其实也有一些值得关注的新变化。
此外,和去年相比,今年又多出一家做表情的机器人公司“数字华夏”,它的人形机器人“夏澜”在现场和观众做起了互动:
(图:数字华夏机器人“夏澜”)
除此之外,也有很多产品并不讲究把“表情”做得多么细致,有的压根连“脸”都没有,还有部分做了“脸”的公司则选择了笼统的“头盔”样式。
仔细留意会发现,不论是国外波士顿动力电动Atlas、马斯克的Optimus Gen2、Figure 01,还是国内智元新上的“远征A2”、宇树公布的新品“G1”、优必选会进厂打工的“Walker S”等,它们都顶着一张相似的“钢铁”面庞。
这些人形机器人面部材质几乎都使用黑色的玻璃面罩,用LED镶边,宇数创始人王兴兴在WRC 2024之前的交流会上表示,“我对G1的头部设计很满意,短时间内不会改变”。
或许其中一个原因是,这类面部本身就是一个屏幕,上面可以出现任何抽象符号,方便组成表情,向人类传递情感。
比如,Figure01或Figure02在说话的时候,面部会呈现OpenAI的标志性符号,虽然算不上真正的表情,但也让和它交流的人类感受到“你正在认真听我讲话”。
其实,回溯人形机器人“鼻祖”——第一版波士顿动力机器人“液压”Atlas的外貌,你会发现,它连基本的“脸”都不存在,更谈不上有表情,它的面部看上去有点“糊弄”,只用了几根略粗的钢管和带有两个孔的器件,简陋地搭建了一张Atlas的脸。
这可能源于波士顿动力创始人Marc Raiber的一段信念,他曾在接受访谈的时候表示,“能力、灵巧、感知和智力才是机器人的关键功能,其它的都不重要。”
(图:波士顿动力液压Atlas)
直到2021年,一则液压Atlas舞蹈视频“Do You Love Me”爆红,Marc Raiber才开始认可“仿生”对于人形机器人与人类情感交流的重要性,或许正是这一段渊源,2024年的电动Atlas才拥有了一张“头盔式”面庞。
这类头盔式脸庞在审美和功能性上都有一定的作用,比如它们的主色都是“高级黑”,代表着十足的科技感,并且头盔式的设计可以减少外部环境对传感器和摄像头的损害,如灰尘、碰撞或其他物理损害。更重要的是,它们可以规避“恐怖谷效应”给人带来的不适感。
“头盔式”的抽象派十分受欢迎,但仿生派也一直在研究如何将机器人的表情做得更像人,这一领域主要有两种技术路线:自主式和远程操控式。自主式机器人通过机器学习和算法驱动来生成面部表情,而远程操控式机器人则依赖操作员的指令来模仿其面部表情。
例如,哥伦比亚大学工程学院的创新机器实验室开发了一款名为Emo的机器人。该机器人采用自我监督学习框架,能够预测人类的面部表情,甚至可以在一个人微笑前的840毫秒内做出预测,与人类同步微笑。
而更早的时候,有学者为了更好地练习机器人模仿人类表情,开发出开源机器人Eva,并发表论文解释了机器人表情驱动的原理。
这些钢丝穿过管子,连接到头骨内的各种伺服电机上,“为了产生面部表情,需要启动12个伺服电机中的特定子集,从而拉动钢丝并使面罩变形,以模拟面部肌肉在做表情时如何使皮肤变形。”简单来说,钢丝可以通过工作人员发出的指令,组合式地驱动多个伺服电机,将力传导到面罩上,从而形成机器人的“表情”。
在WRC 2024上,EX机器人CEO李博阳对腾讯科技说道,“EX机器人的面部集成了几十组自由度,并且通过EX自研的一套系统完成对表情的驱动。同时,开发一套情绪模型,便于机器人进行情感分析,并将其映射到表情上。”
把人形机器人做得无限逼近人类,似乎是一种执念,WRC 2024上的活跃的“仿生派”,正是这一执念的显化。
在今年的机器人大会上,人形机器人不光数量大幅提升,这些甚至只是第一代的产品还直接纷纷宣布量产,能够进厂打工了。他们一路小跑,跟上了前辈特斯拉Optimus的脚步。
但讲到机器人的性能时,相关工作人员承认,目前只能达到人类效率的20%-30%,而且电池续航仅有两个小时。续航短也是业内人形机器人的普遍问题。
这样水平的机器人量产、进厂,真的是为了工业化落地吗?并不是。
这就需要再次聊起,上文投资人曾提到的机器人的“泛化”能力,这是需要大量数据的。
那需要多少数据呢?
比如在UniX-AI的站台上,他们装载了大模型的Wanda机器人一口气展示了包括洗衣服、叠衣服、制作汉堡、3D清洁等多项任务。这一过程中最令人印象深刻的就是Wanda洗衣服的场景,它首先接受到人类对它的命令,之后自动寻路去寻找脏衣服,并把它投放进洗衣机中。这看起来已经颇具独立完成全流程任务的能力了。
(星尘智能的S1机器人正在写字)
他们在固定的展位上做着各种大差不差、非常有限的工作,甚至流程看起来都很程式化。这一时间让人恍惚,好像回到了大模型到来之前的编程机器人时代。
在机器人大会期间的采访中,作为RT-X项目的参与者的Wolfram Burgard教授就认为当下的基础模型训练方式有着能效上的巨大问题——它需要太多的算力和数据才能达到泛化的门槛。
他举了个例子——在RT-X数据集项目中,虽然他们收集了超过100万个片段,覆盖了机器人的500多项技能和在16万项具体任务上的表现,但当桌子高度稍有不同,RT-2就可能完全无法正确进行任务了。
(RT-X数据集中的数据示例)
这就意味着,我们离真正泛化的具身智能ChatGPT时刻,可能还差着至少半个互联网那么大的数据量。
因此,在这场达成“泛化”的比赛里,能够先批量获得数据的企业才能占据先机。因此获得有效数据,是很多机器人公司在台下最火热的战场。
智元机器人发布会上,稚辉君就宣布了智元的数据采集计划。他们预计9月底建成有100台左右机器人的采样厂,对应150个工人,接下来进入数据量产阶段,目标是一个工人1000条数据/天,当前是600条/天。这就已经占据了他们预期“量产”机器人数量的1/3。当然,投入自有回报,按他们给出的数据,这个数据工厂10天就可以收集到和RT-X数据集一样大的量级。
而UniX-AI和星尘智能这些剑指具身智能实现的后起之秀,也强调自己在数据采集方面的投入。UniX-AI创始人杨丰瑜提到,他们在对机器人的训练中已经用到了在虚拟环境的模拟训练,以及视频采集分析这些“新采集方法”得到的数据。
但据智元透露,目前这些真机采集数据非常贵。即使采用大规模的生产,成本也需要0.4元/条。即使在模拟环境下获取的仿真数据,也需要真人数据60%-70%的成本。
那怎么才能更好地、更便宜地收集数据呢?进厂打工也许就是个对双方都有利的选择。机器人能获得一个收集实践工作相关数据的真实场景,而相关的人力成本可能都能节省下来;相关企业则能获得智造探索的行业经验,又可以多一个宣发口径。
消化了“量产”人形机器人中相当一部分的现实企业,不过是现阶段人形机器人的另一个数据工厂罢了。
(智元“灵犀”系列)
本文作者周小燕 郝博阳,首发于公众号“腾讯科技”(ID:qqtech),欢迎关注。
科普视频
AI革命持续发生,赋能机器人真正觉醒。联想集团再度发布硬核科普视频,首次完整呈现机器人工业、移动、智能与神经,三支路径的百年科技角逐历史。解读具身智能重构生产关系,直接作用于实体经济,使AI向实,为新工业革命带来的深远影响。