宇树机器人这两天实在是出圈,发布的Unitree B2-W轮式机器狗,售价150w。从这个售价就这个狗不一般了,灵活性非常强,上天入地、飞檐走壁,能驮人飞奔,非常牛x...直接看呆了,有这个狗,黑悟空更干不过二郎神了。
另外OpenAI也要搞人形机器人,GPT-5的脑袋加Body,整个产业如火如荼的往前进。结果今天看到个视频号(机器人前瞻pro),宇树的机器人在世界智能制造博览会上摔了,很不聪明的样子,倒在地上还抽抽,那叫一个狼狈...工作人员手里拿个遥控器,一时不知道是扶还是遥控。说实话,又看呆了...
那这会不会成为宇树机器人的降温事件?
不会。不仅不会,而且会让人更加关注人形机器人的进展,因为人形机器人正处在“从实验室应用到现实世界中”的阶段,这个产业的每一个突破都意味着技术的巨大突破。
我们讨论3个问题:
1,为什么机器人一定要做成人形?
2,人形机器人从实验室(模拟)到现实世界最大的挑战是什么?
3,马斯克为什么要搞人形机器人,跟自动驾驶有什么关系?
首先第一个问题,为什么我们一定要造人形机器人,而不是各种其他形态的机器?
回答这个问题有两个角度。因为目前我们人类世界所有制造、规划、规则以及现实场景都是为了方便人类自身所进行的,适合我们的生活和工作。举个例子,我们买扫地机器人的前提是什么?是平地。但凡不平整或者有台阶的家里,弄个扫地机器人就得抓瞎,扫地机器人就是个过渡,留给这些公司的时间都不多了。
所以从融入现实世界的角度来说,机器人一定要是人形,才能够胜任更多的生活场景,能够跟我们人类更加的匹配和更好的交互,我们才能更习惯,这个世界才不会变得非常突兀。就像下面这个视频,是不是毫无违和感?弄个四四方方带底盘、圆圆的眼睛弯弯嘴的机器人是不是就很奇怪...
第二个角度,其实跟人类天性有关。作为唯一的高等智慧动物,探索人体结构、智慧和意识的产生、大脑的工作方式以及情感、自我认同等等领域恐怕会成为人类永恒的话题。笛卡尔就认为,人类之外的动物不过是没有任何内在世界的“野兽机器”。在他看来,生理调节的基本过程与精神或意识几乎没有关系。
恰恰人又极度的复杂和精密,人类目前对自己的了解程度仅仅只有5%,甚至都不到...对于人类来说,人形机器人才是最终追求目标,人类希望通过“制造机器人”来研究、理解人类,最终“超越自身”。虽然我一直认为“人超越人”是个悖论,但无论如何,说优越感也好、好奇心也行,“制造像人一样的机器人”一直是科学技术界的圣杯,一大批科学家因为这个使命而一直在努力,他们希望造出一个“硅基生命”,可以以它们独特的方式探索这个世界、掌握大量的知识,同时还能够自我进化。
下面从技术角度聊聊“人形机器人从实验室到现实世界的应用最大的挑战”是什么。
最大的挑战有3个,首先是意识范畴的挑战。美国一家人形机器人初创公司 Physical Intelligence的创始人Lachy Groom在接受Bloomberg采访时说:“我认为人们制造的人形的东西真的很酷,但从根本上让人类有趣的是大脑,而不是硬件。我们人类是终极的通才。”
Lachy从根本上回答了人和机器人的关系,所以我们大可不必担心什么机器人毁灭人类的桥段。人形机器人真的要大范围应用到现实世界,最大的挑战之一就是我们对自身的认识不够,包括前面讲的意识的产生、思维方式的差异以及脑科学等等,如果我们在脑机科等等学科领域无法提供很好的指引,那么人形机器人将很容易面临天花板,根本谈不上“有点像人”,这是一个非常长的过程。这不妨碍人形机器人在很多基础工作领域替代人类,但依然是“单纯的机器”,而不是我们希望的机器“人”。
然后是技术和工程实现层面的挑战,因为从实验室模拟到物理世界的大规模应用非常困难。之前英伟达Gear实验室的JimFan博士在一个采访中讲过:
“如果你在10,000个模拟中接受训练并且在它们中都表现优秀,你就有很大的机会成功地将其应用到现实世界。但实际情况并非总是那么简单,这取决于很多因素。其中之一是模拟的逼真度。你肯定希望模拟能尽可能地精确或者至少不在关键的领域出现系统性的错误。机器人的硬件本身也可能出现故障,软件实现现实应用时也可能存在错误。出错的可能性是多方面的。”
英伟达采用的是一种被称为"领域随机化"的方法,比如创建了10,000种不同的模拟环境,每一个环境都有不同的物理参数,比如重力、摩擦力、温度等等,如果模型能对所有这些变化保持良好的运作,那么理论上它就能有效地应对现实世界中的各种情况。
但问题的关键在于:我们不可能准确的知道现实世界的摩擦系数、温度、噪声环境等等,所以即使10000种模拟依然会有偏差,细微的偏差却可能让整个模型产生巨大的随机错误。这就要求在人形机器人的设计中,无论是模型还是物理硬件,都要具备一定的鲁棒性,让模型和肢体都能够在一个可允许的误差范围内工作。但是实际上这很难,因为这个事情更根本的底层逻辑是:
人们并不知道这样造人形机器人到底对不对...因为人类不是这么来的,我们只能通过我们理解的、同时觉得逻辑上还靠谱的方式造机器人而已。
所以目前还没有也不可能有什么公司和团队能完全解决人形机器人技术的问题,都是在AI时代寻求找到一个物理世界的载体,作为探索、数据获取、技术研究乃至人类自我研究。
这个层面对于硬件制造、模型和硬件协同有非常高的要求,目前在机器人零部件领域我们还面临很多技术和量产上的挑战,成本巨高,前面提到的宇树机器狗售价150w元,这种东西肯定不能普及,1w块钱感觉差不多,功能可以少一点,比如我不太需要骑着狗乱逛,这狗跑太快了...
人形机器人技术面临的第三个关键问题,也是现阶段的非常现实的难点——数据。目前的LLM都可以通过从互联网上获取已有的文本信息进行训练,通过提高算力以及源源不断的新数据供养从而获得智能涌现。但是优质的机器人的数据必须有相当大一部分要从物理世界中获得,也就是说,读万卷书,还要行万里路。机器人需要经过数以百万计小时的物理世界的真实训练,才能够获得足够的机器人数据。
这是为什么人形机器人的技术维度要比目前的GAI生成式人工智能要高的多的原因,因为人形机器人不仅需要大模型,还需要感知、获取数据、处理数据、响应以及模型反馈。显然,靠人形机器人从真实世界获得足量的数据进展会非常慢,这就需要一方面用现有数据直接喂给机器人,另一方面要直接去真实物理世界中采集。
最后的模型反馈这个是整个人形机器人的技术环节里最抽象的。假如我们通过GPT获得了“我该如何组装乐高”的答案,我们是可以自己上手做的。但是机器人需要的是动作的捕捉和实现,尤其是精细动作。通过模型和传动系统精确的控制灵巧手按照预定的“想法”有条不紊的完成,这非常困难。
了解了这些,上面Optimus“蒙上双眼”在山林里走的视频,真就让人大呼牛x。人类在蒙上双眼的情况下,肯定不如ta走得溜。所以即使我们拥有足够的算力,足够好的模型,足够的数据,如何利用这些能像人一样精确的控制机器人形成动作,这是世界级难题。
有了前2个问题的铺垫,我们最后聊聊马斯克的特斯拉+机器人的宏大构想。
首先是具身智能的技术结构。Gen AI(生成式人工智能)大模型,GAI在物理世界中的应用是人形机器人发展的最大推动力和底座,这是机器人像人类一样感知、学习并与环境交互的基础。机器人“大脑”的发展是推动人形机器人真正出现“智能涌现”的ChatGPT时刻的最关键因素。
高阶的机器人未来需要通用+专用具身智能模型(视觉-语言-动作模型或VLA)的持续发展,不仅要将类似人类的感官输入转化为机器人能够理解的数据和信息,还能够针对复杂多样的下游应用进行微调,最后控制各精密零部件实现运动和操作。随着AI/VLA的快速迭代,机器人获得了类似人类的感知和推理能力,机器人变得越来越通用,可以胜任越来越多人类的工作。
比如前面提到的Physical Intelligence的“第一步原型Pi Zero”的技术结构,主干是预训练的视觉语言大模型(VLM)。通过VLM,Pi Zero获得了语义推理能力。然后Pi Zero将模型输出数据有效地转换成为视觉-语言-动作模型 (VLA)。通过长期的推理、迭代和进化,Pi Zero在稳定性和安全性上都有了非常优秀的突破,从而开始物理世界的快速探索。
那么对于马斯克来说,X的数据可以直接用来训练AI,同时特斯拉汽车和Optimus则能够从现实世界中获取大量实时数据,这将成为AI发展的重要数据来源。
现实世界的数据量远超人类目前积累的数据,而且无穷无尽,丰富多样。Tesla几百万汽车每天都可以在现实中不断学习,累积大量真实有用的物理世界数据,这些数据是一般的类似于大模型公司所无法获得的,而且是多维数据,数据质量极其高。
这已经是明牌,马斯克就是想通过FSD进入中国,依托中国在电动汽车领域的一骑绝尘来获得源源不断的物理世界数据,尤其是中国地大物博、场景多样、人群多元,最重要的是我们的电动车发展碾压整个世界,恐怕再也没有比中国更好的数据搜集地了。
那么FSD进入我国,对于我们国家安全也是一个重大的挑战,这个不多谈。其实也好解决,因为解决安全问题永远都只有一个方法:用另一个安全问题来交换。就看我们上面的智慧了。
最后就是自动驾驶和机器人的关系。未来没有自动驾驶能力的车企都将被淘汰,同时巨头车企在获得自动驾驶能力的过程中,最好涉足人形机器人。实时搜集海量的物理世界数据是一方面,另一方面是因为自动驾驶和人形机器人天然的具有互补性。
大家想过怎么解决无人驾驶汽车驾驶座上空荡荡、方向盘自动操作的恐惧么?
让人形机器人坐在驾驶座开车。
好歹有个东西,不至于空荡荡。另外两套AI,不同视角,不同维度,最大限度的实现安全驾驶。因为未来如果人形机器人普及,我们外出必然要给ta留一个座位,最好就是搁在驾驶位。那么特斯拉未来就可以边卖车边卖Optimus,全能司机要不要?
关于投资,机器人是长期大主题,是时代大机会,会反反复复的有大机会。尤其是明年,人形机器人将会此起彼伏,好不热闹,现在仅仅是预热而已。
(全文完)
扫码加入
硬件技术交流群