马斯克画的饼,波士顿动力要实现了?

文摘   2024-10-31 22:15   江苏  

人形机器人行业又迎来一对新的强强联合。

近期,波士顿动力宣称,会使用丰田研究所的“大型行为模型”来训练机器人,它类似于驱动ChatGPT的“大型语言模型”,可以让机器人通过少量演示数据和多模态感知来掌握复杂任务,走向通用机器人。

Atlas正在搬运汽车的发动机盖,它先在架子上找到零件,然后找到目标位置,把一个个发动机盖搬运过去:

 让人印象深刻的是,波士顿动力还展示了Atlas在工作出错的时候可以自主纠正。零件摆放的时候没对齐位置导致放错了,Atlas赶紧拿出来,然后愣了下,再重新把零件放好:

这意味着Atlas可以进入一个“正常”的工作环境中工作,因为它可以适应工作中出现的突发情况,也可以适应形状不规则的集装箱、凹陷的卡车、不平坦的表面等不同的场景。

据了解,Atlas能够结合视觉、力和感知来检测环境变化(如移动固定装置)和动作故障(如未能插入盖子、绊倒、环境碰撞)并做出反应。

  当放好东西后需要转身继续作业时,Atlas 并不是像人类一样进行转身,而是以腰部为中心,头部、上半身和下半身分别旋转,从而能够减少机器人在作业过程中的移动:


在过去,这条技术路径一直是马斯克为Optimus(下称“擎天柱”)画的“饼”,想借此实现通用人形机器人。


今年10月初,马斯克以《We, Robot》为主题在加州开了一场“科幻”味儿十足的发布会。在现场,擎天柱以服务员的身份一边为宾客调酒,一边抬手打招呼说着“Hi,everybody”,甚至在现场和宾客热舞。

但发布会结束后,有现场宾客却表示,擎天柱“亲口”向他承认,自己是被远程遥控的。而整个发布会,马斯克也没有透露关于擎天柱的任何技术细节。

看似自主的机器人,依旧离不开人类的远程遥控。

马斯克并没有兴趣解答擎天柱当前的研发进度,那么作为马斯克在机器人领域的强敌, 波士顿动力这次与丰田研究所的联合,能将马斯克画的饼实现吗?

当前无论是老牌人形机器人波士顿动力的Atlas,还是“新贵”擎天柱、Figure,都只能在受限制的环境里执行单一任务,比如在案板前将已经分拣好的各种蔬果拿起或者放下。

▲Figure01拾取水果,图源Figure

要知道这其中的区别,可以想一想咱们自己家里的冰箱,当各种食材被混杂在一起、用透明塑料袋装着的时候,识别难度就会高于单个的西红柿、红薯。


所以如果将机器人自主做出一顿饭的难度,比作是登上珠穆朗玛峰,那么现在的人形机器人才刚刚坐进学步车。对,它还没有学会“走路”。


而更重要的是,当前机器人学习新技能的效率十分低下,比如学会了叠衣服之后,转而叠被子就要重新学习大量数据。


为了克服这个难题,波士顿动力和丰田研究院团队采用一种新的AI系统“大型行为模型”训练机器人,通过物理演示任务(例如观看视频)进行教学,来帮助将Atlas打造成一款自主性能力强的通用人形机器人。


经过这套“大型行为模型”的训练,机器人可以通过少量数据学习新技能,这种方法叫做“扩散策略”,这套策略可以探索多种不同的路径,并根据实时情况选择最佳方案,它可以帮助机器人更好地应对不确定性的环境,比如突然的障碍或任务变化。


丰田研究院公布了关于这一成果的报告,其中有一个通俗案例可以解释这个策略:


经过扩散策略训练的机器人,可以做酱汁烧注和涂抹任务,需要将酱汁涂抹在披萨面团中心,分拆步骤来看:


①握住勺子接近披萨面团中心;

②将酱汁以螺旋状铺在披萨上;

③提起勺子。


▲论文《扩散政策:通过动作扩散进行视觉运动策略学习》


在这个过程里,披萨面团会随机移动,而机器人可以“随机应变”,它能跟随披萨面团中心位置的迁移而即时挪动勺子。


根据丰田工作人员透露,学会这个能力并不费劲,“这个过程从老师远程操作演示一小部分技能开始”,机器人晚上学习,第二天就可以获得新技能。也就是说,它用少量数据向机器人演示,便能够让机器人获得“泛化”能力。


和传统的机器人学习相比,这种行为模型就像运动界的ChatGPT一样,给它一点行为上的Prompt,就能泛化出一套完成任务的操作轨迹和应变能力。


但并不是任何人形机器人都能适配这套策略,扩散策略更依赖视觉数据,这就需要硬件上拥有高精度视觉传感器,还要拥有抓取复杂和精细物体操作能力。


这也是目前波士顿动力面临的挑战。


其最新款人形机器人Atlas目前并不具备实现“自主”的硬性条件,它既没有灵巧手,又缺乏生活场景的数据。


Atlas机器人虽然具备一定的抓握能力,但其手部设计相对简单,只有三指,并且常用场景是应急救援和工厂搬运,对于生活场景的数据也相对缺乏。


与此相比,特斯拉的擎天柱却显得更有优势。


比如在视觉数据上,特斯拉的自动驾驶一直坚持纯视觉的解决方案,目前市场上运行着将近600万辆特斯拉汽车,可以积累大量的视觉数据。


其次擎天柱在灵巧手、关节有更接近人类的设计。在特斯拉最新展示的视频里,擎天柱可以走到桌边,用双手的“指尖”举起重11kg的4680电池盒。


这双机械手已经拥有22个自由度,分布在手指、手腕和小指下方,而年初手部拥有11个自由度的第二代擎天柱,所有手指都具有触觉感应,能够灵巧地处理鸡蛋等易碎物品。


▲擎天柱举起电池,图源:Tesla


所以,虽然波士顿动力和丰田研究院找到了一种更有效率的机器人训练方式,但想要比擎天柱更快实现真正的自主性,Marc Raibert或许需要联合他的老搭档——曾一起在MIT腿部实验室共事、丰田研究所的CEO兼丰田汽车公司首席科学家Gill Pratt,对目前Atlas的机械手作一番改造,并且补足视觉识别所需要的硬件能力。

擎天柱就像提线木偶,和背后操纵它的人类共同演了一场戏。

2024年1月份,他在X上发了一个擎天柱叠衣服的视频,并配文“擎天柱在折衬衫。

▲擎天柱折衬衫,图源X@Elon Musk

眼尖的网友从视频上看到一只快速闪现的手,擎天柱很快被质疑背后由人类远程操控,马斯克也亲自承认了这一点,他发了一条“重要提示”:擎天柱还不能自主地做到这一点。

相较于让“人形机器人更像人”,波士顿动力选择的是让人形机器人更实用的发展路线。看上去肢体活动有点“惊悚”的Atlas,在不同场景下能够用各种姿势随时复位、高效行动,对工业生产效率来说是非常重要的。

在展示视频中,波士顿强调了Atlas是完全自主运行,没有预设程序或遥控动作,可以使用机器学习算法理解并适应真实世界的环境。

波士顿动力公司曾自豪地表示,这款新Atlas是“世界上最具活力的人形机器人”。公司计划在未来几个月到几年内,通过与一小群合作伙伴的测试,逐步展示Atlas的各项功能,包括其全新的抓取系统,该系统能够举起和移动各种重物和不规则物体,确保Atlas适用于一系列商业需求。

  实际上,从2021年被现代汽车收购后,波士顿动力一直在加速自身的商业化步伐。波士顿公司在发布新款Atlas时曾表示,现代汽车团队正在构建下一代汽车制造能力,它也将成为 Atlas 新应用的完美试验场,并且电动版的 Atlas 将于明年初在韩国现代汽车工厂里开始进行试点测试,并会在几年后全面投产。

  从昨天发布的视频看来,这个试点的节奏加快了。机器人接管工厂的那一天,也似乎越来越近了。

北美人工智能
关注人工智能发展趋势 依托北美科技创新理念 为创业者实现梦想
 最新文章