作者|Hans Peter Brondmo
来源|WIRED
编译|杨雪涵
2016 年 1 月,我正式加入 Alphabet 的秘密创新实验室 Google X。我的主要工作是帮助谷歌收购的 9 家机器人公司解决一些关于员工和技术方面的疑难杂症。此前负责此项工作的“安卓之父”安迪·鲁宾突然离职,拉里·佩奇和谢尔盖·布林抽空偶尔飞过这里时,一直试图为其指导方向。几个月前,Google X 负责人阿斯特罗·泰勒同意将所有负责机器人研究工作的职员带入实验室,该实验室被命名为“登月计划”。
我之所以也参与进其中是因为 Astro 让我相信 Google X(后来简称X)与其他企业创新实验室不同。这里的创始人们敢于大胆思考,他们拥有所谓的“耐心资本”来实现目标。在创办和出售多家科技公司之后,我愈加觉得其愿景很适合我。X 似乎就是 Google 本应做的事情。我从亲身经历中知晓,建立一家能够改变宇宙的公司(引用史蒂夫·乔布斯的名言来说)是多么地困难,我相信 Google 会是进行某些重大赌注的不二之选。人工智能机器人,即有一天将与我们一起生活和工作的机器人,就是这样一个大胆的赌注。
八年半之后——在谷歌决定停止其在机器人和人工智能领域的研究之后的 18 个月——似乎每周都会出现一家新的机器人初创公司。我比以往任何时候都更加确信机器人需要到来。但我担心,硅谷一直以来都专注于创造“最小化的可行产品”,而风险投资公司普遍不愿投资硬件,因此他们不会有足够的耐心为赢得人工智能打造机器人本体的全球竞赛做准备。目前投入的大部分资金都并未击中要害,原因如下:
“登月计划”的意义
Google X 是Everyday Robots以及后来的登月计划实验室的所在地。由于一个伟大的想法,Google X正式于2010年诞生:谷歌可以解决世界上的一切难题。X的选址特意设在距离主校区几英里的大楼里,以培养自己的文化,并允许大家跳出思维定式。鼓励 X 员工敢于冒险、快速试验、甚至庆祝失败已成为了我们的日常,这足以表明标准之高。在我正式加入时,实验室已经完成孵化了 Waymo、谷歌眼镜和其他听起来像科幻小说的项目,例如飞行能源风车和平流层气球,这些项目将为弱势群体提供互联网接入。
X 项目与硅谷初创企业的区别在于,X 鼓励创业者进行长远而宏大的思考。事实上,要想被冠以“登月计划”的称号,X 有一个“公式”:首先,该项目需要证明它正在解决一个将会影响数亿甚至数十亿人的问题。其次,必须拥有一项突破性的技术,让我们看到解决问题的突破性方法。最后,需要有一个激进的业务或产品解决方案,最好听起来尽可能的疯狂。
人工智能本体问题
不会有任何人要比Astro Teller这个“登月计划队长”更适合管理 X 。在 Google X 大楼(一座由百货公司改建而成的三层巨型大楼)里,你常常会碰见 Astro 穿着标志性的旱冰鞋,扎着马尾辫,挂着面带友善的微笑,当然,听着Astro 这个名字本身,你都会觉得自己仿佛进入了 HBO 的《硅谷》的其中一集。
当 Astro 和我第一次坐下来讨论如何处理谷歌收购的机器人公司时,我们一致认为的确应该实实在在地做点什么。但该做些什么呢?迄今为止,大多数可用机器人体型庞大、笨拙且危险,只能在工厂和仓库内使用,它们往往需要严密监管或被关在笼子里以保护人们免受它们的伤害。我们如何才能制造出在日常环境中有用且安全的机器人?这需要我们推陈出新。我们要解决的最大问题是全球人类的大规模转变——人口老龄化、劳动力萎缩、劳动力短缺。我们的突破性技术——早在 2016 年就知道——一定会是人工智能。因此解决方案便是打造出完全自主的机器人,它将在帮助我们完成日常生活中的任务占比越来越重。
换句话说,我们要为人工智能赋予一个实体,如果你问我有哪个地方可以制造出这种东西,我的回答一定只会是 X。但这需要很长时间,需要极大的耐心,需要愿意尝试各种疯狂的想法,且许多想法都会面临着失败。这需要在人工智能和机器人技术方面取得重大技术突破,而且很可能要花费数十亿美元。但团队深信,如果我们把目光放得长远一些,人工智能和机器人技术的融合是不可避免的。我们认为,迄今为止只存在于科幻小说中的许多东西即将成为现实。
它将会成为你的“母亲”
几乎每周我都会和妈妈通一次电话。通话的开头总是一模一样:“机器人到底什么时候来?”她甚至都不会和我问好,她只是想知道我们的机器人究竟什么时候会出现在她眼前帮她做些实事。我只能说:“妈妈,还要等一段时间。”“他们最好快点来!”
我的妈妈住在挪威奥斯陆,享受着良好的公共医疗服务;护理人员每日来她公寓三次,帮助她完成一系列的任务和家务,这些家务大多与她晚期的帕金森病有关。即便这些护理人员能够帮助她独自生活在自己的家中,但她仍然希望机器人能够帮助她处理现在已成为难以克服和令人尴尬的障碍的无数小事,甚至仅仅只是给她一只可以依靠的手臂。
这真的很难
“你知道机器人技术是一个系统性问题,对吧?”杰夫用探究的目光看向我。每个团队似乎都有一个“杰夫”;杰夫·宾汉姆就是我们的杰夫。他是一个瘦削、认真的人,拥有生物工程博士学位,在农场长大,以博学多识闻名,对……几乎对所有事情都有着自己深刻的见解。直到今天,如果你问我关于机器人的问题,我首先一定会告诉你,嗯,这是一个系统问题。
Jeff 反复强调的一件重要事情是,机器人是一个非常复杂的系统,其性能的好坏取决于其最薄弱的环节。如果视觉子系统在阳光直射下难以感知前方的事物,那么当一束阳光透过窗户射进来时,机器人可能会突然失明并停止工作。如果导航子系统无法识别楼梯,那么机器人可能会从楼梯上摔下来并伤到自己(也可能会伤到无辜的旁观者)等等。制造一个可以与我们一起生活和工作的机器人很难。真的很难。
几十年来,人们一直在尝试编写各种形式的机器人程序,让它们执行哪怕是极其简单的任务,比如抓起桌上的杯子或打开一扇门,但这些程序总是十分脆弱,只要条件或环境发生哪怕是最轻微的变化,它们就会失败。为什么?因为现实世界缺乏可预测性(比如那束阳光)。而我们甚至还没有走到解决真正的难题那步,例如在我们生活和工作的地方穿过杂乱无章的空间。
一旦你开始仔细思考这一切,你就会意识到,除非你把所有东西都锁得非常严实,所有物体都放在固定的、预先设定好的位置,光线要恰到好处,永远不变,否则,简单地拿起一个青苹果,把它放在厨房桌子上的玻璃碗里,就会成为一个几乎不可能解决的问题。这也是为什么工厂机器人被关在笼子里。从灯光到它们工作的物体的摆放位置,一切都是可以预测的,它们不必担心撞到人类的脑袋。
机器人学习
但实际上你所需要的只是 17 名机器学习人员。拉里·佩奇告诉我,这是他普通而又难以理解的见解之一。我试图争辩道,我们不可能仅凭少数机器学习研究人员就为与我们一起工作的机器人构建硬件和软件基础设施。他不屑地向我摆了摆手。“你只需要 17 个人。”我很困惑。为什么不是 11 个人?或者 23 个人?我好像忽略了一些东西。
归根结底,在机器人中应用人工智能有两种主要方法。第一种是混合方法。系统的不同部分由人工智能驱动,然后通过传统编程拼接在一起。通过这种方法,视觉子系统可以使用人工智能来识别和分类它所看到的世界。一旦它创建了它所看到的对象的列表,机器人程序就会收到这个列表,并使用代码中实现的启发式方法对其进行操作。如果编写的程序是从桌子上捡起那个苹果,那么这个苹果将被人工智能驱动的视觉系统检测到,程序会从列表中挑选出“类型:苹果”的某个物体,而后使用传统的机器人控制软件将其捡起。
另一种方法是端到端的学习,即 e2e,它试图学习整个任务,如“拿起一个物体”,甚至更全面的任务,如“整理桌子”。学习是通过让机器人接触大量训练数据来实现的——就像人类学习执行体力任务一样。如果你让一个小孩拿起一个杯子,取决于他们的年龄而言他们可能还需要学习什么是杯子,杯子里可能装有液体。然后在玩杯子时,反复打翻杯子,或者至少洒出很多牛奶。但通过示范、模仿他人和大量的游戏练习,他们会习得这样的行为——最终甚至不必考虑步骤。
我开始相信 Larry 所说的话,除非我们最终证明机器人可以学会执行端到端任务,否则一切都不重要。只有这样,我们才有机会让机器人在混乱而不可预测的现实世界中可靠地执行这些任务,使我们有资格成为登月计划。这与具体的数字 17个机器学习人员无关,而是与重大突破需要小团队,而不是工程师大军的事实有关。显然,机器人不仅仅只是需要AI 大脑,所以我没有停止我们的其他研究工作——我们仍然必须设计和制造一个物理机器人。不过,很明显,机器人能够成功完成端到端任务会给予我们加倍的信心,用登月计划的说法,我们甚至可以摆脱地球的引力。在 Larry 的世界里,其他一切基本上都是“实施细节”。
手臂农场
Peter Pastor 是一位德国机器人专家,他获得了南加州大学的机器人学博士学位。在工作之余,Peter 偶尔会在风筝冲浪板上和他的女朋友嬉闹。在实验室里,他花费了大量时间操控 14 个专有机器人手臂,后来又换成了七个工业 Kuka 机器人手臂,我们称这种配置为“手臂农场”。
这些机械臂 24 小时内不间断地运转,反复尝试从垃圾箱中拾取海绵、乐高积木、小黄鸭或塑料香蕉等物品。一开始,它们会被编程为将爪状夹持器从上方的随机位置移到垃圾箱中,然后闭合夹持器、向上拉,看看它们是否成功抓到了东西。垃圾箱上方有一个摄像头,可以捕捉垃圾箱中的物品、机械臂的运动以及成功或失败。这种实验就这样持续了几个月。
一开始,机器人的成功率只有 7%。但每次机器人成功时,它都会得到积极的强化。(这基本上意味着,对于机器人来说,神经网络中用于确定各种结果的“权重”会进行调整,以积极强化期望的行为,并消极强化不期望的行为。)最终,这些手臂在 70% 以上的时间都能成功拾起物体。有一天,彼得给我看了一段视频,视频中,机器人手臂不仅伸手去抓黄色乐高积木,而且还推开其他物体,以便更清楚地定位目标,在那一刹那,我们已经到达了一个真正的转折点。机器人并没有使用传统的启发式方法进行明确编程来做出这一动作,换句话说,它已经完成了自主学习。
但即便如此,七个机器人还是要花几个月的时间学习如何捡起一只小黄鸭?这还远远不够。即使数百个机器人练习多年,也不足以教会它们执行它们第一个有用的现实世界任务。因此,我们构建了一个基于云的模拟器,并在 2021 年在模拟器中创建了超过 2.4 亿个机器人实例。
我们可以将模拟器想象成一个巨大的视频游戏,它拥有一个真实世界的物理模型,该模型足够逼真,可以模拟物品的重量或表面的摩擦力。成千上万的模拟机器人将使用模拟摄像头输入和模拟身体(模仿真实机器人)来执行任务,例如从桌子上拿起杯子。它们将同时运行,并会尝试并失败数百万次,以收集数据来训练人工智能算法。一旦机器人在模拟中表现出色,算法就会转移到物理机器人上,在现实世界中进行最后的训练,这样它们就可以表现它们习得的新动作。我一直认为模拟实验就像机器人整晚都在做梦,然后醒来时学到了新的东西。
数据才是关键
当我们醒来看到ChatGPT 的诞生的那天,感觉就像变魔术一样。一个由人工智能驱动的系统突然可以写出完整的段落、回答复杂的问题并参与持续的对话。与此同时,我们也开始了解它的根本局限性:它需要大量数据才能实现这一点。
机器人已经能够利用大语言模型来理解口语,利用视觉模型来理解它们所看到的内容,这为 YouTube 上的演示视频提供了很好的素材。但教导机器人自主地与我们一起生活和工作是一个同样巨大的数据问题。尽管有模拟实验以及其他方法来创建训练数据,但机器人不太可能在某一天“醒来”时就拥有控制整个系统的基础模型,从而拥有强大的能力。
目前仅用人工智能就能教会机器人执行的任务有多复杂尚无定论。我相信,需要成千上万甚至数百万个机器人在现实世界中做事,才能收集到足够的数据来训练端到端模型,让机器人完成除去相当狭窄、定义明确的任务之外的任何事情。制造能够执行可用的机器人——比如打扫和擦拭餐厅里的所有桌子,或者整理酒店里的床铺——在未来很长一段时间内,都需要人工智能和传统编程。换句话说,不要指望机器人会在短期内不受我们的控制,做一些编程之外的事情。
但他们应该长得像我们一样吗?
马借助四条腿行走和奔跑非常高效,人类设计的汽车都有四个轮子。人类的大脑是极其高效的生物计算机。然而基于芯片的计算机的性能却远不及我们的大脑。为什么汽车没有腿?为什么计算机不以我们的生物学为模型?我的意思是,制造机器人的目标不应该只是模仿。
有一天,我在与 Everyday Robots 公司的一群技术领导开会时了解到了这一点。我们坐在会议桌旁,热烈讨论我们的机器人究竟是应该安腿还是安轮子。这样的讨论往往演变成宗教辩论,而不是基于事实或科学的辩论。有些人非常执着于机器人应该看起来像人的想法。他们的理由很充分。我们设计了我们生活和工作的地方来容纳我们。我们有腿。所以机器人也许也应该有腿。
大约 30 分钟后,房间里最资深的工程经理文森特·杜罗 (Vincent Dureau) 发言:“我认为,如果我能做到,机器人也应该能做到。”文森特坐在轮椅上,房间里安静下来,辩论结束了。
事实上,为机器人安装腿部在机械和电子方面非常复杂。它们移动速度不快,且很容易使机器人不那么稳定。与轮子相比,它们的能效也不是很高。如今,当我看到公司试图制造人形机器人(试图紧密模仿人类形态和功能的机器人)时,我想知道这是否是想象力的失败。有这么多的设计可以探索,可以与人类相辅相成。为什么非要折磨自己去强行模仿呢?在 Everyday Robots,我们试图让机器人的形态尽可能简单——机器人只有越早地执行现实世界的任务,我们就能越快收集有价值的数据。Vincent 的评论提醒我们,我们需要首先关注最困难、影响最大的问题。
办公室职责
当时我正坐在办公桌前,我们的一个单臂机器人走了过来,它的头部呈长方形,四角圆润,叫着我的名字,说它是否可以帮我收拾一下。我答应了,然后走到一边。几分钟后,它捡起了几个空纸杯、一个星巴克的透明冰茶杯和一个 Kind 巧克力棒的塑料包装纸。它把这些东西扔进了底座上的垃圾桶,然后转向我,向我点了点头,走向了下一张办公桌。
这项整理办公桌服务代表着一个重要的里程碑:它表明我们在机器人难题的一个未解部分上取得了良好进展。机器人正在使用人工智能来可靠地看到人和物体!软件工程师、前木偶师 Benjie Holson 领导了这项服务的团队,他是混合方法的倡导者。他并不反对端到端学习任务,只是抱着一种让我们现在就尝试让它们做一些有用的事情的态度。如果机器学习研究人员解决某些端到端任务的能力比他的团队编程能力更强,他们就会把新算法纳入他们的方案中。
我已经习惯了我们的机器人四处走动,做着整理桌子之类的杂务。偶尔我会看到几位访客或是刚加入团队的工程师看着机器人忙碌时,脸上露出惊奇和喜悦的表情。透过他们的眼睛,我真正地意识到这是多么新奇。正如我们的设计主管 Rhys Newman 有一天在机器人经过时所说的那样,“这似乎已经成为常态了。这很奇怪,不是吗?”
尽情跳舞
Everyday Robots 的顾问团队包括一位哲学家、一位人类学家、一位前劳工领袖、一位历史学家和一位经济学家。我们激烈地讨论了经济、社会和哲学问题,例如:如果机器人与我们生活在一起,会产生何种经济影响?对劳动力的长期和短期影响如何?在智能机器时代,成为人类意味着什么?我们如何以更受欢迎和安全的方式制造这些机器?
2019 年,我告诉我的团队,我们正在寻找一位驻场艺术家,用我们的机器人做一些有创意、奇怪和意想不到的事情,之后我遇到了Catie Cuan。Catie当时正在斯坦福大学攻读机器人和人工智能博士学位。真正引起我注意的点是,她曾是一名专业舞蹈演员,曾在纽约大都会歌剧院芭蕾舞团等地表演。
你可能在 YouTube 上看过机器人跳舞的视频——机器人表演时,会按照预先设定的顺序,与音乐同步,做出一系列的定时动作。虽然那看起来很有趣,但这些舞蹈与你在迪士尼乐园体验到的舞蹈并没有什么不同。我问凯蒂,如果机器人可以像人一样即兴表演并相互交流,或是像鸟群或鱼群一样,将会是什么样。为了实现这一点,她和其他几位工程师开发了一种人工智能算法,该算法根据编舞者的偏好进行训练。当然,编舞者就是凯蒂。
通常在晚上,有时是周末,当机器人不忙于日常工作时,凯蒂和她的临时团队会把十几个机器人聚集在 X 中心的一个大中庭里。成群的机器人开始一起移动,虽然有时会卡住停顿不前,但总是以有趣的模式移动。这种画面常常让人感到好奇,有时甚至优雅而美丽。汤姆·恩伯森 (Tom Engbersen) 是一位来自荷兰的机器人专家,业余时间会绘制经典杰作的复制品。他与凯蒂合作开展了一个副业,主要探索跳舞机器人如何对音乐做出反应,甚至演奏乐器。有一次他灵光乍现:如果将机器人变为乐器会如何?这开启了一项新型探索,机器人的每个关节在移动时都会发出声音:当底座移动时,它会发出低音;当夹持器打开和关闭时,它会发出铃声。当我们打开音乐模式时,机器人每次移动都会创作出独特的管弦乐曲。无论是在走廊里行走、分类垃圾、清洁桌子还是成群“跳舞”,这些机器人的动作和声音都像是一种新型的平易近人的生物,与我以往见过的任何东西都不为相同。
2022 年末,究竟是采用端到端还是混合的讨论仍在持续。Peter 和他的队友以及 Google Brain 的同事一直在努力将强化学习、模仿学习和 Transformer(LLM 背后的架构)应用于多个机器人任务。他们在展示机器人可以以通用、稳健和有弹性的方式学习任务方面取得了良好的进展。与此同时,由 Benjie 领导的应用程序团队正在努力采用 AI 模型并将其与传统编程结合使用,以制作原型并构建可在现实环境中帮助人们的机器人服务。
与此同时,Catie 的多机器人装置作品 Project Starling 改变了我对这些机器的看法。我注意到了人们是如何被机器人吸引的,带着惊奇、喜悦和好奇。它帮助我理解了机器人在我们中间的移动方式以及它们的声音将引发人类的深层情感;这将是我们如何欢迎它们进入我们日常生活的一个重要因素。
换言之,我们即将真正实现我们最大的赌注:由人工智能驱动的机器人。人工智能让它们理解它们所听到的内容(口头和书面语言)并将其转化为行动,或是理解到它们所看到的内容(摄像机图像)并将其转化为它们可以采取行动的场景和物体。正如彼得的团队所展示的那样,机器人已经学会了如何捡起物体。经过七年多的时间,我们在谷歌的多个大楼里部署了机器人队伍。你将会看到众多同种类型的机器人正在执行一系列服务:自动擦拭自助餐厅的桌子、检查会议室、分类垃圾等等。
2023 年 1 月,继OpenAI 推出 ChatGPT 两个月后,谷歌以总体成本问题为由关闭了 Everyday Robots。这些机器人和少数员工最终落户谷歌 DeepMind 进行研究。尽管成本高昂、时间长,但所有参与其中的人都在这过程中为机器人的魅力感到震惊。
1970 年,全球每 64 岁以上的人中仍剩 10 人处在工作年龄区间。到了 2050 年,这一数字可能会不足 4 人。我们的劳动力正在枯竭。谁来照顾老人?谁来工厂、医院和餐馆工作?谁来开卡车和出租车?日本、中国和韩国等国家都早已发觉这个问题的紧迫性。在这些国家,机器人不是可有可无的。这些国家已将投资机器人技术作为一项国家当务之急。
让人工智能在现实世界中扎根既是国家安全问题,也是巨大的经济机遇。如果像谷歌这样的科技公司决定不投资“登月计划”,比如人工智能机器人,这些机器人将为未来的工人提供补足,那么将由谁来投资呢?硅谷或其他创业生态系统会加快步伐吗?如果答案是肯定的,他们能否获得长期资本投入?我对此表示怀疑。我们之所以将 Everyday Robots 称为登月计划,是因为构建如此规模的高度复杂系统远远超出了风险投资初创公司历来所能承受的范围。虽然美国在人工智能方面处于领先地位,但构建人工智能的实体——机器人——需要技能和基础设施,而其他国家,尤其是中国,已经遥遥领先。
机器人最终还是没有及时出现在我的母亲面前。她于 2021 年初去世。在她生命即将结束的前几分钟,我们的交谈让我比以往任何时候都更加确信,我们在 Everyday Robots 开创的未来版本即将到来。只可惜它来得太晚了。而此时此刻引人深思的问题是:这种变化和未来是如何发生的?我对此一定是好奇的,但同时也充满了担忧。