自从我首次撰写关于特斯拉自动驾驶方法的文章,并将其与谷歌(现 Waymo)的方法进行比较,已经过去十年了。当时,基于我在人工智能和机器人领域的经验,从技术层面评估,我认为特斯拉的方法更胜一筹。
它如今依然如此,但可能需要做出调整。特斯拉和其他全自动驾驶(FSD)公司大多都需要调整,但特斯拉需要做出的调整幅度较小,而且如果其首席执行官能够摆脱当前的倾向和干扰,它将有一个更好的起点来进行调整。
让我们回顾一下过去。几十年前,我翻阅了全球机器人项目中博士和硕士研究生的论文。当时明显分为 “世界地图阵营” 和 “包容架构阵营”,双方还相互嘲笑。
传统的机器人和人工智能方法,即 “世界地图阵营”,依赖复杂的中央规划系统,这些系统在做出决策前,需要处理大量数据以创建详细的环境模型。由于依赖精确的输入和大量的计算,这些系统在动态和不可预测的环境中常常举步维艰。它们需要非常精细的 3D 世界地图来进行路径规划和避障。
20 世纪 80 年代,罗德尼・布鲁克斯开创了包容架构机器人学,引入了一种革命性的机器人控制方法,强调分散式、分层行为,而非复杂的中央规划。布鲁克斯曾是麻省理工学院教授,也是 iRobot 和 Rethink Robotics 的联合创始人。他开发的这种架构,使机器人能够通过独立的行为层对环境做出自适应反应。较低层次的行为,如避障和恢复能力,能够自主运行,甚至通过基本的物理坚固性来实现,而更高层次的行为则建立在这些基础上,以完成更复杂的任务。这种方法挑战了传统人工智能对符号推理的依赖,促成了像 “成吉思” 这样的自主机器人的诞生,并影响了工业自动化、消费机器人和人工智能等现代应用。
当我阅读所有这些论文时,很明显,以包容架构为基础,结合分辨率低得多的世界地图视角来设定目标,是一种显而易见的策略,而且这两者之间的二分法是人为造成的,更多是学术阵营的一种构建,而非有实际意义的区分。在像扫雷和草坪维护等机器人应用场景的探索性工作表明,当时用于虚拟模拟迭代的工具包和电池的能量密度都不足。如今,这两个障碍都已消除,但我和我的合作者们已经转向了其他领域。我在一家全球科技公司从事与人工智能相关的工作,但并非直接相关。我确实对机器学习和清洁技术,以及该技术的各个关键知识层面进行了全球调查,并在 2020 年发布了一份关于该主题的报告。
正如我十年前指出的,特斯拉依赖分层包容架构方法,并结合基本地图软件生成的简易世界地图,而谷歌则依赖世界地图方法。2014 年 10 月,特斯拉推出 Autopilot 时,搭载该系统的汽车在加速、转弯和刹车方面都极其出色,在碰撞安全方面也表现卓越。与此同时,谷歌推出了一款顶部带有 “乳头”(指激光雷达传感器)的四轮 “肥皂泡” 汽车。特斯拉做出了正确的选择。
特斯拉的 Autopilot 可以在任何道路上行驶,尽管有时表现不佳,而谷歌的方法只适用于那些用激光雷达精确测绘到厘米级的道路。最初,谷歌的汽车只在加利福尼亚州山景城能行驶。与此同时,在特斯拉推出 Autopilot 软件后不久,一群汽车爱好者使用该半自动驾驶系统完成了一次非官方的 “炮弹跑”(Cannonball Run,指横穿美国的长途驾驶挑战)。特斯拉 Model S 以创纪录的时间从洛杉矶开到纽约,Autopilot 承担了大部分高速公路驾驶任务。大约 95% 的驾驶由汽车完成,而且速度通常相当快。
第二个区别是,特斯拉选择不使用激光雷达(一种激光传感技术),只配备了摄像头、雷达和声纳,其中声纳仅用于停车等极近距离场景。与此同时,谷歌汽车顶部的 “乳头” 是一个价值约 8 万美元的旋转激光雷达传感器,大多数其他自动驾驶汽车公司也选择将其纳入传感器配置。八年前,我对传感器配置进行了评估,得出结论认为特斯拉做出了正确的选择,一套更简单的视觉和雷达传感器组合并不需要激光雷达,因为这两种传感器提供的所有必要信息,已使其性能远超人类驾驶员。
其中一个原因是,当时固态摄像头和雷达传感器比激光雷达的旋转镜和激光器便宜得多,甚至比后来推出的性能稍逊的固态激光雷达传感器还便宜。当然,世界发展极其迅速,现在连 iPhone 都配备了微型固态激光雷达单元,能让应用程序绘制单个房间的地图。但这并不一定意味着汽车配备激光雷达就是正确的选择。简单即优势,如果两种传感器提供的信息已远超人类感官,那么三种就显得多余了。
特斯拉的方法采用了强化学习,这是一种机器学习方法,其中智能体通过与环境交互并根据其行动获得奖励或惩罚来学习做出决策。随着时间推移,智能体优化其行为以最大化累积奖励,这使得该技术非常适合机器人技术、游戏和自主系统等应用。特斯拉的模型有一个具有特定层次结构的神经网络,在人类驾驶员在特定情况下避开危险时,该网络会接收他们的反馈。用户发出的诸如 “哇,别这样” 的大量丰富数据集,会被输入到新的训练环节中,以迭代该模型。当前对大型语言模型(LLM)人工智能的狂热,主要围绕像 ChatGPT 这样的大型语言模型的训练环节,但与完全自动驾驶相比,它们从新用户那里获得的输入要少得多。
传感器集成一直是机器学习面临的挑战。传感器越多,将数据输入机器学习系统并得出连贯结果的难度就越大。从这个角度来看,将传感器限制为摄像头、雷达和声纳也有其优点,我认为特斯拉做出了正确的选择。
然后在 2021 年,特斯拉选择从其传感器配置中移除雷达。当时我暂不做判断,因为正反两方面的论点都有道理。毕竟人类开车也不需要雷达,而且摄像头和机器学习已经发展到人类眼睛和大脑不太可能与之竞争的程度。调整汽车在能见度有限的情况下减速的行为很有意义,部分原因是其他道路上的驾驶员在视线不佳时也会减速。
多年来,我一直在关注完全自动驾驶(Full Self Driving)的逐步进展。取消城市驾驶和高速公路驾驶的区分是一个好的举措,而且特斯拉汽车如今能自主完成的事情令人瞩目。但它仍然没有实现完全自动驾驶,而且距离承诺实现完全自动驾驶的时间已经过去很久了。
现在,特斯拉更是大力承诺通过其 Cybercab 实现完全自动驾驶。Cybercab 是一款两座、无方向盘的车辆,其设计理念是为大多数因距离短而无法选择骑车、步行或乘坐公共交通的美国人,提供一种在依赖汽车出行的庞大城市中通行的方式。正如我九年前指出的,这将加剧美国城市的拥堵。然而,它距离完全自动驾驶仍有很长的路要走。
特斯拉具备使这种方法成功的所有潜在条件。其中一个重要条件是,正如我七年前指出的,它拥有世界上任何公司都无法比拟的最多的传感器数据和来自驾驶员的反馈。
那么,为什么它还没有实现完全自动驾驶呢?
2018 年,强化学习成为热门技术。它已在实验室和现实世界中得到验证,被认为将带来变革。它是特斯拉、谷歌以及大多数其他自动驾驶方法的基础。但随后它开始遇到一些困难。
第一个问题是传感器集成。8 到 10 年前,激光雷达被认为是自动驾驶和现有基础设施数字孪生的关键。然而,主流机器学习关注的不是激光雷达点云,而是摄像头图像识别。传感器评估出现了分歧,部分原因是互联网上有大量带有识别元数据的图像,而几乎没有公开的激光雷达数据。因此,基于图像训练模型要容易得多,成本也更低,所以大家都这么做。结果,所有依赖激光雷达的初创公司和原始设备制造商(OEM)除了自己的数据集外,没有其他可用资源,而仅使用图像的公司则拥有行业领先的技术。因此,许多依赖激光雷达的公司都陷入了困境。
第二个问题是,强化学习需要的强化量极其庞大,而且要得出可靠结果的速度慢得多。尽管特斯拉有大量自愿的驾驶员发送信号来纠正神经网络的选择,但它在处理人类轻易就能应对的情况时仍存在挑战。它最终能实现目标吗?也许吧。这就像一个思想实验,每走一步都朝着目的地前进一半的距离,结果就是每一步都越来越短,永远也到不了终点。我仍然认为,在许多该方法适用的场景中,特斯拉的解决方案仍比普通人类驾驶员的统计平均水平要好得多,但这并不意味着它能实现自动驾驶。
Waymo 和其他方案的表现也没有好太多。它们需要极其详细的世界地图,而且最终仍会做出一些非常愚蠢的事情,比如在停车场相互鸣笛,或者在死胡同造成 Waymo 车辆拥堵。
机器学习领域已经转向像 ChatGPT 这样的大型语言模型和视觉问答,即向大型语言模型提供一张图像,并就该图像提问。这在很大程度上依赖于经过大量图像训练的极其出色的图像识别机器学习神经网络,以及经过大量数据训练的大型语言模型。将一张街景图片粘贴到大型语言模型中,问它图片中有多少人或者是否有公交站,它能回答出来。将一张管道图片粘贴进去,问它是否能识别出锈蚀和其他故障情况,它也能做到。将一张田野图片粘贴进去,问里面是否有牛或其他有蹄类动物,它会告诉你关于它们的所有信息。
但对于一辆汽车来说,如果没有在车内部署专门的大型语言模型,它的反应速度不足以让汽车避开路上的牛,即使部署了,速度可能仍然不够快。
机器学习的主要应用场景已经与自动驾驶的传感器和速度要求产生分歧,而强化学习被证明实现结果的速度比最初预期的要慢得多,并且需要比想象中多得多的反馈。对于自动驾驶来说,这可不是一个好的组合。
需要明确的是,我对机器学习和强化学习发展的假设同样有误。我在十年前、八年前、七年前和五年前的评估并不完美,这与该领域的大多数人情况类似。对我来说,幸运的是,我几次尝试利用这项技术创业都没有成功。我觉得幸运,是因为有无数在 5 到 10 年前创立的初创公司,它们承诺通过从印度等地获取廉价资源进行短期强化学习就能解决问题,但至今仍有大量来自低劳动力成本地区的人员,在做着与 5 到 10 年前完全相同的事情,花费同样长的时间,付出同样高昂的成本。特斯拉并非唯一面临这一特殊挑战的公司。
这对特斯拉自动驾驶的未来意味着什么呢?
嗯,它基于强化学习,而不是图像识别和视觉问答方面的惊人进展,所以它不仅落后于时代潮流,而且完全处于不同的发展轨迹上。特斯拉必须独自承担所有研发工作。如果换一位首席执行官,或许有可能做出调整,但他们的首席执行官是马斯克。
他们没有雷达,这有利有弊。就像机器学习一直没有处理激光雷达数据,使其他公司陷入困境一样,它也没有太多涉及雷达数据。传感器集成仍然是个问题,而人类确实能够凭借草原生存本能和运气,在夜间驾驶时不至于频繁撞车。
如果特斯拉这个组织还能够做出调整,视觉问答方法或许可以针对驾驶实时需求进行优化,聚焦于相关子集和相关问题。也许它可以做到,也许做不到。反正马斯克对此并不关注。