特斯拉Dojo:埃隆·马斯克打造人工智能超级计算机的大计划

文摘   2024-08-12 13:22   北京  



马斯克不想让特斯拉仅仅成为一家汽车制造商。他希望特斯拉成为一家人工智能公司,一家知道如何让汽车实现自动驾驶的公司。 



//


多年来,埃隆·马斯克一直在谈论 Dojo——这台人工智能超级计算机将成为特斯拉人工智能雄心的基石。它对马斯克来说非常重要,他最近表示,随着特斯拉准备在 10 月推出其自动驾驶出租车,该公司的人工智能团队将“加倍投入”Dojo。 


但 Dojo 到底是什么?它为何对特斯拉的长期战略如此重要?


简而言之:Dojo 是特斯拉定制的超级计算机,旨在训练其“全自动驾驶”神经网络。增强 Dojo 与特斯拉实现全自动驾驶并将自动驾驶出租车推向市场的目标相辅相成。目前,近 200 万辆特斯拉汽车都配备了 FSD,它可以执行一些自动驾驶任务,但仍需要驾驶员在驾驶时保持注意力。 


特斯拉将原定于 8 月发布的自动驾驶出租车推迟到 10 月,但马斯克的公开言论和特斯拉内部消息人士都告诉我们,自动驾驶的目标不会消失。


而特斯拉似乎准备在人工智能和 Dojo 上投入巨资来实现这一壮举。 


特斯拉Dojo的背景故事


图片来源:SUZANNE CORDEIRO/AFP via Getty Images/Getty Images


马斯克不希望特斯拉只是一家汽车制造商,甚至不是一家太阳能电池板和储能系统的供应商。相反,他希望特斯拉成为一家人工智能公司,一家通过模仿人类感知破解自动驾驶汽车密码的公司。 


大多数其他开发自动驾驶汽车技术的公司都依靠多种传感器(如激光雷达、雷达和摄像头)来感知世界,以及高清地图来定位车辆。特斯拉认为,仅依靠摄像头捕捉视觉数据,然后使用先进的神经网络来处理这些数据,并快速决定汽车应该如何行驶,就可以实现完全自动驾驶。 


正如特斯拉前人工智能主管 Andrej Karpathy 在2021 年该汽车制造商的首个人工智能日上所说,该公司基本上是在试图“从头开始打造一种合成动物”。(马斯克自 2019 年以来一直在暗示 Dojo,但特斯拉在人工智能日正式宣布了这一点。)


Alphabet 旗下 Waymo 等公司已通过更传统的传感器和机器学习方法将 L4 级自动驾驶汽车商业化,SAE 将其定义为在特定条件下无需人工干预即可自动驾驶的系统。特斯拉尚未生产出不需要人类驾驶的自动驾驶系统。 


约有 180 万人为特斯拉的 FSD支付了高昂的订阅费,目前售价为 8,000 美元,最高售价为 15,000 美元。该公司宣称,经过 Dojo 训练的 AI 软件最终将通过无线更新推送给特斯拉客户。FSD 的规模还意味着特斯拉能够收集数百万英里的视频片段,用于训练 FSD。该公司的想法是,特斯拉收集的数据越多,这家汽车制造商就越接近实现完全自动驾驶。 


然而,一些行业专家表示,将更多数据输入模型并期望其变得更加智能的蛮力方法可能存在局限性。 


普渡大学硅谷电气与计算机工程教授 Anand Raghunathan 告诉 TechCrunch:“首先,存在经济约束,而且很快这样做的成本就会变得太高。”此外,他还表示:“有些人声称,我们可能真的会用尽有意义的数据来训练模型。更多的数据并不一定意味着更多的信息,所以这取决于这些数据是否包含可用于创建更好模型的信息,以及训练过程是否能够真正将这些信息提炼成更好的模型。” 


Raghunathan 表示,尽管存在这些疑虑,但至少在短期内,数据量增加的趋势似乎会持续下去。数据量增加意味着需要更多的计算能力来存储和处理所有数据,以训练特斯拉的人工智能模型。这就是超级计算机 Dojo 的作用所在。 


什么是超级计算机?


Dojo 是特斯拉的超级计算机系统,旨在作为人工智能(特别是 FSD)的训练场。这个名字是对练习武术的空间的致敬。 


超级计算机由数千台称为节点的小型计算机组成。每个节点都有自己的 CPU(中央处理器)和 GPU(图形处理器)。前者负责节点的整体管理,后者负责复杂的事情,比如将任务分成多个部分并同时处理它们。GPU 对于机器学习操作至关重要,比如那些在模拟中支持 FSD 训练的操作。它们还为大型语言模型提供支持,这就是为什么生成式人工智能的兴起让 Nvidia 成为地球上最有价值的公司。 


甚至特斯拉也购买 Nvidia GPU 来训练其人工智能(稍后会详细介绍)。 


特斯拉为什么需要超级计算机?


特斯拉的纯视觉方法是特斯拉需要超级计算机的主要原因。FSD 背后的神经网络经过大量驾驶数据训练,可以识别和分类车辆周围的物体,然后做出驾驶决策。这意味着当 FSD 启动时,神经网络必须以与人类的深度和速度识别能力相匹配的速度持续收集和处理视觉数据。 


换句话说,特斯拉的意思是创造人类视觉皮层和大脑功能的数字复制品。 


为了实现这一目标,特斯拉需要存储和处理从全球汽车收集的所有视频数据,并运行数百万次模拟来根据数据训练其模型。 



特斯拉似乎依赖 Nvidia 为其当前的 Dojo 训练计算机提供动力,但它不想孤注一掷——尤其是因为 Nvidia 芯片价格昂贵。特斯拉还希望制造出更好的产品,以增加带宽并减少延迟。这就是为什么这家汽车制造商的 AI 部门决定推出自己的定制硬件程序,旨在比传统系统更有效地训练 AI 模型。 


该计划的核心是特斯拉专有的 D1 芯片,该公司表示该芯片针对人工智能工作负载进行了优化。 


告诉我有关这些芯片的更多信息


前自动驾驶仪硬件高级总监 Ganesh Venkataramanan 在特斯拉 2021 年人工智能日上展示了 D1 训练模块。图片来源:特斯拉/直播活动截图


特斯拉与苹果持有类似观点,认为硬件和软件应该协同工作。因此,特斯拉正努力摆脱标准 GPU 硬件,设计自己的芯片来为 Dojo 提供支持。 


特斯拉在 2021 年 AI Day 上发布了 D1 芯片,这是一款手掌大小的硅片。D1 芯片至少在今年 5 月就已投入生产。台湾半导体制造公司 (TSMC) 使用 7 纳米半导体节点制造该芯片。特斯拉称,D1 拥有 500 亿个晶体管和 645 平方毫米的大芯片尺寸。这一切都表明,D1 有望非常强大和高效,并能快速处理复杂任务。 


“我们可以同时进行计算和数据传输,我们的定制 ISA(即指令集架构)已针对机器学习工作负载进行了全面优化,”前 Autopilot 硬件高级总监 Ganesh Venkataramanan 在特斯拉 2021 年 AI Day 上表示。“这是一种纯粹的机器学习。”


不过,D1 的性能仍不如 Nvidia 的 A100 芯片,后者也是由台积电采用 7 纳米工艺制造的。A100 包含 540 亿个晶体管,芯片尺寸为 826 平方毫米,因此性能略优于特斯拉的 D1。 


为了获得更高的带宽和更高的计算能力,特斯拉的人工智能团队将 25 个 D1 芯片融合成一个区块,以作为一个统一的计算机系统运行。每个区块的计算能力为 9 千万亿次浮点运算和每秒 36 兆兆字节的带宽,并包含电源、冷却和数据传输所需的所有硬件。你可以将区块想象成一台由 25 台小型计算机组成的自给自足的计算机。其中六块区块组成一个机架,两块机架组成一个机柜。十个机柜组成一个 ExaPOD。在 2022 年人工智能日,特斯拉表示 Dojo 将通过部署多个 ExaPOD 来扩展。所有这些加在一起构成了超级计算机。 


特斯拉还在研发下一代 D2 芯片,旨在解决信息流瓶颈问题。D2 芯片不会将各个芯片连接起来,而是将整个 Dojo 芯片放在一块硅片上。 


特斯拉尚未确认已订购或预计收到的 D1 芯片数量。该公司也没有提供 Dojo 超级计算机在 D1 芯片上运行所需的时间表。 


在回应6 月份 X 上的一篇帖子时,马斯克表示:“埃隆正在德克萨斯州建造一个巨大的 GPU 冷却器”,特斯拉的目标是在未来 18 个月左右实现“一半特斯拉 AI 硬件,一半 Nvidia/其他”。根据马斯克 1 月份的评论, “其他”可能是 AMD 芯片。 


Dojo 对特斯拉来说意味着什么?



2024 年 7 月 7 日,特斯拉的人形机器人擎天柱二世亮相中国上海世界人工智能大会。图片来源:Costfoto/NurPhoto/Getty Images


控制自己的芯片生产意味着特斯拉有朝一日能够以低成本迅速为人工智能训练程序添加大量计算能力,特别是在特斯拉和台积电扩大芯片生产规模的情况下。 


这也意味着特斯拉未来可能不需要依赖英伟达的芯片,因为英伟达的芯片价格越来越高,而且难以保证安全。 


在特斯拉第二季度财报电话会议上,马斯克表示,对 Nvidia 硬件的需求“如此之高,以至于很难获得 GPU”。他说他“非常担心我们是否能在需要时获得稳定的 GPU,因此我认为这要求我们在 Dojo 上投入更多精力,以确保我们拥有所需的训练能力。” 


尽管如此,特斯拉今天仍在购买 Nvidia 芯片来训练其 AI。6 月,马斯克在 X 上发帖称: 


我说过,特斯拉今年将在人工智能方面投入约 100 亿美元,其中约一半是内部支出,主要是特斯拉设计的人工智能推理计算机和所有汽车中的传感器,以及 Dojo。在构建人工智能训练超级集群方面,Nvidia 硬件约占成本的 2/3。我目前对特斯拉今年收购 Nvidia 的最佳猜测是 30 亿至 40 亿美元。


“推理计算”是指特斯拉汽车实时执行的人工智能计算,与 Dojo 负责的训练计算是分开的。


Dojo 是一次冒险的赌注,马斯克曾多次表示特斯拉可能不会成功。 


从长远来看,特斯拉理论上可以基于其人工智能部门创建新的商业模式。马斯克表示,Dojo 的第一个版本将针对特斯拉计算机视觉标记和训练进行量身定制,这对于 FSD 和训练特斯拉的人形机器人Optimus非常有用。但它在其他方面用处不大。 


马斯克表示,未来版本的 Dojo 将更适合通用 AI 训练。一个潜在的问题是,几乎所有的 AI 软件都是为与 GPU 配合使用而编写的。使用 Dojo 训练通用 AI 模型需要重写软件。 


也就是说,除非特斯拉出租其计算能力,就像 AWS 和 Azure 出租云计算能力一样。马斯克在第二季度财报中还指出,他认为“Dojo 是一条与 Nvidia 竞争的道路。”


摩根士丹利 (Morgan Stanley) 2023 年 9 月的一份报告预测,Dojo 可以通过以机器人出租车和软件服务的形式开辟新的收入来源,为特斯拉的市值 增加 5000 亿美元。


简而言之,Dojo 的芯片是汽车制造商的一份保险单,但却可以带来红利。 


Dojo 进展如何了?



Nvidia 首席执行官黄仁勋和特斯拉首席执行官埃隆马斯克出席加州圣何塞的 GPU 技术大会。图片来源:Kim Kulish/Corbis via Getty Images/Getty Images


路透社去年报道称,特斯拉将于 2023 年 7 月开始生产 Dojo,但马斯克在2023 年 6 月的一篇帖子中暗示,Dojo 已经“上线并运行了几个月的有用任务”。


大约在同一时间,特斯拉表示,预计到 2024 年 2 月,Dojo 将成为五大最强大的超级计算机之一——这一壮举尚未公开披露,因此我们怀疑它是否已经实现。


该公司还表示,预计 Dojo 的总计算能力将在 2024 年 10 月达到 100 百亿亿次浮点运算。(1 百亿亿次浮点运算相当于每秒 1 千万亿次计算机操作。要达到 100 百亿亿次浮点运算,并假设一台 D1 可以达到 362 万亿次浮点运算,特斯拉将需要超过 276,000 个 D1,或大约 320,500 个 Nvidia A100 GPU。)


特斯拉还于 2024 年 1 月承诺斥资 5 亿美元在其位于纽约布法罗的超级工厂建造一台 Dojo 超级计算机。


2024 年 5 月,马斯克指出,特斯拉奥斯汀超级工厂的后部将保留用于“超密集、水冷超级计算机集群”。


就在特斯拉第二季度财报电话会议结束后,马斯克在 X 上发帖称,该汽车制造商的 AI 团队正在使用特斯拉 HW4 AI 计算机(更名为 AI4),这是特斯拉汽车上的硬件,与 Nvidia GPU 一起进行训练循环。他指出,细分大约是 90,000 台 Nvidia H100 加上 40,000 台 AI4 计算机。 


“到今年年底,Dojo 1 将提供大约 8000 H100 的在线培训,”他继续说道。“规模不大,但也不小。”


特斯拉Dojo的时间表



2019:首次提及 Dojo


4 月 22 日 –在特斯拉的自动驾驶日上,这家汽车制造商让其人工智能团队登台谈论自动驾驶仪和全自动驾驶,以及为两者提供支持的人工智能。该公司分享了有关特斯拉专为神经网络和自动驾驶汽车设计的定制芯片的信息。 


在活动期间,马斯克透露 Dojo 是一台用于训练人工智能的超级计算机。他还指出,届时生产的所有特斯拉汽车都拥有完全自动驾驶所需的所有硬件,只需要进行软件更新即可。


2020:马斯克开始 Dojo 路演


2 月 2 日——马斯克表示,特斯拉很快将在全球拥有超过一百万辆联网汽车,这些汽车配备了实现完全自动驾驶所需的传感器和计算能力,并大力宣传 Dojo 的功能。 


“我们的训练超级计算机 Dojo 将能够处理大量视频训练数据,并高效运行具有大量参数、充足内存和核心间超高带宽的超空间阵列。稍后将详细介绍。”


8 月 14 日 -马斯克重申特斯拉计划开发一款名为 Dojo 的神经网络训练计算机,以“处理真正大量的视频数据”,称其为“野兽”。他还表示,Dojo 的第一个版本“大约需要一年时间”,这意味着它的发布日期将在 2021 年 8 月左右。


12 月 31 日——埃隆表示Dojo 不是必需的,但它将使自动驾驶变得更好。“比人类驾驶员更安全是不够的,Autopilot 最终需要比人类驾驶员安全 10 倍以上。”


2021:特斯拉正式推出 Dojo


8 月 19 日——特斯拉在首届 AI Day上正式宣布推出 Dojo ,该活动旨在吸引工程师加入特斯拉的 AI 团队。特斯拉还推出了 D1 芯片,该汽车制造商表示将使用该芯片(与 Nvidia 的 GPU 一起)为 Dojo 超级计算机提供动力。特斯拉指出,其 AI 集群将容纳 3,000 个 D1 芯片。 


10 月 12 日——特斯拉发布了 一份Dojo 技术白皮书,内容是“特斯拉可配置浮点格式和算法指南”。白皮书概述了一种新型二进制浮点算法的技术标准,该算法用于深度学习神经网络,可以“完全通过软件、完全通过硬件或通过软件和硬件的任意组合”实现。


2022:特斯拉公布 Dojo 进展


8 月 12 日 –马斯克表示特斯拉将“逐步采用 Dojo。明年将不需要购买那么多增量 GPU。”


9 月 30 日——在特斯拉的第二个 AI Day上,该公司透露已安装第一个 Dojo 机柜,并进行了 2.2 兆瓦的负载测试。特斯拉表示,它每天建造一块瓷砖(由 25 个 D1 芯片组成)。特斯拉在台上演示了 Dojo,它运行稳定扩散模型来创建 AI 生成的“火星上的 Cybertruck”图像。


重要的是,该公司设定了完整 Exapod 集群的目标日期,即 2023 年第一季度完成,并表示计划在帕洛阿尔托建造总共七台 Exapod。 


2023:“不太可能的赌注”


4 月 19 日——马斯克在特斯拉第一季度财报发布会上告诉投资者,Dojo“有可能将培训成本提高一个数量级”,并且“有可能成为一种可销售的服务,我们会像亚马逊网络服务提供网络服务一样向其他公司提供这种服务”。


马斯克还指出,他“将 Dojo 视为一种不太可能成功的赌注”,但“值得一试”。


6 月 21 日——特斯拉 AI X 账户发布消息称,该公司的神经网络已经应用于客户车辆。该帖子包含一张图表,其中列出了特斯拉当前和预计的计算能力的时间表,其中指出 Dojo 将于 2023 年 7 月开始生产,尽管目前尚不清楚这是指 D1 芯片还是超级计算机本身。马斯克当天表示,Dojo 已经上线并在特斯拉数据中心运行任务。 


该公司还预测,到 2024 年 2 月左右,特斯拉的计算能力将跻身全球前五(没有迹象表明这是成功的),到 2024 年 10 月,特斯拉的计算能力将达到 100 百亿亿次浮点运算。


7 月 19 日——特斯拉在第二季度财报中指出,该公司已开始生产 Dojo。马斯克还表示,特斯拉计划到 2024 年在 Dojo 上投入超过 10 亿美元。  


9 月 6 日 –马斯克在 X 上发帖称,特斯拉受到 AI 训练计算的限制,但 Nvidia 和 Dojo 将解决这个问题。他说,管理特斯拉每天从其汽车获得的大约 1600 亿帧视频数据极其困难。 


2024:扩大规模的计划


1 月 24 日 –在特斯拉第四季度和全年财报电话会议上,马斯克再次承认 Dojo 是一个高风险、高回报的项目。他还表示,特斯拉正在寻求“Nvidia 和 Dojo 的双管齐下”,“Dojo 正在发挥作用”,并且“正在开展培训工作”。他指出,特斯拉正在扩大规模,并制定了“Dojo 1.5、Dojo 2、Dojo 3 等计划”。


1 月 26 日 –特斯拉宣布计划斥资 5 亿美元在布法罗建造一台Dojo 超级计算机。马斯克随后淡化了这笔投资的重要性,他在 X 上发帖称,虽然 5 亿美元是一笔大数目,但“仅相当于 Nvidia 的 10k H100 系统。特斯拉今年将在 Nvidia 硬件上投入更多资金。目前,在 AI 领域保持竞争力的底线至少是每年数十亿美元。”


4 月 30 日——据 IEEE Spectrum 报道,在台积电的北美技术研讨会上,该公司表示 Dojo 的下一代训练模块 — — D2 已经投入生产。D2 将整个 Dojo 模块放在一块硅片上,而不是连接 25 个芯片来制作一块模块。 


5 月 20 日——马斯克指出,Giga Texas 工厂扩建的后部将包括建设“超密集、水冷超级计算机集群”。


6 月 4 日——CNBC 的一份报告显示,马斯克将为特斯拉预留的数千块 Nvidia 芯片转移到 X 和 xAI。在最初表示该报告是虚假之后,马斯克在 X 上发帖称,由于 Giga Texas 南部扩建工程仍在继续,特斯拉没有地方发送 Nvidia 芯片来启动它们,“所以它们只能放在仓库里。”他指出,扩建工程将“容纳 5 万台 H100 用于 FSD 训练”。   


他还发文: 


“我说过,特斯拉今年将在人工智能方面投入约 100 亿美元,其中约一半是内部支出,主要是特斯拉设计的人工智能推理计算机和传感器,这些设备都安装在我们所有的汽车上,还有 Dojo。在构建人工智能训练超级集群方面,NVidia 硬件约占成本的 2/3。我目前对特斯拉今年将收购 Nvidia 的最佳猜测是 30 亿至 40 亿美元。”


7 月 1 日——马斯克在 X 上透露,目前的特斯拉汽车可能没有适合该公司下一代 AI 模型的硬件。他说,如果不升级汽车推理计算机,“下一代 AI 的参数数量增加约 5 倍是很难实现的”。


Nvidia 供应挑战


7 月 23 日——在特斯拉第二季度财报电话会议上,马斯克表示,对 Nvidia 硬件的需求“如此之高,以至于通常很难获得 GPU”。 


“我认为,因此我们需要在 Dojo 上投入更多精力,以确保我们拥有所需的训练能力,”马斯克说。“我们确实看到了通过 Dojo 与 Nvidia 展开竞争的途径。”


特斯拉投资者资料中的一张图表预测,到 2024 年底,特斯拉 AI 训练能力将从 6 月份的 4 万台左右增至大约 9 万台 H100 等效 GPU。当天晚些时候,马斯克在 X 上发帖称,Dojo 1 将“到年底拥有大约 8000 台 H100 等效在线训练”。他还发布了这台超级计算机的照片,它似乎使用了与特斯拉 Cybertrucks 相同的类似冰箱的不锈钢外壳。 


XXX


7 月 30 日——  马斯克在回复某人的帖子时表示,AI5 距离大批量生产还有约 18 个月的时间,该帖子声称要成立一个“特斯拉 HW4/AI4 车主对 AI5 发布时落后感到愤怒”俱乐部。 


8 月 3 日 –马斯克在 X 上发帖称,他参观了“Giga Texas(又名 Cortex)的特斯拉超级计算集群”。他指出,该集群将由大约 100,000 个 H100/H200 Nvidia GPU 组成,并配备“用于 FSD 和 Optimus 视频训练的海量存储空间”。


END.


延伸阅读


大语言模型专题 | 计算机视觉专题

AI模型更新 | AI技术博客 | AI深度报告


猜想笔记
探索AI边界
 最新文章