人工智能何时将在思考量上超越人类？

文摘 2024-09-25 07:46 美国

本文探讨了人工智能何时将在思考量上超越人类，并提出了“思考小时”的概念来衡量人工智能的认知劳动。作者预测，如果目前的增长速度保持不变，人工智能的合成思考小时将在约 10 年内超过人类。

引言：人工智能的变革之路

人工智能的概念自 70 多年前诞生以来，就一直激发着我们的想象力，并挑战着我们对人性的认知。几十年来，我们一直在预测智能机器将如何改变社会。在某些方面，它们确实做到了。但在其他方面，它们还没有。

本文不探讨人工智能是否会具有“变革性”，而是考虑一个具体的问题：人工智能何时才能在思考量上超越人类？

更具体地说，我将“超越思考”的概念构建在两个正交维度上：思考量的多少和思考的智能程度。本文只讨论前者。

第一部分：瓦特小时 → 思考小时

在与 Patrick Collison 的一次采访中，Jensen Huang 将工业革命的单位（美元/千瓦时）与人工智能革命的单位（美元/百万思考量）进行了对比。

这很发人深省——美元/百万思考量确实对人工智能定价很有用。但我们能不能改进它？

“思考量”的使用作为一个定价指标很有用：它可衡量、相当可预测、可扩展，并且与提供商的成本相关。但它不必是我们用来衡量大型语言模型（LLM）量的唯一单位。

认知革命的“马力”：引入“思考小时”

大多数人并不清楚大型语言模型的“思考量”如何与价值相关联。

以此类推，在蒸汽机的早期，潜在的采用者并没有一种明确的方法可以直观地量化其能力与替代方案（例如马）相比的优势。为了量化他的新蒸汽机，James Watt 发明了“马力”这个单位，他和 Matthew Boulton 在 1783 年将其标准化为 33,000 英尺-磅。

与“马力”类似，人工智能可以用“思考小时”来衡量。马力量化的是相对于马的体力劳动，而思考小时量化的是相对于人类的认知劳动。

核心思想是，一个“思考小时”应该相当于一个人一小时内平均“思考”的思考量，从而在大型语言模型的使用和人类认知劳动之间建立起映射关系。当然，量化人类的认知劳动并非易事。就像“马力”一样，“思考小时”也是一种不完美的映射，它为了直观性而牺牲了完全的精确性。但是，当人们使用大型语言模型时（尤其是在代理的上下文中），他们更容易看到他们的会话使用了三个思考小时的工作，而不是“30,000 个思考量”。我们稍后再回到“思考量质量”的概念。

思考小时和思考量之间明显的类比是瓦特小时和马力小时之间的类比。事后看来，马力似乎是对体力劳动的一种通俗的近似。但它在当时很有用，因为它很直观也很实用。

估算每思考小时的思考量

为了估算每小时的思考量，让我们首先假设人类的平均阅读速度为每分钟 200 个单词，或者大约每分钟 250 个思考量。这意味着一个“思考小时”是 12,000 个思考量。

为了支持这一点，请考虑有声读物的默认速度约为每小时 9,000 个单词。假设单词与思考量的比率约为 3:4，这意味着有声读物也相当于每小时 12,000 个思考量。

人类在工作日中并非 100% 的时间都在进行生产性劳动。让我们保守地假设人类的生产力为 83.33%，这样我们就可以得到一个很好的整数估算值：每小时 10,000 个思考量。这很武断，但请记住，当 James Watt 标准化马力时，他本可以测量数百万匹马，但他最终还是使用了一个整数。

因此，根据这些假设，1 个思考小时 (Th) 等于 10,000 个思考量。

我们每小时可以阅读/感知（输入）的思考量与我们每小时可以说话/写作/创造（输出）的思考量之间存在显著差异。这种区别对人工智能模型来说很有意义。但这对这个单位来说不是必需的——我们可以在适当的时候区分输出思考小时和输入思考小时。

关于效用规模人工智能的思考

随着我们在接近效用规模上看到更多的人工智能模型被采用，我们将需要一些方法来推理消耗和产生的大量思考量，而思考小时可能是将这些思考量与人类认知劳动力进行比较的一种方法。

如果将 2023 年美国发电机的净发电量量化为“15.05 quintillion 焦耳”，那将是荒谬的。我们为此使用了瓦特小时（3,600 焦耳）和物理学前缀来量化数量级。因此，2023 年美国的电力产量为“4.18 太瓦时 (TWh)”。

与瓦特小时和其他标准单位一样，思考小时允许我们使用物理学前缀来推理数量级：

与电力的类比的局限性

我们可以把这个类比更进一步，虽然它并不完美。例如，1 瓦特是 1 焦耳 / 1 秒。按照同样的关系，一个“思考”将是 2 7/9 个思考量 / 1 秒。这似乎有点奇怪，因为思考并不能直观地映射到一定数量的思考量上。

第二部分：人类与人工智能思考小时的比较

量化全球知识劳动力中的人类思考

假设知识工作者每周工作 40 小时，每年工作 2,000 小时，并且他们 95% 的时间都在思考。每个知识工作者每年产生 1,900 个思考小时 (Th)。这意味着全球知识劳动力每年产生 1.9 万亿思考小时 (TTh)。

全球知识劳动力每年产生 1.9 万亿思考小时 (TTh)

假设知识工作者的平均年薪为 2.5 万美元。我们假设全球有 10 亿知识工作者。因此，全球知识劳动力的年成本为 25 万亿美元，约占世界生产总值 (GWP) 的 25%。这意味着平均每个人类思考小时 (Th) 的成本为 25 万亿美元/1.9 万亿 Th，约为 13 美元/Th。

平均每个人类思考小时 (Th) 的成本为 25 万亿美元/1.9 万亿 Th，约为 13 美元/Th。

知识劳动力的思考小时能力随着时间的推移是如何变化的？

麦肯锡估计，2012 年全球有 2.3 亿知识工作者。其他报告称，2021 年全球有 10 亿知识工作者，这意味着复合年增长率 (CAGR) 为 17%。我对 10 亿这个数字表示怀疑，因为我找不到它的原始来源，而且从如此高的基数来看，17% 的增长率简直令人震惊。这就是增长率的样子：

如果 17% 的增长率持续到 2024 年（并且 2012 年和 2021 年的估计是正确的），那么全球近一半的劳动力将是知识工作者。这在我看来是不可能的。但为了便于进行这项研究，让我们使用 2021 年的 10 亿这个数字，将其延续到 2024 年，并假设知识劳动力的规模随着时间的推移保持不变，就好像它在 2021 年达到了上限一样。这意味着人类思考小时将在现在达到峰值，略高于 2 万亿 Th。

量化全球人工智能劳动力中的合成思考

什么是合成思考小时？

要了解人工智能何时可能在思考上超越人类，我们首先需要掌握合成思考小时（Th(s)）的概念。合成思考小时量化的是人工智能系统产生的认知输出。从本质上讲，这个指标使我们能够使用标准化的测量单位——思考量——来比较机器和人类执行的智力劳动。

合成思考小时有多快？

GPT-4o 输出思考量的中位数速率为每秒 67 个思考量，这意味着它每小时可以处理 67*60*60 = 241,200 个思考量。这意味着合成思考小时比人类思考小时快 24 倍。

合成思考小时的成本是多少？

为了简化起见，我们只关注输出思考量。GPT-4 的成本为每百万思考量 15 美元，这意味着每 100Th 的成本为 15 美元，或者每合成 Th 的成本为 0.15 美元。人类的 Th 成本约为 13 美元，合成思考小时比人类 Th 便宜 86 倍。

当今全球 GPU 的合成思考小时容量是多少？

这部分分析非常粗略。还有其他关于机器学习系统中计算趋势的分析，其方法可以扩展以获得更清晰的图景。为了进行粗略的分析，我简单地查看了 H100 的容量和每个 H100 的思考量，因为 (1) 前沿模型的后续版本通常需要领先/最先进的芯片，(2) H100 数据更容易收集，以及 (3) 该方法可能会让我们得到正确的数量级。

已部署用于推理的 H100 数量

作为起点，让我们看一下 2023 年售出的 H100 数量:

• 微软 Azure：150,000
• Meta：150,000
• 谷歌云：50,000
• Oracle 云：50,000
• 亚马逊 (AWS)：50,000
• CoreWeave：50,000
• 人工智能初创公司：40,000
• Applied Digital：30,000
• Lambda：30,000
• 特斯拉：20,000
• Crusoe：20,000

总计：640,000 台

注意事项：

• 芯片的用途不仅仅是大型语言模型推理，例如训练大型语言模型、为其他类型的人工智能/机器学习系统提供动力或进行模拟。
• H100 通常是训练的首选，而其他芯片（例如 A100）则用于推理。
• 训练：推理比率可能约为 1:1。

Meta 拥有 60 万个 H100 当量，他们在 2023 年的订单约占其全部容量的 25%。

根据这些数据点，我假设有 100 万个 H100 或等效物部署用于大型语言模型，其中一半用于推理 (50 万)。当然，这是一个粗略的估计——#粗略估计

作为直觉检验：我们知道 OpenAI 在推理方面每天产生大约 10 亿个思考量。每天 10 亿个思考量 = 每年 36 万亿个思考量 = 每天 10 万 Th，每年 360 亿 Th。这意味着 OpenAI 占全球推理能力的 42%。考虑到他们报告的 39% 的市场份额，这是合理的。此外，H100 数据显示微软拥有 15 万台——占我们 50 万台数字的 30%——这与微软在同一份研究报告中 30% 的市场份额相符。这为我们的估计增加了一些可信度，但仍然应该持保留态度。

每个 H100 的人工智能推理思考量吞吐量

为了估计人工智能推理的全球能力，我们将使用 LLama2 70b 作为基准。选择它是因为它在 Nvidia H100 GPU 上的性能有良好的记录，并且因为它在吞吐量方面大致处于中间位置。需要注意的是，这个数字高估了前沿模型的吞吐量。

LLama2 70b 的运行速度为每秒 3269 个思考量 (TPS)。请注意，我们不是从推理提供商那里测量 TPS，而是在裸机上测量，因为我们的乘数是 GPU 的数量。

分解如下：

• 每小时思考量：3269 TPS * 3600 秒 = 每小时 196,140 个思考量。
• 每小时思考小时：196,140 个思考量 / 每 Th 10,000 个思考量 = 每小时 19.6 Th。
• 每年思考小时：19.6 Th/小时 * 8760 小时/年 ~= ~170 kTh / 年

考虑到我们估计有 500,000 个 H100 单元专用于推理：

每年合成思考小时总数：170 kTh/年 * 500,000 = 每年 850 亿 Th。

全球 GPU 的合成思考小时容量的复合年增长率是多少？

鉴于芯片是当今人工智能的限速因素，这是一个重要的数字。为了进行粗略的估算，我们假设数据中心在 GPU 上的支出的复合年增长率等同于 GPU 数量的复合年增长率。

Markets and Markets 预测 GPU 市场的增长率为 36%，因此我们将使用该数字作为 GPU 数量复合年增长率的估计值。

综合分析

在思考人工智能何时在思考上超越人类时，我们必须综合考虑人类和合成的认知能力。通过量化全球知识劳动力的思考小时，并将其与人工智能驱动的不断增长的合成思考小时进行比较，我们可以开始预测每种趋势的趋势线。

比较分析思考小时

1. 人类思考小时：

• **全球产量：**全球知识劳动力每年产生约 1.9 万亿思考小时 (TTh)。
• **成本效率：**每个人类思考小时的成本约为 13 美元，每年的总成本为 25 万亿美元。

3. 合成思考小时：

• **全球容量：**估计有 500,000 个 H100 单元专用于推理，全球人工智能系统每年产生约 850 亿思考小时 (GTh)。
• **成本效率：**每个合成思考小时的成本约为 0.15 美元，大大低于人类思考小时的成本，低了 86 倍。

增长轨迹

考虑到全球 GPU 容量目前 36% 的复合年增长率，合成思考小时的产量可能会大幅增长。即使人类知识劳动力的增长率保持不变，人工智能的快速发展也表明人工智能的轨迹不同。

人类与人工智能思考小时能力的预测

为了估计人工智能何时可能在思考上超越人类，我们必须进行预测：

• **现状：**人工智能目前每年产生 850 亿 Th，而人类产生 1.9 万亿 Th。
• **未来增长：**如果 36% 的复合年增长率持续下去，人工智能的能力将大约每两年翻一番。

如果这个增长率保持不变，人工智能的合成思考小时将在约 10 年内在数量上超过人类思考小时。

这可能是合成思考小时增长率的下限。重要的是，它忽略了每年观察到的算法效率提高 0.4 OOM。如果我们将其考虑在内，合成思考小时的数量将在不到一半的时间内超过人类（4 年而不是 11 年）。

还有哪些其他因素可能会影响这个轨迹？简而言之——很多。以下是一些我想到的主要考虑因素：

• **芯片：**当谈到劳动力中合成思考小时的数量时，最大的限制因素（也是最大的未知因素）是芯片。在这方面最大的问题是围绕台湾和台积电的地缘政治局势。
• **能源：**如今，几乎所有关于能源的讨论都是关于数据中心计算的。我认为能源是我们训练更大系统面临的最大瓶颈之一，但当涉及到推理时，最大的瓶颈似乎是芯片。我的主要理由是，一旦我们获得了前沿模型，我们通常会找到性能优化策略，允许这些模型（或其衍生模型）在已经部署在数据中心且能源供应充足的早期芯片上运行。
• **人工智能投资回报率：**人工智能非常资本密集。像 Service Now 这样的成功案例表明，淘金热是有道理的，但这些胜利需要随着时间的推移而持续下去，以保持该行业的势头和投资者的信心。

影响：人工智能时代的展望

如果这些预测方向正确，这对社会意味着什么？如果你也相信人工智能模型在这段时间内会变得“更聪明”，那么其影响肯定会是社会层面的。如果对思考小时数量的预测并非如此——如果它们预测的思考小时数量只是人类思考小时的一小部分——那么社会层面的影响可能会小得多。

作为一个在我的整个职业生涯中都在数据和人工智能/机器学习领域工作的人，我对“人工智能炒作”相当反感。但我相信，人工智能就像 90 年代的互联网……充满了炒作，但仍然会在未来几年和几十年内改变社会。

当人工智能的思考量超越人类时，我们将会进入一个全新的时代。这将对各行各业产生深远的影响，从医疗保健到教育，从制造业到金融服务。

以下是人工智能思考量超越人类的一些潜在影响：

• **自动化：**更多工作可以自动化，从而提高效率和生产力，但也可能导致失业。
• **决策：**人工智能可以帮助我们做出更好的决策，尤其是在处理大量数据时，但我们也需要确保人工智能的决策是公平、透明和负责任的。
• **创新：**人工智能可以加速创新，帮助我们解决世界上一些最紧迫的挑战，如气候变化和疾病。
• **社会：**人工智能可能会加剧现有的社会不平等，但也可能创造新的机会，例如个性化教育和医疗保健。