现在似乎是一个很好的时机来阐述我们在人工智能领域的现状,以及接下来可能会发生什么。
我想专注于人工智能模型的能力,特别是驱动 ChatGPT 和 Gemini 等聊天机器人的大型语言模型。
这些模型随着时间的推移变得越来越"聪明",考虑其原因似乎很有价值,因为这将帮助我们理解接下来会发生什么。要做到这一点,需要深入了解模型是如何训练的。
我将尝试以非技术性的方式来解释,这意味着我会忽略许多重要的细节,希望我的技术读者能原谅我。
要理解大型语言模型的现状,你需要理解规模。
正如我警告过的,我会大大简化一些内容,但人工智能中有一个"扩展定律"(实际上更像是一种观察)表明,模型越大,其能力就越强。
更大的模型意味着它们有更多的参数,这些参数是模型用来预测下一步要写什么的可调整值。这些模型通常在更大量的数据上进行训练,以标记来衡量,对于大型语言模型来说,标记通常是单词或单词的一部分。
训练这些更大的模型需要增加计算能力,通常以FLOP(浮点运算)来衡量。FLOP 衡量计算机执行的基本数学运算(如加法或乘法)的数量,为我们提供了一种量化人工智能训练期间完成的计算工作的方法。
更有能力的模型意味着它们更能够执行复杂的任务,在基准测试和考试中得分更高,总体上看起来更"聪明"。
规模确实很重要。
彭博社创建了 BloombergGPT 来利用其庞大的金融数据资源,并可能在金融分析和预测方面获得优势。
这是一个专门的人工智能,其数据集包含大量彭博社的高质量数据,并在 200 ZetaFLOP(即 2 x 10^23)的计算能力上进行训练。
它在做一些事情方面相当不错,比如弄清楚金融文件的情感……但它通常被 GPT-4 击败[1],而 GPT-4 根本没有针对金融进行训练。
GPT-4 只是一个更大的模型(估计大 100 倍,20 YottaFLOP,约 2 x 10^25),所以它在各方面都普遍优于小模型。这种扩展似乎适用于各种生产性工作 - 在一项实验[2]中,
翻译人员使用不同大小的模型:"每增加 10 倍的模型计算量,翻译人员完成任务的速度提高 12.3%,获得的分数提高 0.18 个标准差,每分钟的收入增加 16.1%。"
更大的模型也需要更多的训练努力。
这不仅仅是因为你需要收集更多的数据,而且更大的模型需要更多的计算时间,这反过来需要更多的计算机芯片和更多的电力来运行它们。
改进的模式发生在数量级上。要获得一个能力更强的模型,你需要将训练所需的数据量和计算能力增加大约十倍。这也往往会使成本增加一个数量级。
如从上图所见,规模的许多方面是相关的,但涉及一堆混杂的度量和术语。
这造成了混乱,而人工智能公司经常对其模型保密,并给它们起一些晦涩难懂的名字,使人难以理解它们有多强大,这并没有帮助。
但我们可以稍微简化一下:人工智能能力的故事在很大程度上是一个模型规模不断增加的故事,模型的大小遵循一种代际方法。
每一代都需要大量的规划和资金来收集十倍于前一代的数据和计算能力,以训练一个更大更好的模型。我们称任何给定时间最大的模型为"前沿模型"。
因此,为了简单起见,让我为前沿模型提出以下非常粗略的标签。
请注意,这些代际标签是我自己简化的分类,用于帮助说明模型能力的进展,而不是官方行业术语:
第一代模型(2022 年):这些模型具有 ChatGPT-3.5 的能力,ChatGPT-3.5 是 OpenAI 的模型,掀起了生成式人工智能的风暴。它们需要不到 10^25 FLOP 的计算量,通常训练成本在 1000 万美元或以下。有许多第一代模型,包括开源版本。
第二代模型(2023-2024 年):这些模型具有 GPT-4 的能力,GPT-4 是该类别的第一个模型。它们需要大约 10^25 到 10^26 FLOP 的计算量,训练成本可能达到 1 亿美元或更多。现在已经有多个第二代模型。
第三代模型(2025?-2026?):截至目前,还没有第三代模型问世,但我们知道有一些计划很快发布,包括 GPT-5 和 Grok 3。它们需要 10^26 到 10^27 FLOP 的计算量,训练成本达到 10 亿美元(或更多)。
第四代模型及以后:我们可能会在几年内看到第四代模型,它们的训练成本可能超过 100 亿美元。我交谈过的几位内部人士都不认为扩展的好处会在第四代之前结束。在那之后,到本十年末,扩展可能会比第三代增加整整 1000 倍[3],但这还不确定。这就是为什么有那么多关于如何获得能源和数据来支持未来模型的讨论。
GPT-4 开启了第二代时代,但现在其他公司已经赶上,我们正处于第一批第三代模型的边缘。我想重点关注第二代的当前状态,其中特别有五个人工智能处于领先地位。
虽然其他模型也符合第二代模型的资格,但有五个模型在头对头比较[4]中始终占据主导地位。
这五个前沿模型有许多不同之处,但由于它们都在同一数量级内,所以它们的"智能"水平大致相似。
我想逐一介绍每个模型,并会向它们提出相同的三个问题来说明它们的能力:
用不超过三段的篇幅,想出一个计划,激励组织中的人与高管分享他们如何使用生成式人工智能来帮助完成工作,同时考虑到人们可能不愿分享的原因。逐步思考
解释这张图片及其重要性 [我贴上了上面关于训练成本的图表]
对这些数据进行统计分析(使用复杂的技术),看看它们告诉我们关于训练新的高级人工智能模型所需努力量的趋势。用一段话和一个有启发性的图表总结你做了什么以及重要的结论。 [我贴上了一个包含数百个模型训练细节的大型 CSV 文件数据集]
GPT-4o
这是驱动 ChatGPT 以及 Microsoft Copilot 的模型。
它也是当前前沿模型中功能最齐全的,在头对头比较中一直处于领先地位。
它是多模态的,这意味着它可以处理语音、图像和文件(包括 PDF 和电子表格)数据,并且可以生成代码。
它还能够输出语音、文件和图像(使用集成的图像生成器 DALL-E3)。它还可以搜索网络并通过代码解释器运行代码。与其他使用语音的模型不同,GPT-4o 有一个高级语音模式,功能更强大[5],因为模型本身在倾听和说话 - 其他模型使用文本到语音转换,你的语音被转换成文本然后给到模型,然后由一个单独的程序读出模型的回答。
如果你刚开始接触人工智能,GPT-4o 是一个不错的选择,对于认真使用人工智能的人来说,这可能是他们至少有时会想要使用的模型。
Claude 3.5 Sonnet
一个非常聪明的第二代模型,Sonnet 特别擅长处理大量文本。
它是部分多模态的,可以处理图像或文件(包括 PDF),并可以输出文本或可以直接从应用程序运行的小程序,称为 artifacts。它不能生成图像或语音,不能轻易运行数据分析代码,也不连接到网络。
移动应用程序非常好用,这是我现在在处理写作时最常使用的模型。事实上,我通常在写完博客文章后会请它给出反馈(它帮助我在这篇文章中想出了一个很好的方式来描述 FLOP)。
Gemini 1.5 Pro
这是谷歌最先进的模型。
它是部分多模态的,所以它可以处理语音、文本、文件或图像数据,也能够输出语音和图像(它的语音模式目前使用文本到语音转换,而不是原生多模态)。它有一个巨大的上下文窗口,所以它可以处理大量的数据,也可以处理视频。
它还可以搜索网络和运行代码(有时候,它并不总是清楚什么时候可以运行代码,什么时候不能)。
这有点令人困惑,因为 Gemini 网络界面运行的是混合模型,但你可以通过谷歌的 AI 工作室[6]直接访问最强大的版本,Gemini 1.5 Pro Experimental 0827(我告诉过你命名很糟糕)。
最后两个模型还不是多模态的,所以它们不能处理图像、文件和语音。它们也不能运行代码或搜索开放网络。
因此,对于这些模型,我不包括图表或数据分析问题。尽管如此,它们还是有一些其他模型所没有的有趣特性。
Grok 2
来自埃隆·马斯克的 X.AI,它是人工智能中的一匹黑马。
作为后来者,X 正在通过获取芯片和电力的巧妙方法,非常快速地通过扩展世代。
目前,Grok 2 是一个非常有能力的第二代模型,被困在 Twitter/X 界面中1[7]。它可以从 Twitter 获取信息,并可以通过一个名为 Flux 的开源图像生成器输出图像(没有太多限制,所以与其他图像生成器不同,它很乐意制作真实人物的逼真假图像)。
它有一个有点勉强的"有趣"系统提示选项,但不要让这分散你的注意力,Grok 2 是一个强大的模型,在主要的人工智能排行榜上排名第二。
Llama 3.1 405B
这是 Meta 的第二代模型,虽然它还不是多模态的,但它在第二代模型中是独一无二的,因为它是开放权重的。
这意味着 Meta 已经将它发布到世界上,任何人都可以下载和使用它,在某种程度上,还可以修改和调整它。正因为如此,它可能会随着其他人找到扩展其能力的方法而快速发展。
现在这个概览忽略了很多东西。
例如,几乎所有最强大的模型都有从大型兄弟模型衍生出的较小版本。其中包括 GPT-4o mini、Grok 2 mini、Llama 3.1 70B、Gemini 1.5 Flash 和 Claude 3 Haiku 等。
虽然不如前沿第二代模型那么聪明,但它们运行速度更快,操作成本更低,所以在不需要完整前沿模型的情况下经常被使用。同样,规模并不是改进模型的唯一方法,还有许多系统架构和训练方法可能使某些模型比其他模型更好。
但是,目前,规模仍然是王道。而规模一直意味着将更多的"教育"塞进人工智能中 - 在训练过程中填充更多的数据。但是,上周,我们了解到了一种新的扩展方式。
当上周 OpenAI 的 o1-preview 和 o1-mini 模型被揭示时,它们采取了一种根本不同的扩展方法。
o1-preview 可能是训练规模的第二代模型(尽管 OpenAI 没有透露任何具体信息),通过使用一种在模型训练后发生的新形式的扩展,在狭窄的领域实现了真正惊人的性能[8]。
事实证明,推理计算 - 花在"思考"问题上的计算机能力,也有自己的扩展定律。这个"思考"过程本质上是模型在产生输出之前执行多个内部推理步骤,这可能会导致更准确的响应(人工智能并不是真正意义上的思考,但如果我们稍微拟人化一下,解释起来会更容易)。
与你的计算机可以在后台处理不同,大型语言模型只能在产生单词和标记时"思考"。
我们长期以来就知道,提高模型准确性最有效的方法之一是让它遵循思维链(例如,提示它:首先,查找数据,然后考虑你的选择,然后选择最佳选择,最后写出结果),因为它迫使人工智能分步"思考"。
OpenAI 所做的是让 o1 模型经历这种"思考"过程,在给出最终答案之前产生隐藏的思考标记。
通过这样做,他们揭示了另一个扩展定律 - 模型"思考"的时间越长,它的答案就越好。就像训练的扩展定律一样,这似乎没有限制,但也像训练的扩展定律一样,它是指数级的,所以要继续改善输出,你需要让人工智能"思考"越来越长的时间。
这让《银河系漫游指南》中那台需要 750 万年来找出终极问题的终极答案的虚构计算机,感觉更像是一个预言,而不是科幻笑话。我们还处在"思考"扩展定律的早期阶段,但它显示了未来的巨大潜力。
两个扩展定律的存在
一个用于训练,另一个用于"思考"
表明人工智能的能力在未来几年将会有戏剧性的提升。即使我们在训练更大模型方面遇到瓶颈(这在未来至少几代似乎不太可能),人工智能仍然可以通过分配更多的计算能力来"思考"来解决越来越复杂的问题。这种双管齐下的扩展方法几乎保证了更强大的人工智能竞赛将继续不减,这对社会、经济和环境都有深远的影响。
随着模型架构和训练技术的不断进步,我们正在接近人工智能能力的新前沿。科技公司长期以来承诺的独立人工智能代理可能就在眼前。这些系统将能够在最少人类监督的情况下处理复杂的任务,影响广泛。随着人工智能发展的步伐似乎更加确定地加速,我们需要为未来的机遇和挑战做好准备。
参考资料
但它通常被 GPT-4 击败: https://arxiv.org/pdf/2305.05862
[2]实验: https://arxiv.org/abs/2409.02391
[3]在那之后,到本十年末,扩展可能会比第三代增加整整 1000 倍: https://epochai.org/blog/can-ai-scaling-continue-through-2030
[4]头对头比较: https://lmarena.ai/
[5]有一个高级语音模式,功能更强大: https://www.oneusefulthing.org/p/on-speaking-to-ai
[6]谷歌的 AI 工作室: https://aistudio.google.com/app/prompts/new_chat
[7]1: https://www.oneusefulthing.org/p/scaling-the-state-of-play-in-ai#footnote-1-148908313
[8]实现了真正惊人的性能: https://www.oneusefulthing.org/p/something-new-on-openais-strawberry
👇
👇
👇
👇
本文同步自于知识星球《AGI Hunt》
星球实时采集和监控推特、油管、discord、电报等平台的热点AI 内容,并基于数个资讯处理的 AI agent 挑选、审核、翻译、总结到星球中。
每天约监控6000 条消息,可节省约800+ 小时的阅读成本。
每天挖掘出10+ 热门的/新的 github 开源 AI 项目
每天转译、点评 10+ 热门 arxiv AI 前沿论文
星球非免费。定价99元/年,0.27元/天。(每+100人,+20元。元老福利~)
一是运行有成本,我希望它能自我闭环,这样才能长期稳定运转;
二是对人的挑选,鱼龙混杂不是我想要的,希望找到关注和热爱 AI 的人。
欢迎你的加入!
👇👇👇快人一步,掌控AI👇👇👇