引言
关于作者
Nathan Benaich
Nathan是Air Street Capital的普通合伙人,这是一家投资于人工智能优先公司的风险投资公司。他运营着研究与应用人工智能峰会(RAAIS)、RAAIS基金会(资助开源人工智能项目)、美国和欧洲的人工智能社区以及Spinout.fyi(改进大学衍生公司创建)。他在威廉姆斯学院学习生物学,并在剑桥大学获得癌症研究博士学位,是一位盖茨学者。
Alex Chalmers
Alex是Air Street Capital的平台主管,并定期通过Air Street Press撰写关于人工智能的研究、分析和评论文章。在加入Air Street之前,他是Milltown Partners的副总监,为大型科技公司、初创公司和投资者提供政策和定位方面的建议。他于2017年毕业于牛津大学,获得历史学学位。
人工智能概述
人工智能(AI)是一个多学科的科学和工程领域,其目标是创造智能机器。
我们相信,人工智能将成为我们日益数字化、数据驱动的世界中技术进步的倍增器。这是因为我们今天周围的一切,从文化到消费产品,都是智力的产物。
人工智能现状报告现在已经是第七年了。请将这份报告视为我们所见到的最有趣的事物的汇编,目的是引发一场关于人工智能现状及其对未来影响的知情对话。
我们在报告中考虑了以下关键维度:
• 研究: 技术突破及其能力。
• 行业: 人工智能的商业应用领域及其商业影响。
• 政治: 人工智能的监管、其经济影响和不断发展的人工智能地缘政治。
• 安全: 识别和缓解高度 capable 的未来人工智能系统可能给我们带来的灾难性风险。
• 预测: 我们相信在未来12个月内会发生的事情,以及对2023年的预测效果回顾,以保持我们的诚实。
由Nathan Benaich和Air Street Capital团队制作
定义
人工智能(AI): 一个广泛的学科,其目标是创造智能机器,而不是人类和动物所表现出的自然智能。
通用人工智能(AGI): 用来描述未来机器的术语,这些机器可以在所有具有经济价值的任务中匹敌并超越人类的全部认知能力。
人工智能代理: 一个可以在环境中采取行动的人工智能系统。例如,一个LLM可以访问一套工具,并且必须决定使用哪个工具来完成它被提示执行的任务。
人工智能安全: 一个研究并试图缓解未来人工智能可能给人类带来的风险(从轻微到灾难性)的领域。
计算机视觉(CV): 程序分析和理解图像和视频的能力。
深度学习(DL): 一种受大脑中神经元如何识别数据中复杂模式启发的人工智能方法。“深度”指的是当今模型中的多层神经元,这些神经元有助于学习数据的丰富表示,从而实现更好的性能提升。
扩散: 一种算法,它迭代地对人工损坏的信号进行去噪,以生成新的、高质量的输出。近年来,它一直处于图像生成和蛋白质设计的前沿。
生成式人工智能: 一系列能够根据“提示”生成新内容(例如文本、图像、音频或3D资产)的人工智能系统。
图形处理单元(GPU): 一种半导体处理单元,它能够并行计算大量的计算。历史上,这是渲染计算机图形所必需的。自2012年以来,GPU已经适应了训练DL模型,这也需要大量的并行计算。
(大型)语言模型(LM,LLM): 一个模型,在大量的(通常是)文本数据上训练,以自监督的方式预测下一个单词。“LLM”一词用于指定数十亿参数的LM,但这是一个不断变化的定义。
机器学习(ML): 人工智能的一个子集,它通常使用统计技术来赋予机器从数据中“学习”的能力,而无需明确给出如何做到的指令。这个过程被称为使用学习“算法”对“模型”进行“训练”,该算法逐步提高模型在特定任务上的性能。
模型: 一个在数据上训练并用于进行预测的ML算法。
自然语言处理(NLP): 程序理解人类口语和书面语言的能力。
提示: 通常以自然语言编写的用户输入,用于指示LLM生成内容或采取行动。
强化学习(RL): ML的一个领域,其中软件代理通过在提供奖励或惩罚的环境中试错来学习目标导向的行为(称为“策略”),以实现该目标。
自监督学习(SSL): 一种无监督学习的形式,其中不需要人工标记的数据。原始数据以自动方式进行修改,以创建人工标签以供学习。SSL的一个例子是通过屏蔽句子中的随机单词并尝试预测缺失的单词来学习完成文本。
Transformer: 大多数最先进(SOTA)ML研究的核心模型架构。它由多个“注意力”层组成,这些层学习输入数据的哪些部分对给定任务最重要。Transformer起源于NLP(特别是机器翻译),随后扩展到计算机视觉、音频和其他模态。
执行摘要
研究
• 前沿实验室的性能趋于一致,但OpenAI在o1发布后仍然保持领先地位,因为规划和推理成为一个主要前沿领域。
• 基础模型展示了它们突破语言限制的能力,因为多模态研究进入了数学、生物学、基因组学、物理科学和神经科学领域。
• 美国制裁未能阻止中国(V)LLM在社区排行榜上的崛起。
行业
• NVIDIA仍然是世界上最强大的公司,在3万亿美元俱乐部中占有一席之地,而监管机构则在调查生成式人工智能中的权力集中问题。
• 成熟的生成式人工智能公司带来了数十亿美元的收入,而初创公司开始在视频和音频生成等领域获得发展。虽然公司开始从模型到产品的旅程,但围绕定价和可持续性的长期问题仍未解决。
• 在公开市场的牛市推动下,人工智能公司的价值达到9万亿美元,而私人公司的投资水平也在健康增长。
政治
• 虽然全球治理努力停滞不前,但国家和地区的人工智能监管仍在继续推进,美国和欧盟通过了有争议的立法。
• 计算需求的现实迫使大型科技公司不得不考虑现实世界对扩展的物理限制及其自身的排放目标。与此同时,各国政府自身的能力建设努力仍然滞后。
• 预期的人工智能对选举、就业和一系列其他敏感领域的影响尚未在任何规模上实现。
安全
• 从安全到加速的氛围转变正在发生,因为那些先前警告我们人类即将灭绝的公司需要增加其消费者应用程序的企业销售和使用量。
• 世界各国政府都在效仿英国,建立围绕人工智能安全的能力,启动研究所并研究关键国家基础设施的潜在漏洞。
• 每个提出的越狱“修复”都失败了,但研究人员越来越担心更复杂、更长期的攻击。
回顾 2023 年的预测
2023 年预测 | 结果 | 证据 |
好莱坞级别的制作将使用生成式人工智能进行视觉效果。 | 是 | 很大程度上很糟糕,但在Netflix和HBO的制作中已经看到了生成式人工智能的视觉效果。 |
一家生成式人工智能媒体公司因其在2024年美国大选期间的滥用行为而受到调查。 | 待定 | 还没有,但还有时间。 |
自我改进的人工智能代理在复杂环境(例如AAA游戏、工具使用、科学)中超越了SOTA。 | 否 | 还没有,尽管在开放性方面取得了有希望的进展,包括强大的游戏性能。 |
科技IPO市场解冻,我们看到至少有一家专注于人工智能的公司(例如DBRX)上市。 | 待定 | 虽然“七巨头”获得了强劲的收益,但私营公司仍在等待市场稳定。然而,人工智能芯片公司Cerebras已提交IPO申请。 |
生成式人工智能的扩展热潮导致一个团体花费超过10亿美元来训练一个单一的大型模型。 | 否 | 还没有——让我们再等一年。 |
美国FTC或英国CMA对微软/OpenAI交易进行竞争方面的调查。 | 是 | 两家监管机构都在调查这种合作关系。 |
我们看到全球人工智能治理在高层自愿承诺之外进展有限。 | 是 | 布莱奇利和首尔峰会的承诺仍然是自愿和高层的。 |
金融机构推出GPU债务基金,以取代风险投资的股权资金用于计算资金。 | 否 | 有传言称,一些风险投资基金将为股权提供GPU,但我们还没有看到任何人走债务路线。 |
一首人工智能生成的歌曲进入Billboard Hot 100前10名或Spotify Top Hits 2024。 | 是 | 事实证明,这在去年就已经发生了,当时“Heart on My Sleeve”的歌曲排名,但我们也看到一首人工智能生成的歌曲在德国排名第27,并在前50名中停留了几天。 |
随着推理工作负载和成本的显著增长,一家大型人工智能公司(例如OpenAI)收购或建立一家专注于推理的人工智能芯片公司。 | 是 | 据报道,Sam Altman正在筹集巨额资金来做到这一点,而谷歌、亚马逊、Meta和微软都在继续构建和改进他们自己的人工智能芯片。 |
第一部分:研究前沿
OpenAI的统治时代结束了,直到……
在今年的大部分时间里,无论是基准测试还是社区排行榜,都显示GPT-4与“其他最佳模型”之间存在着巨大的差距。然而,随着模型性能的融合,Claude 3.5 Sonnet、Gemini 1.5和Grok 2几乎消除了这种差距。
• 无论是在正式基准测试还是基于感觉的分析中,资金最充足的前沿实验室都能在个别能力上获得彼此相差不到个位数的分数。
• 模型现在始终如一地成为能力极强的编码器,在事实回忆和数学方面表现出色,但在开放式问答和多模态问题解决方面表现不佳。
• 许多差异已经小到足以成为实现差异的产物。例如,GPT-4o在MMLU上的表现优于Claude 3.5 Sonnet,但在MMLU-Pro上的表现却不如后者——MMLU-Pro是一个设计更具挑战性的基准测试。
• 考虑到架构之间的技术差异相对微小,而且预训练数据可能存在大量重叠,模型构建者现在越来越需要在新的能力和产品功能上展开竞争。
……Strawberry 着陆,加倍投入推理计算规模
OpenAI团队显然很早就意识到了推理计算的潜力,在其他实验室探索这项技术的论文发表几周后,OpenAI o1就出现了。
• 通过将计算资源从预训练和后训练转移到推理阶段,o1以思维链(COT)风格逐步推理复杂提示,并使用强化学习来改进COT及其使用的策略。 这使得解决多层数学、科学和编码问题成为可能,而LLM在这些问题上历来表现不佳,原因在于下一词预测的固有限制。
• OpenAI报告称,与4o相比,o1在推理密集型基准测试中取得了显著进步, 其中AIME 2024(竞赛数学)的得分最高,从13.4分跃升至83.83分。
• 然而,这种能力的代价是高昂的:100万个输入token的o1预览版成本为15美元,而100万个输出token的成本为60美元,比GPT-4o贵3-4倍。