冲浪 | State of AI 2024 长文报告发布，人工智能发展之路走到了哪里？

文摘科技 2024-10-10 19:16 上海

引言：10 月 10 日，人工智能领域投资机构 Air Street Capital 与投资人 Nathan Benaich 发布了 State of AI 2024 人工智能行业报告，分析了人工智能领域最有趣的发展动态，旨在引发一场关于人工智能现状及其对未来影响的深刻对话。本文基于报告翻译整理。

添加主理人（微信：xrvoyager）

获取源报告一起大开脑洞

—————— · ——————

本文阅读时间约为 35 分钟

如果说去年是基础模型的爆发时刻，那么今年就是巩固之年。虽然今年的报告继续记录了基础模型在能力方面的重大进步，但我们与基础模型的关系已经发生了变化。研究人员现在对基础模型如何加速他们的工作以及如何最好地减轻其缺点有了更深入的理解。与此同时，企业现在正真正投入精力，从仅仅构建模型转向创造产品。

在去年的报告中，我们曾质疑生成式人工智能产品在最初的「Wow」因素（以及试用订阅）结束后能否留住用户。这个问题已经有了明确的答案：OpenAI 现在正赚取数十亿美元的收入，而 ElevenLabs 和 Synthesia 等公司已经成为《财富》500 强企业的日常工具。

然而，越来越多的采用也意味着越来越多的挑战。其中一些挑战处于政策层面。国际峰会、协议和议定书的热潮未能掩盖在治理方面的重大分歧。大型科技公司与欧洲监管机构处于对抗状态，而加利福尼亚州提出的人工智能监管引发了该领域的一场「内战」。欧盟人工智能法案可能现已成为法律，但欧洲大陆上越来越多的人感到后悔。

长期以来，关于人工智能的讨论一直由模型扩展定律及其后果主导。今年，企业被迫面对非常现实的物理限制，因为它们对电力、水和土地的需求给计算基础设施带来越来越大的压力。五年前理想主义地接受的乐观的零排放承诺现在似乎面临严重危机。与此同时，这种人工智能基础设施的建设需要的资金远远超出许多机构投资者的能力范围，迫使企业将目光投向海外，这带来了地缘政治影响。

在所有这些挑战中，一个无可争议的赢家已经出现。英伟达已经加入了 3 万亿美元俱乐部，成为股市的风向标，可以说是世界上最具实力的公司。越来越多的挑战者、对其在中国业务的限制、老对手迟来的软件投资，都未能对其造成任何影响。

虽然英伟达是最极端的例子，但处于人工智能发展前沿的上市公司已经获得了数万亿美元的市场价值。更令人印象深刻的是，它们是在高利率和更广泛的市场停滞时期做到这一点的。再加上不断提高的采用率、巨大的基础设施建设以及仅仅为了满足人工智能相关需求而启动的核电站 —— 感觉我们真的正在进入一个新时代。

2024 年报告的主要结论包括：

前沿实验室的性能开始趋同，专有模型失去优势，因为 GPT-4 与其他模型之间的差距正在缩小。OpenAI o1 使该实验室重新回到排行榜首位，但能持续多久呢？
规划和推理在大语言模型研究中占据优先地位，因为企业探索将大语言模型与强化学习、进化算法和自我改进相结合，以解锁未来的智能应用。
基础模型展示了它们突破语言的能力，支持跨数学、生物学、基因组学、物理科学和神经科学的多模态研究。
美国的制裁对中国实验室生产有能力的模型的能力影响有限，因为库存、经批准的硬件、走私和云访问的结合使他们能够构建高性能大语言和视觉语言模型。与此同时，中国建设国内半导体产业的努力仍然混乱不堪。
随着上市公司经历人工智能曝光的牛市，人工智能公司的企业价值已达到 9 万亿美元。对私人人工智能公司的投资也有所增加，但增加幅度小了一个数量级，尽管美国出现了生成式人工智能的巨额融资。
少数人工智能公司开始产生可观的收入，包括基础模型构建者和从事视频和音频生成的初创公司。然而，随着模型在企业抢占市场的过程中变得越来越便宜，关于长期可持续性的问题仍未得到解答。
伪收购成为人工智能公司的一条出路，因为一些公司在保持前沿地位成本高昂的情况下难以找到可行的商业模式。
关于存在风险的讨论已经降温，尤其是在 OpenAI 的政变未遂之后。然而，研究人员继续加深我们对潜在模型漏洞和滥用的认识，提出潜在的修复措施和保障措施。

模型性能

前沿实验室竞争与模型能力变化

2024 年大部分时间，GPT-4 与其他模型有差距，但 Claude 3.5 Sonnet、Gemini 1.5 和 Grok 2 等模型使性能差距缩小。在正式基准测试和基于「上下文」的分析中，资金充足的前沿实验室在个体能力上得分相近。
模型在编码和事实回忆方面表现出色，在数学和科学事实方面能力较强，但在开放式问答和多模态问题解决上能力稍弱。不同模型架构之间技术差异相对微妙，预训练数据可能有重叠，模型构建者需在新能力和产品特性上竞争。

OpenAI o1 模型的特点与影响

OpenAI o1 通过将计算从预训练和后训练转移到推理，能以链 - 思考（COT）风格逐步推理复杂提示，采用强化学习优化 COT 及其策略。这使其在解决多层数学、科学和编码问题上有突破，在推理-重基准测试中比 4o 有显著提升，如在 AIME 2024 竞赛数学中得分远超 4o。
然而 o1 成本高昂，一百万输入 token 的 o1 preview 成本为 15 美元，一百万输出 token 为 60 美元，比 GPT-4o 贵 3-4 倍。且它不适合需要快速响应、图像输入或函数调用的任务。
o1 在某些逻辑问题和谜题上表现优于其他 LLMs，在复杂数学和科学任务上优势明显，如能在约一小时内重现一名博士生一年的代码，但在空间推理方面较弱，如不会下象棋。

Llama 系列模型的发展与表现

Llama 3.1 405B 是 Meta 在 2024 年推出的模型，其在推理、数学、多语言和长文本任务上能与 GPT-4o 和 Claude 3.5 Sonnet 抗衡。Meta 沿用了自 Llama 1 以来的解码器-仅 transformer 架构，并进行了一些调整，如增加 transformer 层和注意力头，使用了 15T token 进行训练。
Llama 3.2 在 9 月推出，包含 11B 和 90B VLMs，实现了 Llama 的多模态首次亮相。基于 Llama 的模型在 Hugging Face 上下载量超过 4.4 亿次。
Llama 3 缩小了开源模型与专有前沿模型的差距，其不同版本在与其他模型对比中表现出一定竞争力。

中国大模型的崛起

中国的 DeepSeek（幻方）、01.AI（零一万物）、Zhipu AI（智谱）和 Alibaba（阿里）等公司的模型在 LMSYS 排行榜上表现出色，在数学和编码方面尤为突出。这些模型与美国实验室第二梯队的前沿模型竞争力相当，在某些子任务上挑战了 SOTA。
中国实验室注重计算效率，以弥补 GPU 访问受限的问题。例如 DeepSeek 采用了多头部潜在注意力等技术降低推理内存需求和增强 MoE 架构，01.AI 则专注于构建强大的中文数据集。

模型发展趋势

开源模型的「开源」探讨

开源模型受到社区支持且成为监管热点，但「开源」一词常被误导。不同开源项目在权重、数据集、许可和访问方法等方面的开放程度差异很大。例如，一些项目在模型权重、RL 数据或 API 访问上存在限制。

模型缩小对性能的影响

Meta/MIT 团队研究发现，对开放权重预训练的 LLMs，可去除多达一半的层，在问答基准测试中性能下降可忽略不计。他们通过相似性确定最佳去除层，然后通过少量高效微调「修复」模型。
NVIDIA 研究人员采取更激进方法，修剪层、神经元、注意力头和嵌入，然后使用知识蒸馏进行高效再训练，得到的 MINITRON 模型在性能上可比肩 Mistral 7B 和 Llama-3 8B 等模型，同时使用的训练 token 数量仅为四十分之一。

蒸馏模型的流行

蒸馏模型成为趋势，如 Google 通过蒸馏得到 Gemini 1.5 Flash 等模型，社区也有相关工具如 arcee.ai’s DistillKit。一些研究推测 Claude 3 Haiku 可能是 Opus 的蒸馏版本。同时，蒸馏也应用到多模态领域，如 Black Forest Labs 的 FLUX.1。

移动设备上的小模型

随着大科技公司考虑大规模终端用户部署，出现了适用于智能手机的高性能小模型。微软的 phi-3.5-mini 是 3.8B 的语言模型，通过量化可降低内存占用，在推理和问答上表现良好，但知识储备受限于模型大小。
Apple 推出 Mobile CLIP，是高效的图像-文本模型家族，通过新颖的多模态强化训练提高紧凑模型的准确性。Hugging Face 的 SmolLM 也是小语言模型家族，通过精心设计的合成数据集实现了相应规模下的 SOTA 性能。

量化技术的应用

量化技术可降低 LLMs 的内存需求，如微软的 BitNet 使用 BitLinear 层替换标准线性层，采用 1-位权重和量化激活，在性能上与全精度模型有竞争力，且在内存和能源节省上有优势。其后续版本 BitNet b1.58 采用三元权重，在 3B 大小上匹配全精度 LLM 性能并保持效率提升。
ByteDance 的 TikTok 可将图像量化为紧凑的 1D 离散 token 序列用于图像重建和生成任务，可大幅减少图像表示所需的 token 数量。

合成数据的应用与争议

合成数据应用增加，如 Phi 系列以合成数据为主要训练源，Anthropic 在训练 Claude 3 时使用合成数据，Hugging Face 用 Mixtral-8x7B Instruct 生成合成数据重现 Phi-1.5 训练数据集。NVIDIA 发布 Nemotron-4-340B 系列用于合成数据生成，Meta 的 Llama 也可用于此。
同时，合成数据也引发争议，有研究担心其可能导致模型崩溃。一些研究发现模型在新的测试数据集上性能下降，可能是因为测试或验证数据泄漏到训练集中。

Web 数据用于预训练的成果

Team Hugging Face 构建 15T token 的数据集 FineWeb 用于 LLM 预训练，通过多步处理和高质量数据提取方法，该数据集在性能上优于其他开放预训练数据集。通过对部分样本进行标注和筛选，得到的 FineWeb - edu 数据集表现更优。

其他模型技术的探索

检索和嵌入技术

遵循常规 LLMs 的成功经验，通过扩大规模（如 GritLM 有 ~47B 参数）以及使用广泛的网络规模语料库和改进过滤方法，检索和嵌入模型性能得到极大提升。
在 MTEB 检索排行榜上，OpenAI 的嵌入模型排名第 29 位，而 NVIDIA 的开放 NV-Embed-v2 排名第一。GritLM 是第一个在文本表示（嵌入）和生成任务上同时达到最佳性能的模型。

上下文对性能的影响

传统的检索增强生成（RAG）解决方案通常采用滑动窗口创建每次 256 个 token 的文本片段，这种方法虽提高了检索效率，但准确性显著降低。
Anthropic 采用「上下文嵌入」方法，通过提示模型生成解释文档中每个块的上下文的文本来解决上述问题。这种方法使前 20 次检索失败率降低了 35%（从 5.7% 降至 3.7%），还可通过提示缓存进行扩展。研究表明块策略的选择会影响检索性能，不同的块策略在召回率上可相差 9%。

评估 RAG 面临的挑战与新方法

许多常用的 RAG 基准是重新利用检索或问答数据集，无法有效评估引用的准确性、文本对整体答案的重要性以及信息冲突的影响。
研究人员开创了新方法，如 Ragnarök 通过成对系统比较引入了一个新的基于网络的人工评估平台，以解决评估 RAG 质量的挑战。Researchy Questions 提供了一个从真实用户查询中收集的复杂、多面问题的大规模集合，用于更深入地评估模型回答问题的能力。

前沿实验室面对的计算集群难题与解决方案

随着计算集群规模增大，构建和维护变得更加困难。集群需要高带宽、低延迟连接，并且对设备异构性敏感。
Google DeepMind 提出分布式低通信（DiLoCo）算法，允许在多个松散连接的「岛屿」设备上进行训练。每个岛屿在与其他岛屿通信之前执行大量本地更新步骤，减少了频繁数据交换的需求。他们还展示了在 8 个这样的岛屿上进行完全同步优化，并将通信数据量减少到 500 分之一。同时还提出了针对异步设置的优化版本。

更好的数据管理方法对训练计算需求的影响

数据管理是有效预训练的关键部分，但传统方法通常是手动且低效的。通常是一次性处理整个数据集，不考虑训练示例相关性在学习过程中的变化，且在训练前应用，无法适应训练过程中的变化需求，对于多模态模型尤其困难。
Google DeepMind 的 JEST 方法选择整个批次的数据而不是单个示例，选择由预训练参考模型确定的「可学习性分数」指导。它能够将数据选择直接集成到训练过程中，使其具有动态性和自适应性。JEST 还使用较低分辨率的图像处理进行数据选择和部分训练，在保持性能的同时显著降低计算成本。通过与其他方法对比，JEST 在多种指标上表现出优势。

硬件产业格局

NVIDIA 的主导地位

NVIDIA 成为世界上最强大的公司，市值在 2024 年 6 月达到 3T。其市场地位得益于每一个主要实验室都依赖其硬件来运行生成式 AI workloads。它已经预订了大量新的 Blackwell 系列 GPU 的预售订单，并积极向政府推广。
新的 Blackwell B200 GPU 和 GB200 Superchip 相比 H100 有显著性能提升，NVIDIA 声称可降低成本和能源消耗到 1/25。尽管 Blackwell 架构因制造问题延迟，但公司仍有信心在年底获得数十亿的收入。

竞争对手的困境

AMD 和 Intel 试图挑战 NVIDIA 的地位。AMD 投资软件生态系统，并向开源社区推广 ROCm，但尚未开发出有竞争力的网络解决方案替代 NVIDIA 的产品组合。虽然计划收购服务器制造商 ZT Systems，但仍面临挑战。Intel 硬件销售下降。
在没有监管干预、研究范式改变或供应限制的情况下，NVIDIA 的地位难以撼动。

AI 芯片初创公司的发展

从 2016 到 2024 年，市场对 AI 芯片挑战者投资了 60 亿美元，若投资 NVIDIA 股票收益更高。
但一些初创公司仍有发展，如 Cerebras 在 2024 年上半年收入增长 15.6 倍，其 Wafer-Scale Engine 有独特优势，并推出推理服务。Groq 也推出了用于 AI 推理任务的 Language Processing Unit，并获得了一些合作伙伴关系。

软件和应用产业格局

生成式 AI 公司的经济状况

许多生成式 AI 初创公司估值高，但很多没有盈利路径。不过，最大的模型提供商收入开始增长，如 OpenAI 收入有望在一年内增长两倍，但训练、推理和人员成本导致亏损仍在增加。

聊天机器人及相关应用的发展

聊天机器人功能不断增强，Anthropic 和 Vercel 推出聊天代理可在浏览器中打开编码环境的功能。同时，实验室从构建模型转向设计产品，如 OpenAI、Anthropic 和 Meta 等公司更加注重产品的设计和用户体验。
一些欧洲公司在 AI 领域有不同发展态势。Mistral 在欧洲是基础模型冠军，有计算效率和多语言能力优势，与微软等公司有合作并拓展业务。而德国的 Aleph Alpha 面临困境，其封闭模型表现不佳，公司策略有所转变。

企业自动化升级

传统的机器人流程自动化（RPA）面临高设置成本、执行不稳定和维护困难等问题。FlowMind（JP Morgan）和 ECLAIR（Stanford）利用基础模型解决这些问题。
FlowMind 专注于金融工作流程，通过 LLMs 生成可执行工作流程，在 NCEN-QA 数据集上理解工作流程的准确率达 99.5%。
ECLAIR 采用更广泛的方法，使用多模态模型从演示中学习并与各种企业设置的图形用户界面直接交互，在网页导航任务上完成率从 0% 提高到 40%。

生成式 AI 在医疗领域的应用

医疗领域应用发展迅速。Gemini 系列的多模态模型用于医学，通过微调在医学数据集上表现出色，在 MedQA 上准确率达 91.1%，超过 GPT-4，在一些多模态医学任务数据集上也设定了新的 SOTA。
同时，生成式模型可用于生成合成医学图像。通过对 U-Net 和 CLIP 文本编码器在真实胸部 X 光片和相应报告上进行联合微调，可以生成高保真和概念正确的合成 X 光片，可用于数据增强和自监督学习，但纯合成数据训练会使监督分类性能略有下降，且生成式模型可通过丰富训练数据集提高医学分类器的公平性。

自动驾驶领域

Wayve 和 Waymo 发展良好。Wayve 获得 10.5 亿美元的 C 轮融资，其 LINGO-2 模型可生成实时驾驶评论并控制汽车；Waymo 在多个城市逐步扩大规模，展示了商业潜力，如在 2024 年 8 月每周有 100,000 次付费行程。
但自动驾驶行业也存在风险，如 Cruise 公司在 2023 年发生车辆撞人事故，失去在加州的运营许可，虽有后续举措但仍面临生存问题。

机器人领域

谷歌 DeepMind 在机器人领域有诸多成果，如 AutoRT 系统和 RT-Trajectory 方法等。Hugging Face 的 LeRobot 项目降低了机器人领域的准入门槛。
扩散模型在机器人的政策和动作生成方面有推动作用，一些研究团队致力于解决机器人学习中的高维观察和低维动作空间问题。同时，针对机器人数据的局限性，有研究通过学习更多「可供性」信息或采用链-思考推理来提高性能。
对于人形机器人，有一些项目如 HumanPlus 致力于解决从人类数据学习的问题，一些公司如 Boston Dynamics 的 Spot 也在不断改进其能力。
苹果 Vision Pro 在机器人研究中被用作工具，用于远程操作机器人。

AI 在多行业的应用拓展及相关问题

法律：Harvey 等公司发展良好，大律所开始聘请内部 AI 专家，虽然内部法律团队采用率更高，但律所仍在探索如何在保持竞争力的同时利用 AI。
搜索：Perplexity 和谷歌都在 AI-第一搜索方面有发展，但都面临可靠性问题。
版权：行业态度分歧，一些公司与媒体组织谈判授权，一些公司坚持「公平使用」原则，同时相关法律案件众多但未明确版权归属问题。
文本语音领域：ElevenLabs 发展良好，而前沿实验室较为谨慎。GenAI 应用在企业中粘性增加，一些公司收入增长迅速且客户保留率提高。
语音识别领域：一些初创公司获得融资，其技术可提高准确性并解决传统系统的问题。
视频生成领域：竞争激烈，有公司在数据收集和模型训练上加大投入，而高端模型提供商面临来自廉价和开源竞争对手的压力，同时出现了一些新的视频生成技术和应用场景，如生成式图像条件视频生成。
智能设备方面，智能眼镜和便携式 AI 助手有不同发展态势，智能眼镜如 Ray-Ban 与 Meta 合作的产品获得成功，而便携式 AI 助手如 Rabbit R1 和 Humane AI pin 早期评价不佳。

AI 投资在各个地区都有增长，无论是私人投资还是公共市场，对 AI 公司的估值都在上升，不同类别中 AI 公司的分布也有所变化，同时在融资轮次上呈现出以 2023 年为界的不同趋势。

在监管加强和市场不稳定的情况下，交易活动受到影响，但仍有一些公司通过特殊方式实现了高价值的交易。

人工智能法规的进化

美国的监管举措

2023 年 7 月，美国白宫在获得大实验室的自愿承诺后，于 10 月拜登签署行政命令对前沿模型进行规范。该命令主要针对政府机构，包括制定网络安全标准、要求联邦机构发布 AI 使用政策、解决 AI 相关关键基础设施风险以及委托进行劳动力市场研究等。其中规定若模型在训练中使用超过 10²⁶ FLOPS 的计算能力，实验室需在公共部署前通知联邦政府并分享安全测试结果。同时对使用 AI 进行生物合成的公司也有额外要求。然而，行政命令可能被撤销，且共和党在总统选举中承诺会这样做。
美国一些州也在制定自己的 AI 规则，如加利福尼亚州的 SB 1047 法案。该法案由 AI 安全相关组织发起，旨在为基础模型创建安全和责任制度。其最初草案引发行业担忧，包括确定模型范围的方法、报告和合规程序以及新的监管机构等。经过修改后，虽有部分人支持，但仍有一些公司和组织反对，最终州长否决了该法案。

欧盟的 AI 法案

2024 年 3 月，欧盟议会通过 AI 法案，这是世界上第一个全面的 AI 监管框架。该法案的实施将分阶段进行，2025 年 2 月将禁止「不可接受的风险」（如欺骗、社会评分）相关的 AI 应用。法国和德国对法案进行了修改，对基础模型的监管进行了分层，同时放宽了面部识别的使用限制。虽然行业对该法案存在担忧，但仍有时间参与实施细则的制定。

英国的立法进展

英国新政府表示将打破前任政府仅通过现有立法监管 AI 的方式，但进展缓慢。在 2023 年 11 月的 Bletchley 峰会上，一些大公司自愿同意向英国政府提供更深入的访问权限，如 Anthropic 提供 Claude Sonnet 3.5 的预部署访问，谷歌 DeepMind 提供部分 Gemini 系列模型。英国政府表示将立法确认这些承诺，但不会进行更广泛的监管。

中国的 AI 监管

中国是最早设置生成式 AI 监管指南的国家之一，从 2022 年开始相关指南陆续出台。中国的监管进入执行阶段，由网信办监督，实验室在发布模型前需用大量问题测试以校准拒绝率，通常通过构建垃圾-过滤器类型的分类器来实现。同时，中国使用官方认可的语料库作为训练数据来源。
美国对中国的出口和投资控制美国在 2023-2024 年期间加强了对中国的出口和投资控制。不仅禁止某些物品的出口，还试图干扰中国的芯片库存工作，包括阻止货物运输或要求国际合作伙伴这样做。同时，美国商务部要求制造商停止向中国半导体制造商 SMIC 的先进设施销售产品，并限制或阻止美国对中国从事特定应用的初创公司的投资，尽管其对中国初创公司投资已大幅减少，影响主要是象征性的。

政府对人工智能的行动

建立安全研究所及相关研究

英国在 2024 年与 Bletchley 峰会同时宣布建立世界上第一个 AI 安全研究所（AISI），取代前沿 AI 任务组。其具有评估先进模型、建立安全研究能力和协调国际合作等核心功能。美国、日本和加拿大也有类似举措。AISI 与美国相关机构签署合作备忘录，OpenAI 表示将为美国 AISI 提供其下一个模型的早期访问权限。AISI 还发布了 Inspect 框架用于 LLM 安全评估。

关注关键基础设施风险

英国通过其 Advanced Research and Invention Agency（ARIA）花费 5900 万英镑开发一个「守门人」系统，用于理解和降低其他 AI 代理在能源、医疗和电信等关键领域的风险。同时，英国政府还计划建立一个实验室用于 AI 安全研究。
美国能源部利用内部测试平台评估 AI 对关键基础设施和能源安全的风险，美国国防部和国土安全部则关注解决政府网络用于国家安全和民用目的的漏洞。

主权财富对 AI 的影响及公共计算资源供应

随着前沿实验室的资本支出需求增长，主权财富的影响逐渐增加。例如 Anthropic 的部分股权被出售给阿联酋的主权财富基金 Mubadala，OpenAI 与阿联酋的 G42 公司有合作，G42 还因持有中国科技公司股份引发关注。
同时，公共计算资源供应方面，英国、美国和欧盟都在努力增加，但与私人相比仍显不足。英国冻结了一些项目投资，欧盟通过赠款和竞争过程为初创公司提供少量计算资源，美国国家 AI 研究资源已投入运营，印度政府则表示愿意资助建立一个 10,000 NVIDIA GPU 集群。

AI 对能源消耗和环境的影响

大科技公司签署了 2030 年气候承诺，但 AI 的能源消耗使其朝着错误的方向发展。根据谷歌 2024 年环境报告，其温室气体排放自 2019 年以来上升了 48%；微软自 2020 年以来上升了 30%。高盛估计到 2030 年数据中心的电力需求将增长 160%，科技公司试图改变碳核算规则，但批评者认为其可再生能源的获取方式不准确。
此外，AI 发展对能源基础设施也有影响，如数据中心的电力需求可能需要像核电站一样强大的能源供应，一些国家因能源和基础设施限制对数据中心进行了限制。

AI 的安全治理

全行业从强调 AI 安全到加速应用发生了重大转变：曾经积极参与 AI 安全讨论的前沿模型公司，如今加速将 AI 产品推向消费者。

全球 AI 治理

2023 年 AI 安全讨论升温后，英国在 11 月举办 AI 安全峰会，产生了 Bletchley 宣言，多国承诺合作识别安全挑战并引入基于风险的政策。2024 年 5 月在首尔的峰会也促使一些国家同意开发可互操作的治理框架。然而，这些进展是高层次且不具约束力的，部分国家参与度不同，法国就试图将讨论重点从安全转向实现 AI 的好处。

各国安全研究所建立

英国在 Bletchley 峰会期间宣布建立世界上第一个 AI 安全研究所（AISI），美国、日本和加拿大随后跟进。AISI 有评估先进模型、建立安全研究能力和协调国际合作等核心功能，还将与美国相关机构合作开发测试，且 OpenAI 会为其提供下一个模型的早期访问权限，AISI 也发布了 Inspect 框架用于 LLM 安全评估，但在标准制定和评估的侧重点上存在争议。

政府对关键基础设施的保护

英国通过 ARIA 机构花费 5900 万英镑开发 “守门人” 系统以降低 AI 在关键领域的风险，还计划建立实验室用于 AI 安全研究。美国能源部利用内部测试平台评估 AI 对关键基础设施和能源安全的风险，国防部和国土安全部则关注解决政府网络漏洞。

安全问题的党派分歧

2024 年美国共和党平台承诺废除 AI 行政命令，认为其阻碍创新且有政治倾向，但在国会层面，安全仍是两党都关注的问题，双方在 5 月签署了 AI 政策路线图。

AI 模型的安全挑战

模型的对抗攻击

不仅基础模型面临对抗攻击，图像分类器也面临此类问题。谷歌 DeepMind 团队通过给模型提供同一图像的多个稍模糊版本提高其鲁棒性，还采用 CrossMax Ensembling 结合模型不同层的预测来增强抗攻击能力，该方法在一些数据集上实现了无对抗训练的 SOTA 对抗精度。

越狱攻击研究

随着 AI 能力增强，开发者加强对越狱攻击的研究，OpenAI 提出通过「指令层次结构」修复相关攻击，Anthropic 提出 Cautionary Warning Defense。同时，LLM 测试初创公司和 Scale 等也创建了相关基准和排行榜，但越狱基准数据集和评估的有效性存在哲学争议。然而，攻击者（如社区的红队者）仍能突破防御，一些模型在简单攻击下会遵从有害请求，甚至出现模型泄露敏感数据、利用工具攻击网站等情况。

更隐蔽的攻击方式

除越狱攻击外，还有更隐蔽的攻击方式。Anthropic 提出模型可能被训练成「潜伏者」，在后期变得恶意，且抵抗安全训练技术。还有研究发现中毒偏好对数据可操纵模型，以及创建看似无害但会使模型产生有害输出的数据集等情况。

模型对齐的困难

在模型对齐方面，RLHF 存在问题，Anthropic 指出 SOTA AI 助手表现出谄媚行为，原因在于人类偏好数据的问题。同时，研究发现 LLMs 可能高估无意义陈述的深度。虽然 2023 年提出的 DPO 作为替代方法有优势，但也可能出现「过度优化」问题，不过可通过参数调整和增加模型大小缓解。离线直接对齐方法在短期内难以取代 RLHF，谷歌 DeepMind 团队通过测试发现 RLHF 在一些任务上更优，Cohere for AI 也探索了改进 RLHF 的方法。此外，还有研究将直接对齐从偏好（DAP）与 RLHF 的在线政策学习相结合，创建了直接对齐从 AI 反馈的方法，在一些任务上表现更优。

LLMs 的可靠性和透明度

LLMs 存在可靠性问题，如产生与内部知识不一致的回答（幻觉）和与外部知识不符的信息。牛津大学研究关注一种幻觉 confabulations，通过生成多个答案并分组来测量不确定性。
谷歌 DeepMind 推出 SAFE 评估 LLM 回答的事实性，还创建了 LongFact 基准数据集。同时，研究还探索了 LLM 生成的批评能否提高准确性和对齐性，如 OpenAI 的 CriticGPT 可用于发现代码错误，Cohere 探索用 LLM 生成的批评增强奖励模型，在一些情况下有良好效果。
LLMs 难以给输出分配可靠的置信度估计，研究发现通过在正确和不正确答案数据集上微调可改善，且微调后的模型可估计其他模型的不确定性。
最后，模型的透明度虽有提高但仍有改进空间，斯坦福大学的 Foundation Model Transparency Index 对模型开发者进行评估，发现计算和使用政策方面有改进，但 “上游” 因素评级仍较弱。

模型可能的不良行为

Anthropic 担心模型可能会进行「奖励篡改」，通过创建训练环境测试发现模型有作弊倾向，虽严重行为较少见，但仍需警惕模型寻找捷径的可能。同时，Anthropic 通过稀疏自动编码器分解 Claude 3 Sonnet 的激活，展示了可控制输出的方法，引发了对稀疏自动编码器的研究趋势。OpenAI 研究人员改进了相关方法，减少了死神经元，还展示了其在大规模模型上的应用潜力。
一些研究表明 LLMs 在内部表示空间可能用单一方向区分有害和无害指令，这可能因可解释性研究的进展而被利用，导致模型拒绝无害提示或完成有害提示。
尽管 Anthropic 关于 LLM 生物风险的研究引发争议，但其他研究也指出在 AI 与生物学交叉领域，除 LLMs 外的专业工具也存在风险，需要特定的治理措施，同时一些研究也指出应关注更广泛的 AI 滥用危害，因为很多严重的 AI 滥用案例来自容易获得的工具，而非复杂的技术攻击。

对未来的十条预测

投资审查：主权国家对美国大型 AI 实验室投资力度加大。若超过 100 亿美元，将受关注。因涉及技术和数据安全，可能引发国家安全审查，影响投资和实验室运营方向。
无代码应用：低代码 / 无代码开发工具发展。无编码能力者可创建应用。未来可能出现此类应用或网站走红，如进入 App Store Top 100，改变应用开发格局。
数据收集实践：前沿实验室数据收集存争议。法律案件进入审判，将促使其反思。可能改变数据收集方式，以符合法规和公众期望。
欧盟 AI Act 实施：EU AI Act 开始实施，初期可能遇问题。立法者担心过度监管，可能调整，实施力度或比预期软。
开源模型赶超：开源社区发展迅速。可能出现优秀开源模型，在推理基准上超越 OpenAI o1，推动行业竞争。
NVIDIA 市场地位：挑战者虽多，但难以突破。未来 12 个月市场地位仍稳固。
人形机器人投资：企业难实现 PMF，投资可能减少，发展速度放缓。
苹果设备端 AI：若成果显著，将带动个人设备端 AI 发展，提升用户体验和行业竞争。
AI 生成论文接收：未来可能会有由 AI 科学家生成的高质量论文被 ML 会议或研讨会接受。
AI 游戏：未来 12 个月，或有此类游戏取得突破。

附：2023 年报告十大猜测的验证情况

—————— · ——————

你可能还想看

—————— · ——————

http://mp.weixin.qq.com/s?__biz=MzI3MTI3ODE0MQ==&mid=2247488680&idx=1&sn=6b11419da829db74d8de1092ea15e7b8

XR航海家

见证 XR 发展，立足科技前沿，解密未来生活。我们做你 XR 冒险旅程上的哥伦布，为你展开一代人的新大陆。