人工智能现状报告（2024）：技术融合

文摘 2024-10-14 18:58 美国

引言

关于作者

Nathan Benaich

Nathan是Air Street Capital的普通合伙人，这是一家投资于人工智能优先公司的风险投资公司。他运营着研究与应用人工智能峰会（RAAIS）、RAAIS基金会（资助开源人工智能项目）、美国和欧洲的人工智能社区以及Spinout.fyi（改进大学衍生公司创建）。他在威廉姆斯学院学习生物学，并在剑桥大学获得癌症研究博士学位，是一位盖茨学者。

Alex Chalmers

Alex是Air Street Capital的平台主管，并定期通过Air Street Press撰写关于人工智能的研究、分析和评论文章。在加入Air Street之前，他是Milltown Partners的副总监，为大型科技公司、初创公司和投资者提供政策和定位方面的建议。他于2017年毕业于牛津大学，获得历史学学位。

人工智能概述

人工智能（AI）是一个多学科的科学和工程领域，其目标是创造智能机器。

我们相信，人工智能将成为我们日益数字化、数据驱动的世界中技术进步的倍增器。这是因为我们今天周围的一切，从文化到消费产品，都是智力的产物。

人工智能现状报告现在已经是第七年了。请将这份报告视为我们所见到的最有趣的事物的汇编，目的是引发一场关于人工智能现状及其对未来影响的知情对话。

我们在报告中考虑了以下关键维度：

• 研究： 技术突破及其能力。
• 行业： 人工智能的商业应用领域及其商业影响。
• 政治： 人工智能的监管、其经济影响和不断发展的人工智能地缘政治。
• 安全： 识别和缓解高度 capable 的未来人工智能系统可能给我们带来的灾难性风险。
• 预测： 我们相信在未来12个月内会发生的事情，以及对2023年的预测效果回顾，以保持我们的诚实。

由Nathan Benaich和Air Street Capital团队制作

定义

人工智能（AI）： 一个广泛的学科，其目标是创造智能机器，而不是人类和动物所表现出的自然智能。

通用人工智能（AGI）： 用来描述未来机器的术语，这些机器可以在所有具有经济价值的任务中匹敌并超越人类的全部认知能力。

人工智能代理： 一个可以在环境中采取行动的人工智能系统。例如，一个LLM可以访问一套工具，并且必须决定使用哪个工具来完成它被提示执行的任务。

人工智能安全： 一个研究并试图缓解未来人工智能可能给人类带来的风险（从轻微到灾难性）的领域。

计算机视觉（CV）： 程序分析和理解图像和视频的能力。

深度学习（DL）： 一种受大脑中神经元如何识别数据中复杂模式启发的人工智能方法。“深度”指的是当今模型中的多层神经元，这些神经元有助于学习数据的丰富表示，从而实现更好的性能提升。

扩散： 一种算法，它迭代地对人工损坏的信号进行去噪，以生成新的、高质量的输出。近年来，它一直处于图像生成和蛋白质设计的前沿。

生成式人工智能： 一系列能够根据“提示”生成新内容（例如文本、图像、音频或3D资产）的人工智能系统。

图形处理单元（GPU）： 一种半导体处理单元，它能够并行计算大量的计算。历史上，这是渲染计算机图形所必需的。自2012年以来，GPU已经适应了训练DL模型，这也需要大量的并行计算。

（大型）语言模型（LM，LLM）： 一个模型，在大量的（通常是）文本数据上训练，以自监督的方式预测下一个单词。“LLM”一词用于指定数十亿参数的LM，但这是一个不断变化的定义。

机器学习（ML）： 人工智能的一个子集，它通常使用统计技术来赋予机器从数据中“学习”的能力，而无需明确给出如何做到的指令。这个过程被称为使用学习“算法”对“模型”进行“训练”，该算法逐步提高模型在特定任务上的性能。

模型： 一个在数据上训练并用于进行预测的ML算法。

自然语言处理（NLP）： 程序理解人类口语和书面语言的能力。

提示： 通常以自然语言编写的用户输入，用于指示LLM生成内容或采取行动。

强化学习（RL）： ML的一个领域，其中软件代理通过在提供奖励或惩罚的环境中试错来学习目标导向的行为（称为“策略”），以实现该目标。

自监督学习（SSL）： 一种无监督学习的形式，其中不需要人工标记的数据。原始数据以自动方式进行修改，以创建人工标签以供学习。SSL的一个例子是通过屏蔽句子中的随机单词并尝试预测缺失的单词来学习完成文本。

Transformer： 大多数最先进（SOTA）ML研究的核心模型架构。它由多个“注意力”层组成，这些层学习输入数据的哪些部分对给定任务最重要。Transformer起源于NLP（特别是机器翻译），随后扩展到计算机视觉、音频和其他模态。

执行摘要

研究

• 前沿实验室的性能趋于一致，但OpenAI在o1发布后仍然保持领先地位，因为规划和推理成为一个主要前沿领域。
• 基础模型展示了它们突破语言限制的能力，因为多模态研究进入了数学、生物学、基因组学、物理科学和神经科学领域。
• 美国制裁未能阻止中国（V）LLM在社区排行榜上的崛起。

行业

• NVIDIA仍然是世界上最强大的公司，在3万亿美元俱乐部中占有一席之地，而监管机构则在调查生成式人工智能中的权力集中问题。
• 成熟的生成式人工智能公司带来了数十亿美元的收入，而初创公司开始在视频和音频生成等领域获得发展。虽然公司开始从模型到产品的旅程，但围绕定价和可持续性的长期问题仍未解决。
• 在公开市场的牛市推动下，人工智能公司的价值达到9万亿美元，而私人公司的投资水平也在健康增长。

政治

• 虽然全球治理努力停滞不前，但国家和地区的人工智能监管仍在继续推进，美国和欧盟通过了有争议的立法。
• 计算需求的现实迫使大型科技公司不得不考虑现实世界对扩展的物理限制及其自身的排放目标。与此同时，各国政府自身的能力建设努力仍然滞后。
• 预期的人工智能对选举、就业和一系列其他敏感领域的影响尚未在任何规模上实现。

安全

• 从安全到加速的氛围转变正在发生，因为那些先前警告我们人类即将灭绝的公司需要增加其消费者应用程序的企业销售和使用量。
• 世界各国政府都在效仿英国，建立围绕人工智能安全的能力，启动研究所并研究关键国家基础设施的潜在漏洞。
• 每个提出的越狱“修复”都失败了，但研究人员越来越担心更复杂、更长期的攻击。

回顾 2023 年的预测

2023 年预测	结果	证据
好莱坞级别的制作将使用生成式人工智能进行视觉效果。	是	很大程度上很糟糕，但在Netflix和HBO的制作中已经看到了生成式人工智能的视觉效果。
一家生成式人工智能媒体公司因其在2024年美国大选期间的滥用行为而受到调查。	待定	还没有，但还有时间。
自我改进的人工智能代理在复杂环境（例如AAA游戏、工具使用、科学）中超越了SOTA。	否	还没有，尽管在开放性方面取得了有希望的进展，包括强大的游戏性能。
科技IPO市场解冻，我们看到至少有一家专注于人工智能的公司（例如DBRX）上市。	待定	虽然“七巨头”获得了强劲的收益，但私营公司仍在等待市场稳定。然而，人工智能芯片公司Cerebras已提交IPO申请。
生成式人工智能的扩展热潮导致一个团体花费超过10亿美元来训练一个单一的大型模型。	否	还没有——让我们再等一年。
美国FTC或英国CMA对微软/OpenAI交易进行竞争方面的调查。	是	两家监管机构都在调查这种合作关系。
我们看到全球人工智能治理在高层自愿承诺之外进展有限。	是	布莱奇利和首尔峰会的承诺仍然是自愿和高层的。
金融机构推出GPU债务基金，以取代风险投资的股权资金用于计算资金。	否	有传言称，一些风险投资基金将为股权提供GPU，但我们还没有看到任何人走债务路线。
一首人工智能生成的歌曲进入Billboard Hot 100前10名或Spotify Top Hits 2024。	是	事实证明，这在去年就已经发生了，当时“Heart on My Sleeve”的歌曲排名，但我们也看到一首人工智能生成的歌曲在德国排名第27，并在前50名中停留了几天。
随着推理工作负载和成本的显著增长，一家大型人工智能公司（例如OpenAI）收购或建立一家专注于推理的人工智能芯片公司。	是	据报道，Sam Altman正在筹集巨额资金来做到这一点，而谷歌、亚马逊、Meta和微软都在继续构建和改进他们自己的人工智能芯片。

第一部分：研究前沿

OpenAI的统治时代结束了，直到……

在今年的大部分时间里，无论是基准测试还是社区排行榜，都显示GPT-4与“其他最佳模型”之间存在着巨大的差距。然而，随着模型性能的融合，Claude 3.5 Sonnet、Gemini 1.5和Grok 2几乎消除了这种差距。

• 无论是在正式基准测试还是基于感觉的分析中，资金最充足的前沿实验室都能在个别能力上获得彼此相差不到个位数的分数。
• 模型现在始终如一地成为能力极强的编码器，在事实回忆和数学方面表现出色，但在开放式问答和多模态问题解决方面表现不佳。
• 许多差异已经小到足以成为实现差异的产物。例如，GPT-4o在MMLU上的表现优于Claude 3.5 Sonnet，但在MMLU-Pro上的表现却不如后者——MMLU-Pro是一个设计更具挑战性的基准测试。
• 考虑到架构之间的技术差异相对微小，而且预训练数据可能存在大量重叠，模型构建者现在越来越需要在新的能力和产品功能上展开竞争。

……Strawberry 着陆，加倍投入推理计算规模

OpenAI团队显然很早就意识到了推理计算的潜力，在其他实验室探索这项技术的论文发表几周后，OpenAI o1就出现了。

• 通过将计算资源从预训练和后训练转移到推理阶段，o1以思维链（COT）风格逐步推理复杂提示，并使用强化学习来改进COT及其使用的策略。 这使得解决多层数学、科学和编码问题成为可能，而LLM在这些问题上历来表现不佳，原因在于下一词预测的固有限制。
• OpenAI报告称，与4o相比，o1在推理密集型基准测试中取得了显著进步， 其中AIME 2024（竞赛数学）的得分最高，从13.4分跃升至83.83分。
• 然而，这种能力的代价是高昂的：100万个输入token的o1预览版成本为15美元，而100万个输出token的成本为60美元，比GPT-4o贵3-4倍。

http://mp.weixin.qq.com/s?__biz=Mzg2MjkwNzY4OA==&mid=2247490167&idx=2&sn=590f2f363646e3d941698c0917aee9f9

子非AI

子非AI，焉知AI之乐：分享AI的有趣应用和创新案例，让你了解AI的乐趣。

国产开源模型推理的O1时刻：DeepSeek-R1-Lite-Preview震撼发布

年度规划必读：斯坦福 2024 AI 指数报告深度解读

微软&IDC AI变革之力报告系列之一：赋能员工，释放潜能——70个提升员工体验的真实案例

2024 AI智能体发展现状与未来趋势：LangChain深度报告解读

Andrew Ng 揭秘未来 AI：从 ChatGPT 到 AgentGPT

Google AlphaFold 3 部分开源：诺奖加冕，AI 揭秘生命密码

哈佛商业评论：AI的100种玩法！

AI应用的金矿是服务而非标品：从 Palantir 的成功探寻 AI 服务浪潮的万亿机会

Magentic-One：微软开源多智能体系统，让 AI 自己动手解决问题

重磅！腾讯开源中文最强MoE巨模型Hunyuan-Large，参数规模PK Llama！

AI Agent 驱动招聘：LinkedIn Hiring Assistant 助力选举年人才争夺战

特朗普王者归来：2024美国大选胜选演讲深度解读

OpenAI O1 引爆推理革命：红杉资本深度解读 AI 应用层变革

微软开源 GenAIScript：用 JavaScript 掌控 LLM 的力量

Google AI 语音生成黑科技：像人类一样对话！

ChatGPT Search：对话式AI搜索，开启信息检索新纪元

GPT-4O 驱动，Zerox 让 OCR 更智能：开源利器解放你的文档

BitNet.cpp：微软让百亿参数大语言模型在你的笔记本CPU上飞奔

ima.copilot一个会思考的知识库：腾讯如何重塑AI时代的知识

Skyvern：让浏览器拥有 AI 大脑，自动化从此更智能

Salesforce CEO Benioff 谈企业级 AI：Agent 智能体重塑商业未来

Claude 3.5 重磅发布：AI 编码能力再升级，还能像人一样使用电脑！

从 GPT-4 赋能的 Copilot 到 O1 驱动的 Agent：微软引爆 AI 应用新热点

AI 投资狂潮：把握科技牛市，解码智能新时代

Meta 开放炼丹炉：全面拥抱开放硬件，加速 AI 算力基础设施建设

Dash 深度分析：Dropbox的 AI 办公产品进化论

人工智能点燃非洲希望之火

Anthropic CEO 的五大预言：AI将如何重塑世界？

深度解析Swarm Agent ：OpenAI 开源的多智能体协作框架

比尔·盖茨预言：Agent 智能体将如何改变世界

[概要]人工智能现状报告（2024）：技术融合、行业变革与全球竞争

人工智能现状报告（2024）：技术融合

人工智能现状报告（2024）：行业变革

人工智能现状报告（2024）：安全及预测

AI 撬动生命科学：解读 2024 年诺贝尔化学奖

诺奖加冕，AI先驱：Hopfield与Hinton，点燃智能时代之火

金融大模型哪家强？OFLL 零样本评估告诉你答案！

Meta AI 重磅发布 MovieGen，视频生成新王者来袭！

欧洲核子研究组织 (CERN)：用粒子物理学的 AI 力量革新癌症治疗

OpenAI DevDay 2024：实时 API、视觉微调与模型蒸馏发布

从文档中释放结构化数据：利用大型语言模型革新表格提取技术

解密多人协作编辑的黑科技：Eg-walker 算法如何实现高效同步？

Llama 3.2 加速 Open AI 发展：开源视觉模型与边缘AI齐头并进

OpenAI剧震！CTO等多位高管突发离职，未来走向引担忧

ControlEdit：AI 赋能服装设计，开启个性化定制新时代！

人工智能何时将在思考量上超越人类？

解码 Sam Altman 的预言：OpenAI 与即将到来的智能时代

OpenAI O1：Sam Altman 和团队探索 AI 推理的未来

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉