斯坦福人工智能指数报告 2024(附原文)
绪论:人工智能的时代
2024年人工智能指数报告是该系列的第七版,也是迄今为止最全面的一版。报告发布的时机至关重要,因为人工智能对社会的影响从未如此显著。本报告扩展了研究范围,更广泛地涵盖了人工智能领域的关键趋势,包括:技术进步、公众认知和地缘政治格局。报告包含大量原创数据,对人工智能训练成本进行了新的估算,对负责任的人工智能领域进行了详细分析,并新增了一个章节,专门探讨人工智能对科学和医学的影响。
第一章:研究与发展
本章节重点关注人工智能研究与发展的趋势,从学术出版物和专利入手,深入分析了重要的人工智能系统和基础模型,最后探讨了人工智能会议出席情况和开源人工智能软件项目。
1.1 出版物
2010年至2022年,人工智能出版物数量几乎翻了两番,从大约88,000篇增长到超过240,000篇。 其中,学术界贡献了大部分出版物(81.1%),但工业界参与度也在不断提高。机器学习是发表论文最多的领域,自2015年以来增长了近七倍。
值得注意的是,虽然人工智能期刊和会议论文的数量都在增加,但增长速度有所放缓,表明该领域可能正在达到某种程度的饱和。
1.2 专利
2010年至2022年,人工智能专利授权数量大幅增长,尤其是在最近几年。 2021年至2022年,全球人工智能专利授权数量激增了62.7%。中国在人工智能专利方面占据主导地位,2022年占比达到61.1%,远超美国的20.9%。 自2010年以来,美国在人工智能专利中的份额从54.1%下降。
1.3 前沿人工智能研究
本章节分析了两种前沿人工智能模型:显著模型和基础模型。显著模型是指在人工智能/机器学习生态系统中具有显著影响力的模型;基础模型则是指在海量数据集上训练的大型人工智能模型,能够执行多种下游任务。
2023年,工业界主导了前沿人工智能研究,贡献了51个显著的机器学习模型,而学术界仅贡献了15个。 值得关注的是,工业界与学术界的合作也达到了新的高度,共同贡献了21个显著模型。
前沿模型的训练成本也大幅提高。 例如,OpenAI的GPT-4训练成本估计为7800万美元,而谷歌的Gemini Ultra则高达1.91亿美元。这凸显了训练尖端人工智能模型所需的巨大资源,并加剧了工业界和学术界之间的差距。
基础模型的数量也在迅速增长,2023年发布的基础模型数量是2022年的两倍多。 其中,开源基础模型的比例也在不断提高,但性能最高的模型仍然来自工业界。Gemini Ultra成为首个在MMLU基准测试中达到人类水平性能的LLM。
1.4 人工智能会议
2010年至2023年,人工智能会议的参会人数总体呈上升趋势,2023年比2022年增长了6.7%。 NeurIPS仍然是最受关注的人工智能会议之一。
1.5 开源人工智能软件项目
自2011年以来,GitHub上与人工智能相关的项目数量持续增长,2023年达到约180万个,比2022年增长了59.3%。 这表明开源人工智能研究的蓬勃发展。
第二章:技术性能
本章节全面概述了2023年人工智能技术的进步,从宏观层面探讨了人工智能技术性能的演变,然后深入研究了人工智能在各个领域的最新进展,包括自然语言处理、编码、计算机视觉(图像和视频分析)、推理、音频处理、自主代理、机器人技术和强化学习。此外,本章还重点介绍了2023年人工智能领域的重大研究突破,探索了通过提示工程、优化和微调改进大型语言模型的方法,并对人工智能系统的环境影响进行了分析。
2.1 2023年人工智能概述
本章节首先列举了2023年一些最显著的模型发布,包括GPT-4、Gemini和Claude等大型语言模型,以及Segment Anything等图像分割模型。这些模型在多个基准测试中超越了人类的表现,但仍然存在一些局限性,例如在复杂的推理和常识推理任务上表现较差。
多模态人工智能的兴起是2023年的一个重要趋势。 像谷歌的Gemini和OpenAI的GPT-4这样的模型能够处理图像、文本和音频等多种模态的信息,展现出更强的灵活性和通用性。
人工智能模型在一些传统基准测试上已经达到性能饱和,促使研究人员开发更具挑战性的基准测试。 2023年涌现了许多新的基准测试,例如用于编码的SWE-bench,用于图像生成的HEIM,用于一般推理的MMMU,用于道德推理的MoCa,用于代理行为的AgentBench,以及用于幻觉的HaluEval。
更好的AI意味着更好的数据,而更好的数据又反过来促进AI的进一步改进。 一些新的AI模型,如Segment Anything和Skoltech,被用来生成用于图像分割和3D重建等任务的专业数据。
随着生成模型产生高质量的文本、图像等内容,基准测试也逐渐转向结合人工评估。 例如,Chatbot Arena Leaderboard就利用了公众投票来评估LLM的性能。
2.2 自然语言理解
本章节重点介绍了大型语言模型在自然语言理解方面的进展。GPT-4在HELM(大型语言模型的整体评估)基准测试中取得了令人印象深刻的成绩,平均胜率达到0.96。 Gemini Ultra在MMLU(大规模多任务语言理解)基准测试中首次超越了人类水平的性能。
2.3 编码
本章节探讨了人工智能模型在代码生成方面的能力。AgentCoder(GPT-4的一个变体)在HumanEval基准测试中取得了96.3%的得分,显著高于之前的最佳成绩。 然而,在更具挑战性的SWE-bench基准测试中,即使是目前最先进的LLM也面临着巨大的挑战。
2.4 图像计算机视觉和图像生成
本章节关注图像计算机视觉和图像生成技术的最新进展。2023年,一些新的图像生成模型,如MVDream,在生成高质量的3D模型方面取得了突破。 此外,HEIM(文本到图像模型的整体评估)基准测试被用来评估文本到图像生成模型的性能,结果表明,没有哪个模型在所有方面都表现最佳。
2.5 视频计算机视觉和视频生成
本章节探讨了视频计算机视觉和视频生成技术的进展。新的视频生成模型,如Emu Video,在生成高质量视频方面取得了显著进展。
2.6 推理
本章节研究了人工智能模型在各种推理任务上的能力,包括一般推理、数学推理和视觉推理。MMMU(大规模多学科多模态理解和推理基准)是一个新的基准测试,用于评估AI模型的一般推理能力。GPT-4在一些推理基准测试中表现出色,但在抽象推理任务上仍然落后于人类。
2.7 音频
本章节介绍了人工智能模型在音频生成方面的进展。新的音频生成模型,如UniAudio和MusicGen,能够生成高质量的语音、声音和音乐。
2.8 智能体
本章节探讨了人工智能智能体的最新进展。GPT-4驱动的智能体Voyager在Minecraft游戏中展现出了强大的能力。 AgentBench基准测试被用来评估LLM作为智能体的性能。
2.9 机器人技术
本章节介绍了人工智能在机器人技术中的应用。谷歌的PaLM-E模型将语言建模与机器人技术相结合,在机器人操作和知识任务上取得了显著的成果。 DeepMind的RT-2模型能够将网络知识迁移到机器人控制中。
2.10 强化学习
本章节探讨了强化学习技术在人工智能模型中的应用。强化学习从人类反馈(RLHF)的流行度正在上升,越来越多的基础模型在训练中使用了RLHF。 强化学习从人工智能反馈(RLAIF)是一种新的强化学习方法,它使用LLM的偏好来对齐其他AI模型。
2.11 大型语言模型的特性
本章节研究了大型语言模型的一些关键特性,例如涌现能力、性能随时间的变化以及自我纠正能力。研究表明,大型语言模型的涌现能力可能被高估了,其性能也可能随着时间的推移而发生变化。 大型语言模型在自我纠正方面能力有限。封闭的LLM显著优于开放的LLM。
2.12 大型语言模型改进技术
本章节探讨了改进大型语言模型的各种技术,包括提示工程、微调和注意力机制。Graph of Thoughts (GoT)是一种新的提示工程方法,它能够提高LLM在推理任务上的性能。 QLoRA是一种高效的模型微调方法,它能够减少内存使用。Flash-Decoding是一种能够加速注意力机制的算法。
2.13 人工智能系统的环境影响
本章节分析了人工智能系统的环境影响。训练大型语言模型会产生大量的碳排放,但推理的碳排放可能相对较低。 人工智能可以用于环境可持续性,例如提高热能系统管理效率、改进害虫防治策略和提高城市空气质量。
第三章:负责任的人工智能
本章节探讨了负责任的人工智能(RAI)的关键趋势,考察了在四个关键RAI领域(隐私和数据治理、透明度和可解释性、安全性和安全性以及公平性)的指标、研究和基准。鉴于2024年预计将有40亿人参与全球投票,本章还专门介绍了人工智能与选举,并更广泛地探讨了人工智能对政治进程的潜在影响。
3.1 评估负责任的人工智能
本章节首先对负责任人工智能的关键维度进行了定义,包括隐私、数据治理、透明度、可解释性、安全性和公平性。然后,本章节分析了人工智能相关事件,探讨了行业参与者如何看待人工智能风险以及如何采取人工智能风险缓解措施。最后,本章节概述了有关人工智能模型整体可信度的指标,并对缺乏标准化负责任人工智能基准报告的情况进行了评论。
人工智能事件的数量持续增长,2023年报告的事件数量比2022年增长了32.3%。 这凸显了人工智能的伦理风险。
企业对人工智能的风险认知也日益提高,隐私和数据治理是全球企业最关心的问题。 大多数企业已经开始采取措施来减轻这些风险,但仍然有很大的改进空间。
对大型语言模型的负责任评估缺乏健全的标准化。 领先的开发商使用不同的基准来测试其模型,这使得对模型风险和局限性的系统比较变得复杂。
3.2 隐私和数据治理
本章节探讨了人工智能领域中隐私和数据治理的挑战。获取用于训练数据收集的真正知情同意尤其具有挑战性,尤其是在大型语言模型中。 此外,在人工智能系统效用与个人隐私之间可能存在权衡。
3.3 透明度和可解释性
本章节探讨了人工智能领域中透明度和可解释性的挑战。先进模型的复杂性使其难以理解,这阻碍了对模型决策过程的理解。 此外,模型的复杂性和可解释性之间可能存在权衡。
3.4 安全性和安全性
本章节探讨了人工智能领域中安全性和安全性的挑战。人工智能系统可能被用于恶意目的,例如网络攻击和深度伪造。 此外,先进人工智能系统本身也可能存在固有的风险,例如可靠性问题和潜在的极端风险。
3.5 公平性
本章节探讨了人工智能领域中公平性的挑战。人工智能系统可能存在偏见和歧视,这可能会加剧社会不平等。 大型语言模型的标记化也可能导致不公平。
3.6 人工智能与选举
本章节探讨了人工智能对选举的潜在影响。人工智能可以用于生成和传播虚假信息,这可能会影响选举结果。 大型语言模型也可能存在政治偏见。
第四章:经济
本章节利用来自Lightcast、LinkedIn、Quid、麦肯锡、Stack Overflow和国际机器人联合会(IFR)的数据,考察了与人工智能相关的经济趋势。本章首先分析了与人工智能相关的职业,包括劳动力需求、招聘趋势、技能渗透率和人才供应。然后,本章探讨了企业对人工智能的投资,新增了一个专门关注生成式人工智能的部分。此外,本章还考察了企业对人工智能的采用情况,评估了当前的使用情况以及开发人员如何采用这些技术。最后,本章评估了人工智能当前和预计的经济影响以及各个行业的机器人安装情况。
4.1 2023年的新动态:时间轴
本章节概述了2023年一些最重大的与人工智能相关的经济事件,例如微软对OpenAI的巨额投资、GitHub Copilot的发布以及生成式人工智能的兴起。
4.2 就业
本章节分析了人工智能相关技能在劳动力市场中的需求。2023年,美国人工智能相关职位在所有职位发布中的占比下降到1.6%,低于2022年的2.0%。 这可能是由于一些主要人工智能公司减少了招聘。
机器学习是美国劳动力市场上需求量最大的人工智能技能。 生成式人工智能技能的需求也在迅速增长。
4.3 投资
本章节监测人工智能投资趋势,利用来自Quid的数据,分析了自2013年以来获得超过150万美元投资的人工智能初创企业的投资趋势。
2023年,全球人工智能私募投资总额下降,但生成式人工智能的投资大幅增加,达到252亿美元。 美国在人工智能私募投资方面继续保持领先地位,2023年的投资额达到672亿美元。
4.4 企业活动
本章节考察了企业对人工智能的实际应用,重点介绍了行业采用趋势、企业如何整合人工智能、哪些人工智能技术被认为最有效以及人工智能采用对财务业绩的影响。
2023年,55%的受访企业至少在一个业务部门或职能部门中使用了人工智能。 人工智能最常见的应用包括客户服务自动化、个性化和客户获取。
人工智能的采用降低了企业的成本并增加了收入。 42%的受访企业报告称,实施人工智能降低了成本,59%的企业报告称,人工智能增加了收入。
财富500强企业对人工智能的讨论越来越多,尤其是在生成式人工智能方面。 2023年,有394家财富500强企业的财报电话会议提到了人工智能。
4.5 机器人安装
本章节利用国际机器人联合会(IFR)的数据,考察了配备人工智能软件技术的机器人的部署情况,这反映了人工智能就绪型基础设施的实际应用。
2022年,全球工业机器人安装量略有增加,达到55.3万台。 中国在工业机器人安装方面占据主导地位,2022年的安装量达到29万台。协作机器人的安装量也在不断增长。
第五章:科学与医学
本章节是2024年人工智能指数报告新增的一个章节,旨在表彰人工智能在科学和医学发现中日益增长的作用。本章节探讨了2023年人工智能促进的杰出科学成就,包括GraphCast等先进天气预报系统和GNoME等改进的材料发现算法。本章还考察了医学人工智能系统的性能、2023年人工智能驱动的重要医学创新以及美国食品药品监督管理局(FDA)批准的人工智能相关医疗器械的趋势。
5.1 值得关注的科学里程碑
本章节重点介绍了2023年人工智能领域的一些重大科学突破,例如AlphaDev算法、FlexiCubes三维网格优化技术、Synbot机器人化学家以及GraphCast天气预报系统。
5.2 医学中的人工智能
本章节探讨了人工智能在医学中的应用。2023年,一些新的医学人工智能系统,如SynthSR和EVEscape,在医学图像处理和病毒进化预测方面取得了突破。 GPT-4 Medprompt在MedQA基准测试中达到了90.2%的准确率,这表明医学人工智能系统正在迅速发展。FDA批准的人工智能相关医疗器械数量也在不断增加。
第六章:教育
本章节考察了人工智能和计算机科学(CS)教育的趋势,重点关注谁在学习、他们在哪里学习以及这些趋势是如何随着时间演变的。在对人工智能对教育的影响日益关注的背景下,本章还调查了教师和学生对ChatGPT等新型人工智能工具的使用情况。
6.1 高等院校计算机科学与人工智能教育
本章节概述了美国和加拿大高等院校计算机科学与人工智能教育的现状,数据来自计算研究协会(CRA)的年度陶尔比调查。
美国和加拿大的计算机科学学士毕业生人数持续增长,但硕士和博士毕业生人数增长较为缓慢。 越来越多的AI博士毕业生选择进入工业界工作。
6.2 中小学计算机科学与人工智能教育
本章节介绍了美国中小学计算机科学教育的趋势,数据来自Code.org。
越来越多的美国高中开设了计算机科学课程,但仍然存在一些差距。 例如,大型学校比小型学校更有可能开设计算机科学课程,郊区学校比城市和农村学校更有可能开设计算机科学课程。
越来越多的美国高中生参加了AP计算机科学考试。 但女性和少数族裔学生的参与率仍然较低。
第七章:政策与治理
本章节考察了全球人工智能治理,从2023年人工智能政策制定事件的时间轴入手,然后分析了全球和美国的人工智能立法工作,研究了人工智能立法提及情况,并探讨了全球立法者如何看待和讨论人工智能。接下来,本章介绍了美国和欧盟的国家人工智能战略和监管工作。最后,本章对美国公共部门对人工智能的投资进行了研究。
7.1 2023年人工智能政策概述
本章节概述了2023年一些最重大的与人工智能相关的政策事件,例如美国总统拜登签署的关于安全、可靠和值得信赖的人工智能的行政命令以及欧盟就人工智能法案达成的协议。
7.2 人工智能与政策制定
本章节分析了全球和美国的人工智能立法工作。2023年,全球立法程序中对人工智能的提及数量几乎翻了一番,达到2175次。 美国在人工智能相关立法方面也采取了显著行动,2023年提出了181项法案。
7.3 国家人工智能战略
本章节概述了各国制定的国家人工智能战略,这些战略旨在指导本国人工智能技术的发展和部署。
7.4 人工智能监管
本章节考察了美国和欧盟的人工智能监管情况。2023年,美国出台了25项与人工智能相关的法规,比2016年增长了56.3%。 欧盟也达成了关于人工智能法案的协议。
7.5 美国对人工智能的公共投资
本章节考察了美国对人工智能的公共投资情况,数据来自美国政府和Govini。2023财年,美国政府机构共拨款18亿美元用于人工智能研发。 国防部对人工智能研发的预算请求也在不断增加。
第八章:多样性
本章节深入探讨了人工智能领域的多样性趋势,从计算研究协会(CRA)的数据入手,对美国和加拿大计算机科学系的多样性现状进行了分析。本章还新增了来自欧洲信息学协会(Informatics Europe)的数据,揭示了欧洲计算机科学教育中的多样性趋势。接下来,本章考察了在NeurIPS上每年举办的女性机器学习(WiML)研讨会的参与率。最后,本章分析了Code.org的数据,对美国中小学计算机科学教育的多样性现状进行了分析。
8.1 人工智能高等教育
本章节分析了美国和加拿大高等院校计算机科学领域的多样性。美国和加拿大的计算机科学本科、硕士和博士毕业生中,少数族裔学生的比例正在不断增长。 但在欧洲,计算机科学毕业生中仍然存在明显的性别差距。
8.2 人工智能会议
本章节考察了NeurIPS上女性机器学习(WiML)研讨会的参与率。
8.3 中小学教育
本章节分析了美国中小学计算机科学教育中的多样性。美国高中AP计算机科学考试的考生中,女性和少数族裔学生的比例正在不断增长。
第九章:公众舆论
本章节通过全球、国家、人口统计和种族视角,考察了公众对人工智能的看法。本章利用了多个数据来源:Ipsos的纵向调查数据,追踪了全球人工智能态度随时间的变化;多伦多大学的调查数据,探讨了公众对ChatGPT的看法;以及皮尤研究中心的数据,考察了美国人对人工智能的态度。本章最后利用Quid的数据,分析了社交媒体上对重要人工智能模型的提及情况。
9.1 调查数据
本章节探讨了全球公众对人工智能的看法,数据来自Ipsos在2022年和2023年进行的调查。
全球公众对人工智能的认知度和担忧度都在上升。 大多数人认为人工智能将在未来几年对他们的生活产生重大影响,但同时也对人工智能产品和服务感到担忧。
公众对人工智能的经济影响持悲观态度。 只有少数人认为人工智能会改善他们的工作、促进经济增长或改善就业市场。
公众对人工智能的看法因国家和人口统计特征而异。 年轻一代和高收入、高学历人群对人工智能的积极影响更为乐观。
9.2 社交媒体数据
本章节分析了社交媒体上对人工智能模型的讨论情况,数据来自Quid。
2023年,GPT-4、Gemini和Claude等大型语言模型在社交媒体上受到了广泛关注。 公众对这些模型的评价褒贬不一,既有对其能力和潜力的赞扬,也有对其风险和伦理问题的担忧。
结论
2024年人工智能指数报告全面而深入地分析了人工智能领域的最新发展趋势。人工智能技术在不断进步,其应用范围也在不断扩大,对社会经济和政治的影响日益显著。 然而,人工智能技术也带来了一些挑战,例如伦理风险、安全风险和公平性问题。因此,需要制定相应的政策和监管措施,以促进人工智能技术的负责任发展和应用,确保人工智能造福人类社会。 这份报告为政策制定者、研究人员、企业高管和公众更好地理解人工智能领域提供了宝贵的数据和见解。 未来,需要进一步加强对人工智能多样性、环境影响以及长期风险的监测和研究。
报告下载:
https://aiindex.stanford.edu/wp-content/uploads/2024/05/HAI_AI-Index-Report-2024.pdf