斯坦福大学教授李飞飞团队：关于 2024 年人工智能发展报告总结

科技 2024-11-25 08:01 北京

斯坦福大学教授李飞飞团队关于 2024 年人工智能发展报告总结。

1. 核心信息

在2024年，人工智能（AI）领域取得了显著的进展，但也面临着挑战。

AI 在特定任务上超越了人类，如图像分类和语言理解，但在更复杂的任务上仍有局限。

工业界在 AI 研究中发挥了主导作用，尤其在机器学习模型的产出上。

训练大型AI模型的成本不断上升，例如 GPT-4 花了约 7800 万美金的，Gemini 花了约 1.91 亿美金。

美国、中国和欧洲是AI模型的主要贡献者，其中中国在 AI 专利方面领先。

AI 模型的可靠性评估缺乏统一标准，生成式 AI 投资激增，AI 提高了工作者的效率和质量，加速了科学和医疗的发展，美国 AI 相关条款发布数量急剧增加，全球对 AI 潜在影响的意识增强，紧张情绪上升。

2. AI 研究和发展

2.1 核心要点

AI 研究继续由工业界主导，公开源码的模型数量增加，训练成本上升，美国、中国和欧洲在 AI 大模型发展上占主导地位。中国在 AI 专利方面占据领先地位，GitHub上的 AI 研究资源和相关论文发表数量持续增长。

2.2 核心对比信息

从 2010 年到 2022 年，AI 相关的论文发表数量逐年增加，美国在发布优秀的机器学习模型数量上保持世界首位。

2.3 模型是否会用尽数据

AI模型的发展依赖于大量数据，但有担忧表示，计算机科学家可能很快就会用尽高质量数据。尽管合成数据可以缓解这一问题，但使用合成数据训练的模型可能会出现性能下降。

2.4 基础模型发展

基础模型在广泛的数据集上训练，具有多功能性，并适用于许多下游应用。这些模型在实际场景中的部署越来越多，不同国家和组织在基础模型的发布数量上有所不同。

2.5 训练模型成本

训练大型AI模型的成本不断上升，达到数千万美元甚至数亿美元。这表明了 AI 领域在资源投入方面的增长。

3. 技术性能

3.1 核心要点

AI 在特定任务上超越了人类，多模态AI模型的出现，如 Google 的 Gemini 和 OpenAI 的 GPT-4，展示了处理图像和文本信息的能力。新的 benchmarks 评估集的出现，如 SWE-bench 和 HEIM，以及人类评估的引入，如聊天机器人竞技场排行榜，反映了 AI 技术性能的提升。

3.2 重要模型发布情况

2023 年见证了多个重要 AI 模型的发布，包括 Anthropic 的 Claude、OpenAI 的 GPT-4、Stability AI 的 Stable Diffusion v2 等，这些模型在多项benchmarks 中超越了人类水平。

3.3 AI 表现情况

AI 在图像分类、英语理解和自然语言推理等任务中超越了人类，但在竞赛数学、多语言理解和视觉常识推理等任务上仍有局限。

3.4 多学科、高难度评估集 (MMMU & GPQA & ARC)

新的评估集如 MMMU、GPQA 和 ARC 的出现，旨在评估 AI 的多学科推理能力和抽象归纳能力。尽管 AI 模型在这些评估中取得了一定的成绩，但与人类专家相比仍有差距。

3.5 Agents

基于大型语言模型的AI代理在特定场景中自动处理任务的能力得到了提升，如 AgentBench 评估的基于 LLM 的 25 个 agents。

3.6 RLHF & RLAIF

RLHF 和 RLAIF 是两种基于强化学习的方法，用于训练 AI 模型以更好地符合人类的偏好和反馈。RLAIF 在生成无害对话任务中表现优于RLHF。

3.7 LLM 随着时间迭代效果对比

随着时间的推移，LLM 的效果有所变化。一些研究表明，随着新数据和用户反馈的加入，某些任务的效果可能出现下降。

3.8 提升 LLM 效果的技巧

包括 prompting、OPRO 和 fine-tuning 在内的多种技术被用来提升 LLM 的效果。这些技术通过不同的方法优化模型性能，如通过自然语言描述任务或减少内存需求。

3.9 训练 AI 系统对环境的影响

训练大型 AI 模型消耗大量资源并释放二氧化碳，对环境造成影响。尽管如此，AI 系统也可以用于预测城市空气质量和优化能源使用，从而对环境产生积极影响。

4. AI 可靠性

AI 的可靠性评估涉及隐私、数据治理、透明性和可解释性、安全性和公平性等多个方面。目前，对 LLM 的全面标准评估存在缺陷，政治伪造内容的产生和检测成为一个问题，ChatGPT 在政治上的偏见也引起了关注。

4.1 AI 可靠性定义

AI 的可靠性从数据治理、可解释性、公平性、隐私、安全性和透明性等多个维度进行定义和评估。

5. AI 对经济的影响

AI 对经济的影响是多方面的，包括提高生产效率、改变工作市场和投资趋势。生成式AI的投资增长迅速，AI 相关工作职位数量减少，但 AI 降低了企业支出并提升了收益。中国在工业机器人领域占据主导地位，AI 提高了工作者的产能和效率。《财富》500 强公司越来越多地讨论人工智能，特别是生成式 AI。

5.1 AI 重大新闻

2023年，AI 领域发生了多项重大新闻，包括 BioNTech 收购 AI 公司InstaDeep、微软对 OpenAI 的投资、GitHub Copilot 的发布、Einstein GPT 和微软 Office 的融合、Bloomberg 使用 LLM 进行金融数据分析等。

5.2 工作信息

AI 相关工作在工作市场占比有所变化，美国 AI 工作技能的需求有所下降，但香港对 AI 人才的需求相对较高。全球新兴成立的 AI 公司数量持续增加。

5.3 开发者对 AI 工具使用情况

开发者对 AI 工具的使用情况显示，GitHub Copilot 和 ChatGPT 的使用量最高，云服务平台的使用也相当普遍。

6. AI 在医疗与教育的进展

AI 在医疗和教育领域的应用取得了显著进展。AI 加快了科技进步，如 AlphaDev 和 GNoME 的应用。在医疗领域，AI系统如 EVEscape 和 AlphaMissence 的发布提高了疾病预测和基因分类的效率。FDA 批准的 AI 相关医疗设备数量增加，国际上人工智能相关的学位课程也在迅速增加。

来源 | AI道上

http://mp.weixin.qq.com/s?__biz=MzIxNDgzNDg3NQ==&mid=2247551055&idx=2&sn=bb83e11d7f5ca7098806b974d7576e41

深度学习与NLP

专注深度学习、NLP相关技术、资讯，追求纯粹的技术，享受学习、分享的快乐。

最新文章

离谱！裁员裁出新高度了。。

斯坦福大学教授李飞飞团队：关于 2024 年人工智能发展报告总结

多模态大模型技术点总结

中科院院士：青年科学家 5 年内拿不出成果就面临淘汰，有的单位已现「马太」效应，重复给某一人奖励

[送5本]《科技论文写作指南》理工科学生福音

o1圈杀疯了，阿里又开源Marco-o1

吴恩达力荐，100%好评-《LangChain大型语言模型(LLM)应用开发》免费分享

这才是真・开源模型！公开「后训练」一切，性能超越Llama 3.1 Instruct

新一轮高校裁员潮，来了！

[送5本]《动手学自然语言处理》大模型改变了NLP的游戏规则了吗

LLM逻辑推演策略选择：推理时计算 vs 训练时计算

仅仅一天，Gemini就夺回了GPT-4o拿走的头名

教育部公布！25考研人数，再降50万！

大模型代肝，自动刷《崩铁》升级材料，Claude操纵计算机还能这么用！

一篇小型语言模型技术最新全面综述

M3DocRAG：文档问答用哪个多模态大模型效果最好？

已公示！“东方理工大学”，来了

聊一聊做角色扮演大模型的经验

绝对顶流！清华博导倾力编写的《图神经网络导论》pdf免费分享

最高9.0分！这16篇最高分ICLR2025论文必看！从生成模型到MOE等

ICLR 高分：深入研究多模态大模型的对齐策略

谷歌大佬编写，我唯一熬夜看完的机器学习神作pdf分享！

双非二战字节算法岗，拿下70k offer.....

猫猫运动方程，首次被物理学家破解！ |《美国物理学杂志》正经研究

o1的风又吹到多模态，直接吹翻了GPT-4o-mini

谷歌大佬编写，我唯一熬夜看完的机器学习神作pdf分享！

微调图像大模型的经验分享

昨夜， LLM 已经彻底凉凉了...

Karpathy后悔了：2015年就看到了语言模型的潜力，却搞了多年强化学习

微软开源角色Agents，直接模拟了整个世界~

2024最新神书-《大模型应用程序构建指南》免费pdf分享

2024最新,李宏毅深度学习教程pdf免费分享！绝对值得反复阅读的神书！

已注销！985新校区，不建了

RAG黑盒被打开了，可视化RAGViz闪亮全场

LLM性能优化中的一些概念扫盲

Nature:「人类亲吻难题」彻底难倒LLM，所有大模型全部失败！LLM根本不会推理，只是工具

Cursor一不小心把自家的底牌也放出来了~

[送5本]《动手学机器学习》上海交大ACM班总教头团队重磅新作，带你动手学机器学习！

传说中Ilya Sutskever精选论文清单：AI领域40大论文完整版「破解」完成

神书《从零构建大模型》分享，尚未发布，GitHub标星22k！！

LLM性能优化中的一些概念扫盲

暴跌94%，裁员9600人。。。

[送5本]《大语言模型：原理、应用与优化》大模型未来发展方向大揭秘！

多个中国团队斩获EMNLP'24最佳论文！UCLA华人学者中三篇杰出论文，明年顶会落户苏州

DRL2022新书-《深度强化学习》免费pdf分享

陶哲轩：计算机通用方法，往往比深奥的纯数学更能解决问题

中央批准：中央候补委员、教育部副部长，任C9大学书记

谷歌2024博士奖学金公布，KAN作者刘子鸣等数十位年轻华人学者入选

上交2024最新-《动手学大模型》实战教程及ppt分享！

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉