2024年人工智能年终总结报告｜Artificial Analysis

科技 2024-12-30 12:32 北京

新智元报道

编辑：泽正

【新智元导读】Artificial Analysis回顾今年人工智能的重大事件，梳理出了一份关于人工智能领域的年终总结。

临近年末，在人们都开始着手于年终总结的时候，Artificial Analysis也给出了关于2024年AI变革式发展的回顾。令人欣喜的是，我国的Qwen2.5 Instruct 72B与DeepSeek V2.5还有可灵AI等也名列其中。

毫无疑问的是，2024年对于AI的发展是里程碑式的一年。今年我们见证了太多AI技术变革带来的惊艳，而它们也在短短一年的时间里就对我们的生活学习方式产生了重大的影响。

这一年里，各家大模型的能力提升层出不穷。从gpt-4o的交互式高质量解决问题到o1那令人震惊的推理能力，再到刚刚发布的o3，OpenAI还是一往如常地为我们不断带来新的人工智能范式。

对于开发者来讲，Claude 3.5 Sonnet出色的辅助代码体验更是让Anthropic给OpenAI带来了真正的市场竞争压力。

而就在12月，闷声办大事的Google也通过发布Genmini 2.0 Flash和Genmini 2.0 Flash Thinking彻底打了一场漂亮的翻身仗，成功逆袭。

并且，这一年里，无论是模型的能力表现、响应速度、API价格都有显著的提升，就像集成电路的摩尔定律一样，大模型也迎来了它自己的「摩尔定律」时代。

自OpenAI在2022年12月发布GPT-3.5模型驱动的ChatGPT以来，生成式AI就如火如荼地展开了一场声势浩大的「军备竞赛」。

而仅仅不到两年，多个实验室就都已经赶上了OpenAI的GPT-4，甚至出现了第一批超越GPT-4o智能水平的模型。例如：Claude 3.5 Sonnet，Gemini 1.5 Pro以及新近发布的Gemini 2.0 Flash。

截止2024年，在LLM领域，依然是美国位于主导地位，其中主要是ChatGPT、Gemini、Claude、Nova、LLama系列。而我国则暂时处于第二梯队，取得国际关注与认同的主要有Qwen2.5 Instruct 72B与DeepSeek V2.5。其余国家则只有法国、加拿大、以色列达到了一定水平，大部分国家在这场竞赛中都与领先国家望尘莫及。

而在Open AI不再「Open」之后，开源模型也没有因此就与专有模型的性能有难以克服的差距。在Meta、Mistral和阿里巴巴发布的开源模型的驱动下，开源和专有模型之间的性能差距也有了显著下降。

更加利好消费者的是今年语言模型的推理定价在所有智能水平上都大幅下降，例如GPT-4o mini在智能水平上接近GPT-4，但价格却便宜了100倍。而得分超越GPT-4 Turbo的国产大模型Qwen2.5 72B的价格也甚至只有GPT-4 Turbo的1.3%。

推理定价下降的一个关键驱动因素是小模型也能达到之前只有大模型才能达到的智能水平，例如微软最新推出的phi-4模型。

上下文窗口长度对于模型的实际应用是至关重要的，因为许多应用程序不仅仅使用文本，更大的上下文窗口才能支持包括图像、视频和音频在内的多模态输入。而现在它也来到了128K tokens的长度，对比23年的三季度，短短一年整整增长了32倍！

对于使用者来讲，目前更加倾向于使用头部企业的产品，如OpenAI,Meta,Anthropic,Mistral,Google。而影响选择模型最重要的因素则有：推理质量，上下文窗口，价格，速度等。

人们对于LLMs的使用都不局限在某一个需求方面，而是覆盖了信息抽取、长文本总结、文本生成等需求，而且也最在意模型的多模态能力。

对于各种各样的技术与商业需求来讲，大部分开发者用户都会同时使用多个模型。其中72%的开发者会直接使用已发布成品模型，另外的24%则是针对现有的模型进行微调，仅有4%是从头开始对模型进行训练。

2024年，图像生成质量也得到了迅速发展，其中在照片真实感、提示符合度和文本渲染方面取得了显著的进步。下图中的提示词为：印着「Artificial Analysis」的下一代宇宙飞船环绕在景色令人惊叹的地球。我们可以发现，随着先进的文生图模型不断迭代推出，生成的图像也越来越逼真，符合实际规律。

随之而来的是，2024年图像模型的进步和竞争也加速了。人工智能分析图像领域的前5名模型都是自2024年第三季度以来推出的。例如24年10月推出的Recraft v3模型。

有意思的是，OpenAI在2024年2月就预览了Sora，当时竞争其实还很小，但到了2024年12月它推出时，这个领域的竞争就已经激烈起来了。诸如快手的可灵、MiniMax的海螺AI以及腾讯的混元都对Sora发起了挑战。

基于Transformer的文本转语音模型也在2024年OpenAI的领衔下达到了新的质量里程碑，超越了曾经的云服务供应商。

在AI语音识别领域，OpenAI在2022年末开源Whisper重塑了整个领域格局，使得云推理服务提供商能够进入市场，并在响应速度和价格上展开了竞争，为消费者带来了前所未有的高性价比体验。其中最快的一个可以在大约10秒内转录整整一小时的音频，转录的价格也降至每1000分钟音频不到1美元。Groq发布的最新Whisper模型与亚马逊2018年模型相比有约72倍的价格降低和约11倍的速度提升。

从Artificial Analysis给出的2024年的人工智能年度回顾报告中，我们也可以发现，这其中并没有统计到最新的o3与Gemini 2.0 Flash Thinking。由此可见，今年整体的AI发展，尤其是LLMs，其推陈出新的能力几乎超乎了人们的想象。

这也让我们对即将到来的2025有了更多的憧憬与期望，明年是否又会是真正达成AGI的关键一年呢？答案就需要留待明年此时再来回看了。

参考资料：

https://artificialanalysis.ai/

新智元

智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响，领航中国新智能时代。

最新文章

奥特曼惊呼奇点临近！95%人类饭碗将被AI抢走，2028年百万AI上岗

「停止雇佣人类」广告牌爆火，OpenAI放惊人言论：每月2000刀，AI淘汰人类！

首个由o1 pro指导诈骗案开庭！原告九成资产被骗，利用AI绝地反击

OpenAI最大秘密，竟被中国研究者破解？复旦等惊人揭秘o1路线图

CMU等曝光GitHub「地下产业链」！450万个Star都是刷的

陶哲轩自述被拒稿是常事，「大牛名字」不是通行证！

招人！新智元邀你勇闯ASI之巅

2025智能世界50震撼预测！AI海啸来袭，5维度看清AGI与潜在可能

DeepMind天才科学家疑抑郁自杀！41岁SuperGLUE之父英年早逝，AI圈悲痛不已

斯坦福AI科研神器开源，一键成文GPT-4o mini加持！科研写作彻底解放双手

复旦等提出「中国版GPT-Zero」！毕业论文AI率自查神器｜AAAI 2025

动物版谷歌翻译来了？Nature：用AI解码野性的呼唤！

招人！新智元邀你勇闯ASI之巅

史上最激烈H-1B骂战引爆美国！马斯克开炮：进口劳动力断供，美国科技要崩

微软论文意外「走光」，OpenAI参数全泄密！GPT-4o仅200B，o1 300B

比人类神经元快10亿倍！港中文、中科院「超级大脑」：1秒识图3479万张

大规模3D场景2分钟生成，效率提升30倍！中科院发布空间智能新框架 | AAAI 2025

田渊栋：2024年年终总结

招人！新智元邀你勇闯ASI之巅

奇点临近！美国47%工作岗位将被ASI卷走，大佬急发「逃生攻略」

o3拿下25%高分震惊数学教授，2025 IMO金牌或被AI收入囊中！

OpenAI o1「作弊」修改系统，强行击败专业象棋AI！全程无需提示

招人！新智元邀你勇闯ASI之巅

Ilya布局末日倒计时？奥特曼与谷歌大佬揭秘2025年ASI降临时间表！

反手就是开源！英伟达豪掷7亿美元收购专攻GPU初创Run:ai

2024年AI编程有多强？谷歌工程主管揭秘残酷真相

招人！新智元邀你勇闯ASI之巅

惊人反转！OpenAI吹哨人死于谋杀？公寓被洗劫有打斗痕迹，马斯克发声

Hinton发2024末日预警：10年内人类灭绝！奥特曼预言18个月ASI降临

英伟达2025祭出「迷你大脑」，雷神「Thor」剑指千亿机器人市场！

9大基准全面领先，性能暴涨10.8%！视觉价值模型VisVM成「图像描述」新宠

2024年人工智能年终总结报告｜Artificial Analysis

招人！新智元邀你勇闯ASI之巅

谷歌劈柴立军令状：必斩OpenAI，夺回第一！

雷军千万年薪挖角95后天才少女，AI女神逆风翻盘！

o1 pro深评博士医学论文，震惊顶尖免疫学家！2分破解神秘作家身份

招人！新智元邀你勇闯ASI之巅

OpenAI大地震一分为二，全力冲刺AGI！一半向钱看，一半装理想

AI掌控编码人类狂按Tab，软件工程自主时代来临！OpenAI董事长Taylor重磅长文

OpenAI研究员首次提出「AGI时间」进化论！o1数学已达「分钟级AGI」

招人！新智元邀你勇闯ASI之巅

OpenAI微软「秘密协议」首次曝光：盈利超过1000亿美元就是AGI！

吹哨人之死：26岁OpenAI举报人离奇自杀，母亲心碎曝出惊人内幕！

英伟达年终大礼，最强AI GPU曝光！全新B300让o1/o3推理性能上天算力爆表

首篇「角色扮演AI」综述！复旦等提出大模型三层人格分类框架：群体、角色、个性化 | TMLR

招人！新智元邀你勇闯ASI之巅

中国MoE一夜爆火！大模型新王暴打GPT-4o，训练成本仅600万美元

15大机构十年研究证明：无约束AI必然超越人类，创造能力也更强！

英特尔至强6独享MRDIMM，内存带宽飙升，加速推理达2.4倍！

Anthropic联创：Scaling Law没崩，但推理成天价！有了TTT，25年AI更加速

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉