Artificial Analysis:2024年AI大模型总结报告

文摘   2025-01-02 18:07   广东  

2024年是大模型发展非常迅速的一年,我们见证了太多AI技术变革带来的惊艳!

这一年里,各家大模型的能力提升层出不穷。LLM方面,OpenAI发布了更强的o系列模型;文生图开源模型也出现了 SD 的替代者 Flux;视频生成模型更是百花齐放,很多大模型公司都推出了类 Sora 的视频生成模型。

近日,Artificial Analysis 回顾了2024年人工智能的重大事件,梳理出了一份关于人工智能领域的年终总结。

Artificial Analysis

Artificial Analysis 是一家领先的独立AI基准测试和分析平台,上面分析的模型不仅包括LLM,还有视觉生成模型如文生图、文生视频等等。Artificial Analysis 上面提供了各个模型的性能以及成本对比,可以帮助大家来选择最适合的AI大模型。

  • 官网:https://artificialanalysis.ai/


PART01
LLM 竞争格局

前沿模型方面,2024年,多个实验室迎头赶上了 OpenAI 的 GPT-4,并且出现了首批超越 GPT-4 智能水平的模型。

  • OpenAI 的 GPT-4 在 2022 年 11 月通过 ChatGPT 中的 GPT-3.5 启动了语言模型竞赛,竞争对手用了大约18个月时间追赶。

  • 开放权重模型(如 Meta、Mistral 和阿里巴巴的产品)逐渐接近并超越了 GPT-4 的智能水平。

  • 2024年底,出现了首批显著超越 GPT-4 智能水平的模型,如 OpenAI 的 o1 系列,这些模型在推理时计算扩展、数据质量以及新的强化学习技术方面取得了突破。

在大模型竞赛中,美国在前沿模型领域占据主导地位,中国紧随其后,处于明显的第二位,只有少数其他国家展示了训练前沿模型的能力。

  • 美国的主导地位:主要是ChatGPT、Gemini、Claude、Nova、LLama系列。

  • 中国时处于第二梯队:取得国际关注与认同的主要有 Qwen2.5 Instruct 72B 与 DeepSeek V2.5。

  • 其余国家则只有法国、加拿大、以色列达到了一定水平,大部分国家在这场竞赛中都与领先国家望尘莫及。


PART02
开源与闭源模型的差距缩小

在 Meta、Mistral 和阿里的模型推动下,开源模型和闭源商业模型之间的性能差距显著缩小。


PART03
推理成本大幅下降

2024年,各个智能水平的大语言模型推理定价大幅下降;GPT-4o mini 以 100 倍便宜的价格接近 GPT-4 的智能水平。

  • 2024年,语言模型的推理定价大幅下降,尤其是小型模型的性能提升使得它们能够以更低的成本提供接近大型模型的智能水平。

  • 例如,GPT-4o mini 的价格比早期版本降低了约 75 倍,而智能水平接近GPT-4。得分超越 GPT-4 Turbo 的国产大模型 Qwen2.5 72B 的价格也甚至只有 GPT-4 Turbo的1.3%

推理定价下降和速度提升的一个关键因素小型模型达到了以前只有大型模型才能达到的智能水平

这一趋势得益于大规模训练(>10T tokens)、知识蒸馏高质量数据的使用以及新的强化学习技术的应用。


PART04
上下文窗口的扩展

大语言模型的上下文窗口增加到 128k 已经成为新常态;长上下文推理使模型能够同时处理更多数据,以及更好的长文本分析能力。

  • 上下文窗口从几千个token扩展到 128k token 成为常态,对比23年的三季度,短短一年整整增长了32倍!部分模型的最大上下文长度甚至达到了 2M token。

  • 这一进步使得模型能够处理更多的数据,支持多模态输入(如图像、视频、音频),并减少了对检索、摘要和截断策略的需求。


PART05
图像、视频和语音生成的进展
01

图像生成

2024年AI图像生成质量迅速进步,尤其在照片级真实感、提示遵循度和文本渲染方面取得了显著的飞跃,比如出现了 Flux 以及 Recraft V3。

2024年,图像模型的进步和竞争在加速。在 Artificial Analysis 图像竞技场中排名前五的模型都是在2024年第三季度之后推出的,例如24年10月推出的 Recraft v3 模型。

02

视频生成

对于AI视频生成,OpenAI 在 2024 年 2 月发布了 Sora 的预览版,当时并没有太大的竞争,但到了 2024 年 12 月它正式发布时,竞争已经非常激烈,出现了诸如快手的可灵、MiniMax的海螺AI、腾讯的混元等等。

03

语音生成

对于AI语音合成,最新的基于 Transformer 文本转语音(Text-to-Speech)模型(如ElevenLabs的Turbo v2.5、OpenAI的HD TTS)在 2024 年达到了新的质量里程碑,超越了传统的超大规模云服务供应商

对于AI语音识别,OpenAI 在 2022 年底开源了 Whisper,重塑了AI转录领域,允许云推理服务商提供者进入市场,并在响应速度和价格上展开竞争,为消费者带来了前所未有的高性价比体验。

其中最快的一个可以在大约 10 秒内转录整整一小时的音频,转录的价格也降至每 1000 分钟音频不到 1 美元。

Groq 发布的最新 Whisper 模型与亚马逊 2018 年的模型相比有约 72 倍的价格降低和约 11 倍的速度提升。


PART06
AI价值链中的垂直整合

在AI价值链中,参与者在垂直整合程度上有所不同;谷歌作为从 TPU 加速器到 Gemini 的最垂直整合的参与者脱颖而出。

  • Google 是AI价值链中垂直整合程度最高的玩家,涵盖了从 TPU 加速器到 Gemini 基础模型的整个链条。

  • 其他大公司如 微软、亚马逊、Meta 等也在不同环节占据了重要位置。


PART07
开发者洞察

从模型开发者角度来看,目前更加倾向于使用头部企业的产品,如 OpenAI,Meta,Anthropic,Mistral,Google。

  • 模型选择的关键因素:开发者在选择模型时最看重的是推理质量和价格,其次是上下文窗口大小、多模态能力和推理速度

开发者对于 LLMs 的使用都不局限在某一个需求方面,而是覆盖了信息抽取、长文本总结、文本生成等需求,而且也最在意模型的多模态能力。

  • 多模态能力的需求:超过 60% 的开发者表示有意使用多模态LLM(语言模型),尤其是在图像解释、图像生成、语音识别等方面。

对于各种各样的技术与商业需求来讲,大部分开发者用户都会同时使用多个模型。

  • 部署方式:大约 3/4 的开发者通过托管的无服务器端点访问模型。其中 72% 的开发者会直接使用已发布成品模型,另外的 24% 则是针对现有的模型进行微调,仅有 4% 是从头开始对模型进行训练。

想要继续阅读报告,公众号点击  发消息 ,发送关键词「2024大模型」即可获取资源。


参考:

https://artificialanalysis.ai/

https://zhuanlan.zhihu.com/p/15244975924

https://mp.weixin.qq.com/s/CXD2qAFg1raa1jc_LeRAMg

https://blog.csdn.net/sexy19910923/article/details/144811786

HsuDan
拥抱AI技术,分享人工智能、机器学习、数据分析等多个领域的优质资讯、学习资源、实践案例、开源项目及开发工具。
 最新文章