作者|子川
来源|AI 先锋官
Qwen2.5: 0.5B、1.5B、3B、7B、14B、32B 和 72B
Qwen2.5-Coder:1.5B、7B 和 32B(即将发布)
Qwen2.5-Math:1.5B、7B 和 72B。
Qwen2-VL:72B。
除了3B和72B的版本外,所有的开源模型都采用了 Apache 2.0 许可证。
下面让我们看一下相较于Qwen2系列,Qwen2.5带来了哪些升级!
先说总结:吊爆了!!!
更大规模、更高质量的预数据训练集:Qwen2.5的预训练数据集规模从7T tokens 扩展到了18Ttokens。(“ T ”表示“万亿”, 18T 即 18 万亿)
知识量升级:Qwen2.5的知识涵盖更广。在MMLU基准中,Qwen2.5-7B 和 72B的得分相较于Qwen2分别从70.3提升到 74.2,和从84.2提升到 86.1。
此外,Qwen2.5还在 GPQA、MMLU-Pro、MMLU-redux 和 ARC-C 等多个基准测试中有了明显提升。
代码能力增强:由于Qwen2.5-Coder的突破,Qwen2.5在代码生成能力上也大幅提升。
Qwen2.5-72B在LiveCodeBench(2305-2409)、MultiPL-E和MBPP中的分别得分55.5、75.1和88.2,优于Qwen2-72B-Instruct的32.2、69.2和80.2。
数学能力提升:在MATH基准测试中,Qwen2.5-7B和Qwen2.5-72B在数学推理得分上。分别从Qwen2-7B和Qwen2-72B的52.9和69.0上升到了 75.5和83.1。
更符合人类偏好:Qwen2.5生成的内容更加贴近人类的偏好。
具体来看,Qwen2.5-72B-Instruct的Arena-Hard得分从 48.1 大幅提升至 81.2,MT-Bench得分也从 9.12 提升到了 9.35。
其他核心能力提升:Qwen2.5在 指令跟随、生成长文本(从1K升级到 8K tokens)。
此次阿里可不是简简单单的发布一些充数的模型,而是实打实全方位升级!!!
本次阿里开源的最大版本指令微调模型Qwen2.5-72B在多个全球知名基准测试平台的测试结果显示:
仅有720亿参数的Qwen2.5击败了Meta拥有4050亿参数的最新开源Llama-3.1指令微调模型;成为目前最强大参数的开源模型之一。
即便是没有进行指令微调的基础语言模型,其性能同样赶超Llama-3-405B。
此外,阿里开放API的模型Qwen-Plus 与 GPT4-o、Claude-3.5-Sonnet、Llama-3.1-405B 和 DeepSeek-V2.5等模型相比较,也丝毫不落下风。显著优于 DeepSeek-V2.5。
但是在某些方面仍不及 GPT4-o 和 Claude-3.5-Sonnet, Llama-3.1-405B。
Qwen2.5 还开放了 140 亿参数和 320 亿参数模型,即 Qwen2.5-14B 和 Qwen2.5-32B。
这两个模型在多样化的任务中超越了 Phi-3.5-MoE-Instruct 和 Gemma2-27B等同等规模的基线模型。
值得注意的是,即便是只有30亿参数的小模型, Qwen2.5-3B 也表现了出惊人的能量,在MMLU基准中得分超过65。优于Llama-2-70B等大模型。
此次除了Qwen2.5系列模型表现优异之外。
Qwen2.5-Coder和Qwen2.5-Math系列模型表现同样令人震撼。
一个月前,阿里开源了 Qwen 家族的第一款数学专项大语言模型Qwen2-Math。
如今再度升级并开源 Qwen2.5-Math 系列。
相较于 Qwen2-Math 只支持使用思维链(CoT)解答英文数学题目,Qwen2.5 系列能同时支持使用思维链(CoT)和工具集成推理(TIR) 解决中英双语的数学题。
其中Qwen2.5-Math-72B的整体性能超越了Qwen2-Math-72B指令微调和著名闭源模型GPT4o。
即使是非常小的 Qwen2.5-Math-1.5B模型 也拿到了不错的成绩。
今年四月份阿里发布了 CodeQwen1.5(代码模型)。
反响特别好!
如今又开源Qwen2.5-Code系列模型。
Qwen2.5-Coder 在 128K tokens 上下文,支持 92 种编程语言。
并在多个代码相关的评估任务中都取得了显著的提升,包括代码生成、多编程语言代码生成、代码补全、代码修复等。
值得注意的是,本次开源的 7B 版本 Qwen2.5-Coder,打败了更大尺寸的 DeepSeek-Coder-V2-Lite 和 Codestral-20B,成为当前最强大的基础代码模型之一。
为了更广泛的评估多编程语言能力,阿里还使用 McEval 在 Qwen2.5-Coder 上进行了更多的测试,设计 40 多种编程语言。
结果表明:Qwen2.5-Coder在多种编程语言任务上表现依旧十分出色。
大家伙别忘了在多模态的赛道上,阿里也一直秉持着开源的初心。
这不,还开源了Qwen2-VL-72B模型。
Qwen2-VL-72B模型的图像理解能力能解读能够处理各种分辨率和长宽比的图片,还能够有效理解长达20分钟的视频。并支持多语言。
该模型在视觉理解方面的性能足以和GPT-4o相媲美。