又媲美 ChatGPT!? Qwen2.5 技术报告详解

科技   2024-12-23 20:27   广东  

SmartFlowAI


点击上方蓝字关注我们

编辑:北辰

年底了,继 OpenAI 连续 12 天的直播后,阿里的 Qwen 团队也在 20 号推出了其最新的 Qwen2.5[1] 大模型系列技术报告,该系列在预训练和后训练阶段进行了全面升级,并推出了多种模型配置,展示了卓越的性能和广泛的应用潜力。本文将和大家一起来解读Qwen2.5 的官方技术报告[6]👇🏻

全文约 2500 字,预计阅读时间 7 分钟

关键词:Qwen2.5、大型语言模型、预训练、后训练、专家混合、模型性能、开源模型

通义千问团队已经在HF[2]ModelScope[3]上更新了最新的模型文件,并提供了相应的线上 Demo 供大家体验最新的 Qwen 2.5 的功能。

  • 国内体验地址[4] https://modelscope.cn/studios/Qwen/Qwen2.5/
ModelScope Demo
  • 国外体验地址[5]  : https://huggingface.co/spaces/Qwen/Qwen2.5
HF Demo

1 模型结构

Qwen2.5系列包括用于开源的密集模型 0.5B, 1.5B, 3B, 7B, 14B, 32B, and 72 和对应的量化模型。采用基于Transformer的解码器架构,包含分组查询注意力(GQA)、SwiGLU 激活函数、旋转位置嵌入(RoPE)、QKV 偏差和 RMSNorm 等组件。

ModelsLayersHeads (Q/KV)Tie EmbeddingContext / Generation LengthLicense
0.5B2414/2Yes32K / 8KApache 2.0
1.5B2812/2Yes32K / 8KApache 2.0
3B3616/2Yes32K/ 8KQwen Research
7B2828/4No128K / 8KApache 2.0
14B4840/8No128K / 8KApache 2.0
32B6440/8No128K/ 8KApache 2.0
72B8064/8No128K/ 8KQwen

还有用于API服务的MoE模型(Qwen2.5-TurboQwen2.5-Plus)。通过将标准前馈网络层替换为专门的 MoE 层来构建,实现了模型性能的显著提升。

Qwen2.5 的分词器采用字节级字节对编码(BBPE),词汇量为151,643个常规词元,控制词元从3个扩展到22个,增强了模型的一致性并减少了潜在的兼容性问题。

2 预训练阶段的提升

数据规模大幅提升,从7万亿 Tokens 扩展至18万亿 Tokens。

在数据准备方面, Qwen2.5 通过改进数据过滤(使用 Qwen2-Instruct 模型作为数据质量评估和过滤器)、整合数学和代码数据(来自 Qwen2.5-MathQwen2.5-Coder)、生成高质量合成数据并严格过滤,以及优化数据混合(对不同领域内容进行采样平衡),构建了更大、更高质量的预训练数据集。

超参数选择基于预训练数据的缩放定律,通过实验确定不同规模的密集模型和 MoE 模型的关键训练参数(如批量大小和学习率),并利用这些定律预测和比较 MoE 模型与密集模型的性能。

长上下文预训练采用两阶段方法,除 Qwen2.5-Turbo 外,其他模型在最终预训练阶段将上下文长度从 4,096 扩展到 32,768 个词元,并增加 RoPE 的基频。Qwen2.5-Turbo 则采用渐进式上下文长度扩展策略,并结合 YARNDual Chunk Attention 技术,使其能够处理长达100万个词元的上下文

3 后训练阶段的改进

监督微调利用超过100万条高质量样本解决了先前模型在长序列生成、数学问题解决、编码、指令遵循、结构化数据理解、逻辑推理、跨语言迁移和稳健系统指令等方面的局限性。通过开发长响应数据集、引入数学思维链数据、整合多语言指令调优数据、实施严格的代码验证框架、构建结构化理解数据集、增强逻辑推理能力、促进跨语言转移、构建多样化系统提示和进行响应过滤等措施,提升了模型在这些方面的能力。

多阶段强化学习:

  • 离线强化学习(DPO) 通过利用 SFT 模型重新采样响应,结合人工和自动审查过程,构建训练数据对,重点提升模型在推理、事实性和指令遵循等方面的能力。
  • 在线强化学习(GRPO) 通过遵循严格的标签标准,利用多样化的查询集和响应采样,训练模型以生成高质量、符合伦理和用户需求的响应。

长上下文微调通过在 SFT 阶段采用两阶段方法(先使用短指令微调,再结合长短指令)和在 RL 阶段专注于短指令训练,扩展了 Qwen2.5-Turbo 的上下文长度,同时提升了其在长上下文任务中的指令遵循能力。

4 测试

评估涵盖了常用的公开基准和内部数据集,包括自然语言理解、编码、数学、科学知识、推理和多语言能力等方面的任务。评估过程中通过n-gram匹配排除潜在污染数据,确保测试数据的独立性。

基础模型:

  • 对基础模型(如Qwen2.5-72B、Qwen2.5-14B、Qwen2.5-7B、Qwen2.5-0.5B等)与其他领先模型(如Llama-3-70B、Llama-3-405B、Mistral-7B等)在不同参数规模下进行了全面比较.

  • 与同尺度开源模型相比,Qwen 2.5 系列模型在语言理解、推理、数学、编码、人类偏好对齐等领域展现顶级性能。

  • 在小尺度(~7B)和微小(≤3B)的大模型中更是在多数测试中取得了 SOTA 成绩。

其他测试:

  • 开源旗舰指令调优模型 Qwen2.5-72B-Instruct,表现超越多数开源和专有模型。与 Llama-3-405B-Instruct 相比(参数规模约为其五倍),性能仍具有竞争力。
  • Qwen2.5-TurboQwen2.5-Plus,在性能上媲美 GPT-4o 系列,同时显著降低成本。
  • 多语言能力测试中,Qwen2.5 在各参数尺度的开源模型中均取得最优。

在其他测试,如奖励模型评估(使用 Reward Bench、RMB、PPE 和内部收集的中文人类偏好基准等)、长上下文能力评估(利用RULER、LV-Eval和Longbench-Chat基准)和速度测试 中,Qwen2.5 也全面展示了其在不同方面的能力表现和优势。

💡小编:大家可以测测不同参数 Qwen2.5 对 "2.9 和 2.11 比大小" 的回答,有惊喜 😈

参考资料
[1]

Qwen2.5: https://github.com/QwenLM/Qwen2.5

[2]

HF: https://huggingface.co/Qwen

[3]

ModelScope: https://modelscope.cn/organization/qwen

[4]

国内体验地址: https://modelscope.cn/studios/Qwen/Qwen2.5/

[5]

国外体验地址: https://huggingface.co/spaces/Qwen/Qwen2.5

[6]

官方技术报告: https://arxiv.org/pdf/2412.15115



往期 · 推荐

回顾OpenAI系列发布会,对未来 AI 行业走向存在哪些潜在影响

HF Weekly01: Qwen2.5 tech report领衔

o3发布,OpenAI提出全新对齐范式,通过SFT和RL直接教会LLM结合安全策略进行CoT复杂推理

OpenAI o3震撼觉醒,AGI今夜降临?血洗o1,破解陶哲轩最难数学题

🌠 番外:我们期待与读者共同探讨如何在 AI 的辅助下,更好地发挥人类的潜力,以及如何培养和维持那些 AI 难以取代的核心技能。通过深入分析和实践,我们可以更清晰地认识到 AI 的辅助作用,并在 AI 时代下找到人类的独特价值和发展空间。“机智流”公众号后台聊天框回复“cc”,加入机智流大模型交流群!

一起“点赞”三连👇

机智流
共赴 AI 时代浪潮~
 最新文章