SmartFlowAI
点击上方蓝字关注我们
编辑:北辰
年底了,继 OpenAI 连续 12 天的直播后,阿里的 Qwen 团队也在 20 号推出了其最新的 Qwen2.5[1] 大模型系列技术报告,该系列在预训练和后训练阶段进行了全面升级,并推出了多种模型配置,展示了卓越的性能和广泛的应用潜力。本文将和大家一起来解读Qwen2.5 的官方技术报告[6]👇🏻。
全文约 2500 字,预计阅读时间 7 分钟
关键词:Qwen2.5、大型语言模型、预训练、后训练、专家混合、模型性能、开源模型
通义千问团队已经在HF[2]和ModelScope[3]上更新了最新的模型文件,并提供了相应的线上 Demo 供大家体验最新的 Qwen 2.5 的功能。
国内体验地址[4] : https://modelscope.cn/studios/Qwen/Qwen2.5/
国外体验地址[5] : https://huggingface.co/spaces/Qwen/Qwen2.5
1 模型结构
Qwen2.5系列包括用于开源的密集模型 0.5B, 1.5B, 3B, 7B, 14B, 32B, and 72 和对应的量化模型。采用基于Transformer的解码器架构,包含分组查询注意力(GQA)、SwiGLU 激活函数、旋转位置嵌入(RoPE)、QKV 偏差和 RMSNorm 等组件。
Models | Layers | Heads (Q/KV) | Tie Embedding | Context / Generation Length | License |
---|---|---|---|---|---|
0.5B | 24 | 14/2 | Yes | 32K / 8K | Apache 2.0 |
1.5B | 28 | 12/2 | Yes | 32K / 8K | Apache 2.0 |
3B | 36 | 16/2 | Yes | 32K/ 8K | Qwen Research |
7B | 28 | 28/4 | No | 128K / 8K | Apache 2.0 |
14B | 48 | 40/8 | No | 128K / 8K | Apache 2.0 |
32B | 64 | 40/8 | No | 128K/ 8K | Apache 2.0 |
72B | 80 | 64/8 | No | 128K/ 8K | Qwen |
还有用于API服务的MoE模型(Qwen2.5-Turbo 和 Qwen2.5-Plus)。通过将标准前馈网络层替换为专门的 MoE 层来构建,实现了模型性能的显著提升。
Qwen2.5 的分词器采用字节级字节对编码(BBPE),词汇量为151,643个常规词元,控制词元从3个扩展到22个,增强了模型的一致性并减少了潜在的兼容性问题。
2 预训练阶段的提升
数据规模大幅提升,从7万亿 Tokens 扩展至18万亿 Tokens。
在数据准备方面, Qwen2.5 通过改进数据过滤(使用 Qwen2-Instruct 模型作为数据质量评估和过滤器)、整合数学和代码数据(来自 Qwen2.5-Math 和 Qwen2.5-Coder)、生成高质量合成数据并严格过滤,以及优化数据混合(对不同领域内容进行采样平衡),构建了更大、更高质量的预训练数据集。
超参数选择基于预训练数据的缩放定律,通过实验确定不同规模的密集模型和 MoE 模型的关键训练参数(如批量大小和学习率),并利用这些定律预测和比较 MoE 模型与密集模型的性能。
长上下文预训练采用两阶段方法,除 Qwen2.5-Turbo 外,其他模型在最终预训练阶段将上下文长度从 4,096 扩展到 32,768 个词元,并增加 RoPE 的基频。Qwen2.5-Turbo 则采用渐进式上下文长度扩展策略,并结合 YARN 和 Dual Chunk Attention 技术,使其能够处理长达100万个词元的上下文。
3 后训练阶段的改进
监督微调利用超过100万条高质量样本解决了先前模型在长序列生成、数学问题解决、编码、指令遵循、结构化数据理解、逻辑推理、跨语言迁移和稳健系统指令等方面的局限性。通过开发长响应数据集、引入数学思维链数据、整合多语言指令调优数据、实施严格的代码验证框架、构建结构化理解数据集、增强逻辑推理能力、促进跨语言转移、构建多样化系统提示和进行响应过滤等措施,提升了模型在这些方面的能力。
多阶段强化学习:
离线强化学习(DPO) 通过利用 SFT 模型重新采样响应,结合人工和自动审查过程,构建训练数据对,重点提升模型在推理、事实性和指令遵循等方面的能力。 在线强化学习(GRPO) 通过遵循严格的标签标准,利用多样化的查询集和响应采样,训练模型以生成高质量、符合伦理和用户需求的响应。
长上下文微调通过在 SFT 阶段采用两阶段方法(先使用短指令微调,再结合长短指令)和在 RL 阶段专注于短指令训练,扩展了 Qwen2.5-Turbo 的上下文长度,同时提升了其在长上下文任务中的指令遵循能力。
4 测试
评估涵盖了常用的公开基准和内部数据集,包括自然语言理解、编码、数学、科学知识、推理和多语言能力等方面的任务。评估过程中通过n-gram匹配排除潜在污染数据,确保测试数据的独立性。
基础模型:
对基础模型(如Qwen2.5-72B、Qwen2.5-14B、Qwen2.5-7B、Qwen2.5-0.5B等)与其他领先模型(如Llama-3-70B、Llama-3-405B、Mistral-7B等)在不同参数规模下进行了全面比较.
与同尺度开源模型相比,Qwen 2.5 系列模型在语言理解、推理、数学、编码、人类偏好对齐等领域展现顶级性能。
在小尺度(~7B)和微小(≤3B)的大模型中更是在多数测试中取得了 SOTA 成绩。
其他测试:
开源旗舰指令调优模型 Qwen2.5-72B-Instruct,表现超越多数开源和专有模型。与 Llama-3-405B-Instruct 相比(参数规模约为其五倍),性能仍具有竞争力。
Qwen2.5-Turbo 和 Qwen2.5-Plus,在性能上媲美 GPT-4o 系列,同时显著降低成本。
多语言能力测试中,Qwen2.5 在各参数尺度的开源模型中均取得最优。
在其他测试,如奖励模型评估(使用 Reward Bench、RMB、PPE 和内部收集的中文人类偏好基准等)、长上下文能力评估(利用RULER、LV-Eval和Longbench-Chat基准)和速度测试 中,Qwen2.5 也全面展示了其在不同方面的能力表现和优势。
💡小编:大家可以测测不同参数 Qwen2.5 对 "2.9 和 2.11 比大小" 的回答,有惊喜 😈
Qwen2.5: https://github.com/QwenLM/Qwen2.5
[2]HF: https://huggingface.co/Qwen
[3]ModelScope: https://modelscope.cn/organization/qwen
[4]国内体验地址: https://modelscope.cn/studios/Qwen/Qwen2.5/
[5]国外体验地址: https://huggingface.co/spaces/Qwen/Qwen2.5
[6]官方技术报告: https://arxiv.org/pdf/2412.15115
往期 · 推荐
🌠 番外:我们期待与读者共同探讨如何在 AI 的辅助下,更好地发挥人类的潜力,以及如何培养和维持那些 AI 难以取代的核心技能。通过深入分析和实践,我们可以更清晰地认识到 AI 的辅助作用,并在 AI 时代下找到人类的独特价值和发展空间。“机智流”公众号后台聊天框回复“cc”,加入机智流大模型交流群!
一起“点赞”三连👇