这两天Qwen团队发布"Qwen2.5 Technical Report" 的技术报告,下面对该报告做了简单的概括,希望让大家有个快速了解。
链接:https://arxiv.org/pdf/2412.15115
摘要
Qwen2.5 是一系列大型语言模型(LLMs),旨在满足多样化的需求。与之前的版本相比,Qwen 2.5 在预训练和后训练阶段都得到了显著改进。预训练数据集从之前的7万亿个token扩展到18万亿个token,这为模型提供了坚实的常识、专家知识和推理能力基础。后训练阶段包括超过100万个样本的复杂监督微调和多阶段强化学习,显著提升了模型的人类偏好对齐、长文本生成、结构数据分析和指令遵循能力。
Qwen2.5 系列特点
丰富的配置:提供从0.5B到72B参数的不同大小的基础模型和指令调整模型,以及量化版本。
性能表现:在多个基准测试中表现出色,特别是在语言理解、推理、数学、编码和人类偏好对齐等方面。
模型规模:Qwen2.5-72B-Instruct 在性能上与比它大5倍的 Llama-3-405B-Instruct 竞争。
架构与分词器
Qwen2.5 系列包括基于 Transformer 的密集模型和用于 API 服务的 MoE(专家混合)模型。模型架构包括分组查询注意力、SwiGLU 激活函数、旋转位置嵌入等。分词器使用字节级别的字节对编码(BBPE),词汇量为151,643个常规token。
预训练
预训练数据质量得到显著提升,包括更好的数据过滤、数学和代码数据的整合、合成数据的生成和数据混合。(主要是在折腾数据)。预训练数据从7万亿token增加到18万亿token。
长上下文的预训练,从RoPE的base 从 10,000 到 1,000,000,上下文长度从4,096 到 32,768。为了支持长上文的性能,使用了YARN (Peng et al., 2023) and Dual Chunk Attention (DCA, An et al., 2024),使得Qwen2.5-Turbo能处理1 million tokens 其他模型能处理达 131,072 tokens。
后训练
Qwen 2.5 在后训练设计上引入了两个重要进展:扩展的监督微调数据覆盖(主要是折腾数据)和两阶段强化学习(先离线DPO再在线GRPO)。
评估
Qwen2.5 系列模型在多个基准测试中进行了评估,包括自然语言理解、编程、数学和多语言能力。Qwen2.5-72B 和 Qwen2.5-Plus 在多个任务中表现出色,与领先的开放权重模型竞争。
base model
instruct model
on our in-house Chinese automatic evaluation
长文本
结论
Qwen2.5 代表了大型语言模型的重大进步,提供了多种配置,并且在多个基准测试中表现出色。Qwen2.5 的强大性能、灵活架构和广泛可用性使其成为学术研究和工业应用的宝贵资源。