Qwen2.5技术报告解读

科技   2024-12-27 00:02   吉林  


MLNLP社区是国内外知名的机器学习与自然语言处理社区,受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。
社区的愿景是促进国内外自然语言处理,机器学习学术界、产业界和广大爱好者之间的交流和进步,特别是初学者同学们的进步。
    转载自 | 包包算法笔记

这两天Qwen团队发布"Qwen2.5 Technical Report" 的技术报告,下面对该报告做了简单的概括,希望让大家有个快速了解。

链接:https://arxiv.org/pdf/2412.15115

摘要

Qwen2.5 是一系列大型语言模型(LLMs),旨在满足多样化的需求。与之前的版本相比,Qwen 2.5 在预训练和后训练阶段都得到了显著改进。预训练数据集从之前的7万亿个token扩展到18万亿个token,这为模型提供了坚实的常识、专家知识和推理能力基础。后训练阶段包括超过100万个样本的复杂监督微调和多阶段强化学习,显著提升了模型的人类偏好对齐、长文本生成、结构数据分析和指令遵循能力。

Qwen2.5 系列特点

  • 丰富的配置:提供从0.5B到72B参数的不同大小的基础模型和指令调整模型,以及量化版本。

  • 性能表现:在多个基准测试中表现出色,特别是在语言理解、推理、数学、编码和人类偏好对齐等方面。

  • 模型规模:Qwen2.5-72B-Instruct 在性能上与比它大5倍的 Llama-3-405B-Instruct 竞争。

架构与分词器

Qwen2.5 系列包括基于 Transformer 的密集模型和用于 API 服务的 MoE(专家混合)模型。模型架构包括分组查询注意力、SwiGLU 激活函数、旋转位置嵌入等。分词器使用字节级别的字节对编码(BBPE),词汇量为151,643个常规token。

预训练

预训练数据质量得到显著提升,包括更好的数据过滤、数学和代码数据的整合、合成数据的生成和数据混合。(主要是在折腾数据)。预训练数据从7万亿token增加到18万亿token。

长上下文的预训练,从RoPE的base 从 10,000 到 1,000,000,上下文长度从4,096 到 32,768。为了支持长上文的性能,使用了YARN (Peng et al., 2023) and Dual Chunk Attention (DCA, An et al., 2024),使得Qwen2.5-Turbo能处理1 million tokens 其他模型能处理达 131,072 tokens。

后训练

Qwen 2.5 在后训练设计上引入了两个重要进展:扩展的监督微调数据覆盖(主要是折腾数据)和两阶段强化学习(先离线DPO再在线GRPO)。

评估

Qwen2.5 系列模型在多个基准测试中进行了评估,包括自然语言理解、编程、数学和多语言能力。Qwen2.5-72B 和 Qwen2.5-Plus 在多个任务中表现出色,与领先的开放权重模型竞争。

base model

instruct model

on our in-house Chinese automatic evaluation

长文本

结论

Qwen2.5 代表了大型语言模型的重大进步,提供了多种配置,并且在多个基准测试中表现出色。Qwen2.5 的强大性能、灵活架构和广泛可用性使其成为学术研究和工业应用的宝贵资源。


技术交流群邀请函

△长按添加小助手

扫描二维码添加小助手微信

请备注:姓名-学校/公司-研究方向
(如:小张-哈工大-对话系统)
即可申请加入自然语言处理/Pytorch等技术交流群

关于我们

MLNLP 社区是由国内外机器学习与自然语言处理学者联合构建的民间学术社区,目前已经发展为国内外知名的机器学习与自然语言处理社区,旨在促进机器学习,自然语言处理学术界、产业界和广大爱好者之间的进步。
社区可以为相关从业者的深造、就业及研究等方面提供开放交流平台。欢迎大家关注和加入我们。

结论

机器学习算法与自然语言处理
关注AI前沿技术,助力AI学者进步
 最新文章