Qwen2.5最新技术报告解读!!

科技   2024-12-23 12:10   北京  

来源:包包算法笔记


这两天Qwen团队发布"Qwen2.5 Technical Report" 的技术报告,下面对该报告做了简单的概括,希望让大家有个快速了解。

链接:https://arxiv.org/pdf/2412.15115

摘要

Qwen2.5 是一系列大型语言模型(LLMs),旨在满足多样化的需求。与之前的版本相比,Qwen 2.5 在预训练后训练阶段都得到了显著改进。预训练数据集从之前的7万亿个token扩展到18万亿个token,这为模型提供了坚实的常识、专家知识和推理能力基础。后训练阶段包括超过100万个样本的复杂监督微调和多阶段强化学习,显著提升了模型的人类偏好对齐、长文本生成、结构数据分析和指令遵循能力。

Qwen2.5 系列特点

  • 丰富的配置:提供从0.5B到72B参数的不同大小的基础模型和指令调整模型,以及量化版本。
  • 性能表现:在多个基准测试中表现出色,特别是在语言理解、推理、数学、编码和人类偏好对齐等方面。
  • 模型规模:Qwen2.5-72B-Instruct 在性能上与比它大5倍的 Llama-3-405B-Instruct 竞争。

架构与分词器

Qwen2.5 系列包括基于 Transformer 的密集模型和用于 API 服务的 MoE(专家混合)模型。模型架构包括分组查询注意力、SwiGLU 激活函数、旋转位置嵌入等。分词器使用字节级别的字节对编码(BBPE),词汇量为151,643个常规token

预训练

预训练数据质量得到显著提升,包括更好的数据过滤、数学和代码数据的整合、合成数据的生成和数据混合。(主要是在折腾数据)。预训练数据从7万亿token增加到18万亿token

长上下文的预训练,从RoPE的base 从 10,000 到 1,000,000,上下文长度从4,096 到 32,768。为了支持长上文的性能,使用了YARN (Peng et al., 2023) and Dual Chunk Attention (DCA, An et al., 2024),使得Qwen2.5-Turbo能处理1 million tokens 其他模型能处理达 131,072 tokens。

后训练

Qwen 2.5 在后训练设计上引入了两个重要进展:扩展的监督微调数据覆盖(主要是折腾数据)和两阶段强化学习(先离线DPO再在线GRPO)。

评估

Qwen2.5 系列模型在多个基准测试中进行了评估,包括自然语言理解、编程、数学和多语言能力。Qwen2.5-72B 和 Qwen2.5-Plus 在多个任务中表现出色,与领先的开放权重模型竞争。

base model

instruct model

on our in-house Chinese automatic evaluation

长文本

结论

Qwen2.5 代表了大型语言模型的重大进步,提供了多种配置,并且在多个基准测试中表现出色。Qwen2.5 的强大性能、灵活架构和广泛可用性使其成为学术研究和工业应用的宝贵资源。

备注:进群,进入大模型技术群

id:duibai997,记得备注呦

你好,我是对白,硕士毕业于清华,大厂算法工程师,拿过8家大厂算法岗SSP offer

创业做过无人机、机器人和互联网+教育,保研清华后开始系统接触AI。

我每周至少更新一篇原创,分享AI算法、技术干货和职场感悟。方关注可加我私信交流点击蓝字查看我的算法学习之路

期待你关注我的公众号,一起交流与进步。

您的“点赞/在看/分享”是我坚持最大动力

坚持不易,卖萌打滚求鼓励 (ฅ>ω<*ฅ)

分享

收藏

点赞

在看


对白的算法屋
清华大学硕士,大厂算法工程师。写过书,创过业,做过产品,分享技术、快乐、财富与职场。
 最新文章