Qwen2.5最新技术报告解读！！

科技 2024-12-23 12:10 北京

来源：包包算法笔记

这两天Qwen团队发布"Qwen2.5 Technical Report" 的技术报告，下面对该报告做了简单的概括，希望让大家有个快速了解。

链接：https://arxiv.org/pdf/2412.15115

摘要

Qwen2.5 是一系列大型语言模型（LLMs），旨在满足多样化的需求。与之前的版本相比，Qwen 2.5 在预训练和后训练阶段都得到了显著改进。预训练数据集从之前的7万亿个token扩展到18万亿个token，这为模型提供了坚实的常识、专家知识和推理能力基础。后训练阶段包括超过100万个样本的复杂监督微调和多阶段强化学习，显著提升了模型的人类偏好对齐、长文本生成、结构数据分析和指令遵循能力。

Qwen2.5 系列特点

丰富的配置：提供从0.5B到72B参数的不同大小的基础模型和指令调整模型，以及量化版本。
性能表现：在多个基准测试中表现出色，特别是在语言理解、推理、数学、编码和人类偏好对齐等方面。
模型规模：Qwen2.5-72B-Instruct 在性能上与比它大5倍的 Llama-3-405B-Instruct 竞争。

架构与分词器

Qwen2.5 系列包括基于 Transformer 的密集模型和用于 API 服务的 MoE（专家混合）模型。模型架构包括分组查询注意力、SwiGLU 激活函数、旋转位置嵌入等。分词器使用字节级别的字节对编码（BBPE），词汇量为151,643个常规token。

预训练

预训练数据质量得到显著提升，包括更好的数据过滤、数学和代码数据的整合、合成数据的生成和数据混合。（主要是在折腾数据）。预训练数据从7万亿token增加到18万亿token。

长上下文的预训练，从RoPE的base 从 10,000 到 1,000,000，上下文长度从4,096 到 32,768。为了支持长上文的性能，使用了YARN (Peng et al., 2023) and Dual Chunk Attention (DCA, An et al., 2024)，使得Qwen2.5-Turbo能处理1 million tokens 其他模型能处理达 131,072 tokens。

后训练

Qwen 2.5 在后训练设计上引入了两个重要进展：扩展的监督微调数据覆盖（主要是折腾数据）和两阶段强化学习（先离线DPO再在线GRPO）。

评估

Qwen2.5 系列模型在多个基准测试中进行了评估，包括自然语言理解、编程、数学和多语言能力。Qwen2.5-72B 和 Qwen2.5-Plus 在多个任务中表现出色，与领先的开放权重模型竞争。

base model

instruct model

on our in-house Chinese automatic evaluation

长文本

结论

Qwen2.5 代表了大型语言模型的重大进步，提供了多种配置，并且在多个基准测试中表现出色。Qwen2.5 的强大性能、灵活架构和广泛可用性使其成为学术研究和工业应用的宝贵资源。

备注：进群，进入大模型技术群

id：duibai997，记得备注呦

你好，我是对白，硕士毕业于清华，大厂算法工程师，拿过8家大厂算法岗SSP offer

创业做过无人机、机器人和互联网+教育，保研清华后开始系统接触AI。

我每周至少更新一篇原创，分享AI算法、技术干货和职场感悟。下方关注可加我私信交流，点击蓝字查看我的算法学习之路。

期待你关注我的公众号，一起交流与进步。

您的“点赞/在看/分享”是我坚持最大动力

坚持不易，卖萌打滚求鼓励 (ฅ>ω<*ฅ)

在看

对白的算法屋

清华大学硕士，大厂算法工程师。写过书，创过业，做过产品，分享技术、快乐、财富与职场。

最新文章

时隔6年，谷歌BERT终于有替代品了！

老婆饼里没有老婆，RLHF里也没有真正的RL

计算DeepSeekV3训练的MFU

在字节干大模型，是一种怎样的体验?

DeepSeek-V3技术报告解读

Deepseek V3 预训练策略解读

对OpenAI o3模型的看法、思考与反思

一块kaggle金牌的冲击有多大？顺利拿下各大Offer

Qwen2.5最新技术报告解读！！

大模型幻觉消失术？阿里mRAG多模态新框架！

腾讯开源宇宙最强MoE大模型Hunyuan

LLaMA系列一直在假装开源...

姜萍造假实锤！阿里数赛出结果。。。

KAG开源了，知识增强掀翻RAG，性能翻倍

复现 OpenAI o1 的一小步：Steiner 开源模型解析

字节大模型搞推荐，有业务收益了

OpenAI-O1之下，我们技术该何去何从

VB-LoRA高效登顶！仅需0.4%参数量，极限超越LoRA！

万字长文梳理LLM+RLHF的脉络

Google DeepMind最新研究成果来了！模拟人类的思考

大模型算法岗，Kaggle金牌和CCF A一作哪个更有用？

OpenAI终于open了，开源多智能体框架Swarm~

谷歌科学家万字长文：《改变你职业生涯的一篇文章，我如何运用人工智能完成工作》

字节用大模型做推荐了！！

微调大模型前，重写SFT数据？

国产AI大模型登顶全球TOP 1！

现代LLM基本技术整理

红杉专访OpenAI O1团队全文记录

多模态大模型技术点总结

清华微软最新力作：用物理学革新Transformer注意力，精度暴涨30%！

诺尔贝物理学奖，为何授予Hinton？

和Boson李沐等大佬们进行了一场对话！

算法工程师修炼之路

30 天 52% 回报：GPT-4o 量化交易机器人

顶会卷到中学了！人大附中高中生入选NeurIPS

成人站 OnlyFans，42 名员工，创造 66 亿美元营收，超过所有 AI 公司

上交所P0故障

好好聊一聊做Pretrain的经验

山寨版 OpenAI o1 实验记录

突发！高通拟全盘收购 intel 。。。

OpenAI o1 self-play RL 技术路线推演

Qwen2.5感觉成了，热泪眼眶

大模型千卡训练-经验指北

聊一聊大模型六小虎生存现状

字节三面被问 RAG 原理了，要凉…

2024大模型面试八股（含100道答案）

2024年大模型Alignment偏好优化技术PPO,DPO, SimPO,KTO,Step-DPO, MCTS-DPO,SPO

浅谈Role Play：从当红炸子鸡到无人问津

关于 GPT5 训练失败的思考

Yann LeCun：建议学生不要在大模型方向工作？

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉