超越极限！Qwen2.5 助力多领域智能应用

2024-09-20 13:42 中国香港

前沿科技速递🚀

近日，Qwen2.5 系列重磅发布，成为开源语言模型领域的又一里程碑。作为一款全新的通用语言模型，Qwen2.5 在支持自然语言处理的基础上，还在编程、数学等领域进行了专项优化。Qwen2.5 模型支持长文本生成，最高可达 128K tokens，并能处理多达 29 种语言的复杂任务，在跨语言文本处理、角色扮演、数据结构生成等场景中表现出色。无论是生成结构化输出（如 JSON），还是应对多样化的系统提示，Qwen2.5 都具备强大的适应性，为用户带来全方位的智能体验。

来源：传神社区

01 Qwen2.5模型家族：多领域覆盖，性能卓越

Qwen2.5 是一系列先进的开源语言模型，覆盖了多个参数规模，从 0.5B 到 72B ！这个系列不仅包含通用语言模型，还特别针对编程（Qwen2.5-Coder）和数学（Qwen2.5-Math）领域进行了优化。无论您是在进行自然语言处理、代码编写，还是复杂的数学推理任务，Qwen2.5 都能提供强大的支持。

以下是主要模型规模：

Qwen2.5：0.5B、1.5B、3B、7B、14B、32B、72B
Qwen2.5-Coder：1.5B、7B、32B
Qwen2.5-Math：1.5B、7B、72B

除了3B和72B的版本外，Qwen2.5所有的开源模型都采用了 Apache 2.0 许可证。您可以在相应的模型仓库中找到许可证文件。此外，本次通义千问团队还开源了性能不输于GPT-4o的 Qwen2-VL-72B。

02 模型亮点：更大、更强、更灵活！

更大的训练数据集：Qwen2.5语言模型在最新的超大规模数据集上进行了预训练，该数据集包含多达 18T tokens。与前代Qwen2相比，Qwen2.5 在知识广度与深度上取得了显著进步，特别是在 通用知识测试（MMLU：85+）、编程能力测试（HumanEval：85+） 和 数学能力测试（MATH：80+） 方面表现尤为突出。
更强的指令遵循能力：新模型在指令执行、长文本生成（超过 8K tokens）、理解结构化数据（如表格）以及生成结构化输出（特别是 JSON）方面表现大幅提升。Qwen2.5 还更加适应不同的系统提示（system prompts），从而增强了角色扮演和聊天机器人的条件设置功能。
强大的长文本支持：Qwen2.5 继承了Qwen2的强大长文本生成能力，支持最高 128K tokens 的输入，能生成最多 8K tokens 的内容，非常适合需要处理大量文本的任务。
多语言支持：Qwen2.5 支持包括中文、英文、法文、西班牙文、葡萄牙文、德文、意大利文、俄文、日文、韩文、越南文、泰文、阿拉伯文等 29 种以上语言，真正实现全球化语言处理能力。
专业领域的专家语言模型：在编程领域，Qwen2.5-Coder 经过 5.5T 编程数据的训练，即使较小的模型也能在编程评估测试中表现出媲美大型模型的能力。对于数学领域，Qwen2.5-Math 支持中文和英文，整合了 CoT（Chain of Thought）、PoT（Program of Thought） 和 TIR（Tool-Integrated Reasoning） 等多种推理方法，显著提升了推理能力。

03 性能提升：更多知识、更强指令执行

为了全面展示 Qwen2.5 的强大能力，Qwen团队选择了最大的开源模型 Qwen2.5-72B，这是一个拥有 720 亿参数的稠密 decoder-only 语言模型。Qwen团队将其与当前领先的开源模型，如 Llama-3.1-70B 和 Mistral-Large-V2 进行了多项基准测试。通过这些测试，Qwen团队展示了经过指令调优的版本在不同任务中的综合表现，全面评估了模型的能力以及用户对生成内容的偏好。

Qwen2.5-72B 性能表现

除了指令调优版本外，还发现，Qwen2.5-72B 的基础模型在多个任务中达到了顶级表现。即使与参数规模更大的模型（如 Llama-3-405B）相比，Qwen2.5-72B 的性能依然不落下风，证明了其强大的通用处理能力。

Qwen-Plus模型性能

Qwen团队还将基于 API 的模型 Qwen-Plus 与其他领先的专有和开源模型进行了比较，包括 GPT4-o、Claude-3.5-Sonnet、Llama-3.1-405B 和 DeepSeek-V2.5。结果显示，Qwen-Plus 在多个任务上表现出极具竞争力的实力，尤其是显著超越了 DeepSeek-V2.5，并在与 Llama-3.1-405B 的对比中展现了强大的竞争力。虽然在某些方面仍然稍逊于 GPT4-o 和 Claude-3.5-Sonnet，但这次基准测试进一步验证了 Qwen-Plus 的卓越性能，并为未来的改进提供了方向。

Qwen2.5-14B 和 Qwen2.5-32B 的更新

一个重要的更新是重新引入了Qwen2.5-14B 和 Qwen2.5-32B 模型，分别拥有 140 亿和 320 亿参数。这些模型在多个任务中表现出色，甚至超越了同等规模或更大规模的基线模型，如 Phi-3.5-MoE-Instruct 和 Gemma2-27B-IT。它们在性能与模型大小之间实现了理想平衡，不仅匹敌更大模型，甚至在部分任务上表现更优。此外，Qwen2.5-Turbo 基于 API 提供的模型，具有卓越的性能和高性价比，能够为用户提供快速响应的服务。

04 专为编程与数学优化的模型

Qwen2.5-Coder 是专门为编程任务设计的，它经过 5.5T 编程相关数据的训练，即使是小规模模型（如 7B）也能在编码评估基准中超越许多大型模型，成为您理想的编程助手，无论是调试代码、解答编程问题，还是提供代码建议，它都能应对自如。
Qwen2.5-Math 则专注于数学领域的复杂推理，支持中文和英文两种语言，并整合了多种推理方法，如 Chain of Thought（CoT）、Program of Thought（PoT） 和 Tool-Integrated Reasoning（TIR），能轻松应对复杂的数学问题。Qwen2.5-Math-72B-Instruct 的整体性能超越了 Qwen2-Math-72B-Instruct 和 GPT4-o，甚至是非常小的专业模型如 Qwen2.5-Math-1.5B-Instruct 也能在与大型语言模型的竞争中取得高度竞争力的表现。

04 模型下载

传神社区：

https://opencsg.com/models/Qwen/Qwen2.5-7B-Instruct

huggingface：

https://huggingface.co/Qwen/Qwen2.5-7B-Instruct

欢迎加入传神社区

•贡献代码，与我们一同共建更好的OpenCSG

•Github主页

欢迎🌟：https://github.com/OpenCSGs

•Huggingface主页

欢迎下载:https://huggingface.co/opencsg

•加入我们的用户交流群，分享经验

扫描上方二维码添加传神小助手

“ 关于OpenCSG

开放传神（OpenCSG）成立于2023年，是一家致力于大模型生态社区建设，汇集人工智能行业上下游企业链共同为大模型在垂直行业的应用提供解决方案和工具平台的公司。

关注OpenCSG

加入传神社区

http://mp.weixin.qq.com/s?__biz=MzkxNTYxMjU1Mw==&mid=2247486729&idx=1&sn=be1c5ecc3e885d74a78a272fe66dfb9c

传神社区

该账号是开放传神（OpenCSG）分享大模型的技术、见解、传神开放社区等方面的内容！

最新文章

OpenCoder：开源代码大模型，推动编程AI的未来

CodeSouler v1.11.0 版本更新

倒计时2天！大模型全生命周期管理与AI应用的全栈可观测性圆桌议题公布

CSGHub All-in-One Docker 快速部署

重磅揭秘！Auto CSGHub内测视频曝光 | 国产版 HuggingFace+ 引领智能化升级

算力补贴累计超亿元！模速空间“浓缩”上海大模型产业链

报名开始｜《大模型全生命周期管理与AI应用的全栈可观测性》上海站

微软OmniParser：一切皆文档，OCR驱动智能操作

从文本到动态视频：Allegro模型让创意更轻松

传神论文中心｜第30期人工智能领域论文推荐

超快速，高性能！Meta发布移动端MobileLLM

DataFlow v202410 版本更新一站式数据处理平台

OpenCSG与传神社区的创新瞬间

OpenCSG传神社区月度功能更新

突破语言壁垒：Cohere 发布多语言大模型 Aya Expanse

Stable Diffusion 3.5震撼发布：三大版本满足多层次AI图像生成需求

OpenCSG携手书生·浦语：InternLM2.5-20B-Chat 正式上线，共建AI未来新生态

课程升级、资源加码！万人共学的书生大模型实战营第4期正式起航！

无需依赖闭源模型！司南CompassJudger为AI评测带来新选择

CSGHub SaaS快速入门指南

Mochi 1视频生成模型亮相：动作流畅，开放源代码

课程升级、资源加码！万人共学的书生大模型实战营第4期正式起航！

传神论文中心｜第29期人工智能领域论文推荐

重磅升级 | OpenCSG开源中文版fineweb edu v2数据集

英伟达推出Nemotron-70B：强大开源语言模型，基准测试中全面领先！

直播预告｜未来视界：多模态AI的创新与挑战

苹果开源Depth Pro：0.3秒实现从2D图像到3D深度图的革命性突破

传神论文中心｜第28期人工智能领域论文推荐

2B参数搞定高质量视频！北大&快手携手打造Pyramid Flow

直播预告｜当A股疯涨挑战经典金额理论，大模型能否作为一个“理性投资人”？

CodeSouler v1.0.8 版本更新

传神论文中心｜第27期人工智能领域论文推荐

OpenCSG传神社区月度功能更新

OpenCSG开源数据集再次登顶HF数据榜

OpenCSG DataFlow：锻造大模型智慧的炼金术，开启数据集Agentic新范式

微软推出GRIN-MoE：开创专家路由新范式

Llama 3.2：轻量级设计与多模态能力

英伟达发布NVLM 1.0：屠榜多模态任务，纯文本性能逆势提升

高效、精准、智能：GOT-OCR2.0引领OCR 2.0时代

传神论文中心｜第26期人工智能领域论文推荐

超越极限！Qwen2.5 助力多领域智能应用

年度巨献 | OpenCSG开源最大中文合成数据集Chinese Cosmopedia

CSGHub开源版本v0.9.0更新

传神论文中心｜第25期人工智能领域论文推荐

Mistral AI再创新高，Pixtral 12B多模态模型强势来袭

CodeSouler v1.0.7 版本更新

重磅发布！DeepSeek-V2.5：融合通用与代码能力的全新开源模型

小而强大！零一万物 Yi-Coder 模型震撼发布！

国产“小钢炮”MiniCPM3-4B：小参数，大能量！

国内独家首发 | OpenCSG开源中文版fineweb edu数据集

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉