国产之光 Qwen2.5:一场开源大模型的盛宴

文摘   2024-09-19 15:33   美国  

  • • 阿里云开源了史上最大规模的大语言模型 Qwen2.5 系列,包括 Qwen2.5、Qwen2.5-Coder 和 Qwen2.5-Math,参数规模从 0.5B 到 72B 不等。

  • • Qwen2.5 系列模型在预训练数据规模、知识、编码、数学能力、人类偏好等方面均有显著提升,其中 Qwen2.5-72B 达到顶级性能。

  • • Qwen2.5-Coder 擅长代码任务,成为优秀的个人编码助手。

  • • Qwen2.5-Math 提升数学推理能力,支持中英文双语,并融合了多种推理方法。

  • • Qwen 团队致力于开发强大的基础模型,并积极与开源社区合作,共同推动人工智能领域的创新和发展。

国产大模型 Qwen2.5 震撼来袭,开源盛宴邀您共赏!

还记得三个月前,阿里云发布的 Qwen2 大语言模型吗?它在开源社区掀起了一阵热潮,让无数开发者为之兴奋。现在,Qwen 家族迎来了一位重磅新成员:Qwen2.5!它不仅带来了性能的全面提升,还带来了规模空前的开源阵容,堪称史上最大规模的开源发布!Qwen2.5 的开源,不仅为开发者提供了强大的工具,更彰显了中国在人工智能领域的雄厚实力,是当之无愧的国产之光

Qwen2.5:全方位升级

Qwen2.5 系列模型在多个方面进行了全面升级,包括:

1. 全面开源,更多选择

Qwen2.5 系列包括 Qwen2.5Qwen2.5-Coder 和 Qwen2.5-Math,参数规模从 0.5B 到 72B 不等,其中包括新增的 Qwen2.5-14B 和 Qwen2.5-32B 以及移动端模型 Qwen2.5-3B。所有模型均与同级别开源模型相比都极具竞争力。

考虑到用户对 10-30B 范围内的模型用于生产以及 3B 模型用于移动应用有着浓厚的兴趣,Qwen2.5 除了继续开源与 Qwen2 相同尺寸的 0.5/1.5/7/72B 四个模型外,还新增了两个中等规模的经济高效模型 Qwen2.5-14B 和 Qwen2.5-32B,以及一个名为 Qwen2.5-3B 的移动端模型。所有模型与同级别的开源模型相比都极具竞争力。例如,在我们的全面评估中,Qwen2.5-32B 的性能优于 Qwen2-72B,Qwen2.5-14B 的性能优于 Qwen2-57B-A14B。

2. 更大规模、更高质量的预训练数据集

Qwen2.5 的预训练数据集规模从 7 万亿个标记扩展到最多 18 万亿个标记,这意味着模型学习了更多知识,拥有更强的能力。与 Qwen2 系列相比,Qwen2.5 的预训练数据集的规模得到了显著扩展,涵盖了更广泛、更深入的知识领域,为模型性能的提升奠定了坚实的基础。预训练数据集的规模从 7 万亿个标记扩展到最多 18 万亿个标记。

3. 知识、编码和数学能力全面提升

Qwen2.5 在 MMLU、HumanEval 和 MATH 等多个基准测试中均取得了显著进步,知识、编码和数学能力均得到大幅提升。这意味着它能够更好地理解和生成自然语言,编写高质量的代码,以及解决复杂的数学问题。

3.1 知识增强

在 MMLU 基准测试中,与 Qwen2-7/72B 相比,Qwen2.5-7/72B 的得分从 70.3 提高到 74.2,从 84.2 提高到 86.1。同时,Qwen2.5 在 GPQA/MMLU-Pro/MMLU-redux/ARC-c 基准测试中也有显著改进,这意味着 Qwen2.5 在理解和应用知识方面有了显著的进步。Qwen2.5 获得了更多的知识。

3.2 编码增强

得益于 Qwen2.5-Coder 的技术突破,Qwen2.5 的编码能力得到了极大提高。Qwen2.5-72B-Instruct 在 LiveCodeBench (2305-2409)、MultiPL-E 和 MBPP 上分别获得了 55.575.1 和 88.2 的分数,优于 Qwen2-72B-Instruct 的 32.2、69.2 和 80.2。得益于 Qwen2.5-Coder 的技术突破,Qwen2.5 的编码能力得到了极大提高。

3.3 数学增强

在集成了 Qwen2-math 的技术之后,Qwen2.5 的数学能力也得到了快速提高。在 MATH 基准测试中,Qwen2.5-7B/72B-Instruct 的得分从 Qwen2-7B/72B-Instruct 的 52.9/69.0 提高到 75.5/83.1。在集成了 Qwen2-math 的技术之后,Qwen2.5 的数学能力也得到了快速提高。

4. 更符合人类偏好

Qwen2.5 生成的响应更符合人类偏好,在 Arena-Hard 和 MT-Bench 等评估中获得了更高的分数。这意味着 Qwen2.5 能够更好地理解人类的意图和需求,并生成更自然、更流畅、更符合人类习惯的文本。Qwen2.5 能够生成更符合人类偏好的响应。

5. 核心功能增强

Qwen2.5 在指令遵循、长文本生成、结构化数据理解和生成等方面均取得了显著进步,更加灵活易用。例如,Qwen2.5 支持生成多达 8K 标记的长文本,可以更好地处理长篇文档和对话;它还显著提高了对结构化数据的理解能力,可以更准确地提取和分析表格、图表等信息。Qwen2.5 在指令遵循、生成长文本(从 1k 增加到超过 8K 标记)、理解结构化数据(例如表格)和生成结构化输出(尤其是 JSON)方面取得了显著进步。此外,Qwen2.5 模型通常对系统提示的多样性更具弹性,增强了聊天机器人的角色扮演实现和条件设置。

Qwen2.5-72B:顶级性能,傲视群雄

Qwen2.5-72B 是系列中最大的开源模型,它在各项基准测试中表现出顶级性能,甚至在某些方面超过了更大的模型 Llama-3-405B,且全面超越了前身 Qwen2-72B。为了展示 Qwen2.5 的功能,我们将我们最大的开源模型 Qwen2.5-72B(一个 72B 参数的密集仅解码器语言模型)与领先的开源模型(如 Llama-3.1-70B 和 Mistral-Large-V2)进行了对比。我们提供了来自各种基准测试中经过指令微调的版本的综合结果,评估了模型能力和人类偏好。

除了经过指令微调的语言模型之外,我们还发现我们的旗舰开源模型 Qwen2.5-72B 的基础语言模型,即使与 Llama-3-405B 等更大的模型相比,也达到了顶级性能。

此外,我们将基于 API 的模型 Qwen-Plus 的最新版本与领先的专有和开源模型(包括 GPT4-o、Claude-3.5-Sonnet、Llama-3.1-405B 和 DeepSeek-V2.5)进行了对比。这种比较展示了 Qwen-Plus 在当前大型语言模型领域中的竞争地位。我们发现,Qwen-Plus 的性能明显优于 DeepSeek-V2.5,并且在某些方面表现出与 Llama-3.1-405B 相当的性能,但在某些方面仍不及 GPT4-o 和 Claude-3.5-Sonnet。此基准测试不仅突出了 Qwen-Plus 的优势,还指出了未来改进的方向,这加强了我们对大型语言模型领域持续改进和创新的承诺。

Qwen2.5 的一个重大更新是重新引入了我们的 14B 和 32B 模型,Qwen2.5-14B 和 Qwen2.5-32B。这些模型在各种任务中都优于同等或更大尺寸的基准模型,如 Phi-3.5-MoE-Instruct 和 Gemma2-27B-IT。它们在模型尺寸和能力之间实现了最佳平衡,提供的性能可与某些更大的模型相媲美甚至超过它们。此外,我们的基于 API 的模型 Qwen-Turbo 与这两个开源模型相比,提供了极具竞争力的性能,同时还提供了经济高效且快速的服 务。

近年来,人们明显转向了小型语言模型 (SLM)。尽管 SLM 的性能历来落后于大型语言模型 (LLM),但性能差距正在迅速缩小。值得注意的是,即使是参数只有 30 亿的模型,现在也能提供极具竞争力的结果。附图说明了一个重要的趋势:在 MMLU 中得分超过 65 的较新模型的尺寸越来越小,这突出了语言模型中知识密度的加速增长。值得注意的是,我们的 Qwen2.5-3B 就是一个很好的例子,它仅使用约 30 亿个参数就实现了令人印象深刻的性能,与其前身相比,它展示了其效率和能力。

Qwen2.5-Coder:代码专家的得力助手

在今年 4 月初,阿里云推出了 CodeQwen1.5,在开源社区引起了极大的关注。经过不断的努力,阿里云发布了新一代开源编码模型 Qwen2.5-Coder,并将 CodeQwen 正式更名为 Qwen-Coder。“Coder”更加人性化和敏捷,反映了它未来将成为真正的编码伙伴的愿景。Qwen2.5-Coder 是 Qwen2.5 系列的一部分,提供三种模型尺寸:1.5B、7B 和 32B 版本(即将推出)。

Qwen2.5-Coder 经过 5.5 万亿个代码相关标记数据的训练,即使是较小规模的模型也能在代码生成、代码补全等任务中提供与更大语言模型相媲美的性能,成为优秀的个人编码助手。

此次更新主要集中在两个方面的改进:扩大代码训练数据和增强编码能力,同时保持在数学和一般任务等其他核心领域的强大性能

  • • 编写更多代码:Qwen2.5-Coder 建立在强大的 Qwen2.5 基础之上,并在更大规模的代码数据上继续训练,包括源代码、文本-代码基础数据和合成数据,总计 5.5 万亿个标记。这带来了代码相关任务的显著改进。

  • • 学习更多知识:在增强编码能力的同时,目标是保留基础模型在数学和一般能力方面的优势。因此,Qwen2.5-Coder 纳入了更多关于数学和一般能力的数据,为代码代理等实际应用提供了全面的基础。

Qwen2.5-Coder: 基础模型

Qwen2.5-Coder 支持多达 128K 个标记的上下文,涵盖 92 种编程语言,并且在各种代码相关评估任务(包括代码生成、多编程代码生成、代码补全和代码修复)中取得了显著的改进。值得注意的是,开源的 7B 版本的 Qwen2.5-Coder 甚至在性能上超过了 DeepSeek-Coder-V2-Lite 和 Codestral 等更大的模型,使其成为目前最强大的基础代码模型之一。除了代码任务之外,Qwen2.5-Coder 在 GSM8K 和 Math 等评估中也表现出具有竞争力的数学能力。对于一般任务,在 MMLU 和 ARC 上的评估表明,Qwen2.5-Coder 保留了 Qwen2.5 的一般能力性能。

Qwen2.5-Coder-Instruct: 指令微调模型

在 Qwen2.5-Coder 的基础上,使用指令数据对其进行了微调,创建了 Qwen2.5-Coder-Instruct。这个经过指令微调的模型不仅进一步提高了任务性能,而且在各种基准测试中表现出卓越的泛化能力。

Qwen2.5-Coder-Instruct 在以下几个关键领域表现出色:

  1. 1. 出色的多编程专家:扩展了多语言评估,使用 McEval 涵盖了 40 多种编程语言。结果表明,Qwen2.5-Coder-Instruct 在许多语言(包括 niche 语言)中都表现出色。

  2. 2. 代码推理:代码推理与一般推理能力密切相关。使用 CRUXEval 作为基准测试,结果表明 Qwen2.5-Coder-Instruct 在代码推理任务中表现出色。有趣的是,随着代码推理能力的提高,模型遵循复杂指令的能力也得到了提高,这鼓励我们进一步探索代码如何增强一般技能。

  3. 3. 数学推理:数学和代码经常被一起讨论:数学是代码的基础,代码是数学的关键工具。Qwen2.5-Coder-Instruct 在代码和数学任务中都表现出色,被证明是一名“理科生”。

    模型MathGSM8KGaoKao2023enOlympiadBenchCollegeMathAIME24
    DeepSeek-Coder-V2-Lite-Instruct61.087.656.126.439.86.7
    Qwen2.5-Coder-7B-Instruct66.886.760.529.843.510.0
  4. 4. 基本功能:还评估了其一般功能,结果表明,Qwen2.5-Coder-Instruct 在一般能力方面保持了 Qwen2.5 的优势。

    模型AMC23MMLUMMLU-ProIFevalCEvalGPQA
    DeepSeek-Coder-V2-Lite-Instruct40.442.560.638.660.127.6
    Qwen2.5-Coder-7B-Instruct42.545.668.758.661.435.6

Qwen2.5-Coder 的未来

Qwen 团队正在准备 32B 版本的 Qwen2.5-Coder,目标是挑战专有模型。此外,团队还在探索强大的以代码为中心的推理模型,以突破代码智能的边界。

Qwen2.5-Math:数学推理能力再升级

一个月前,阿里云发布了 Qwen 家族的首个数学大语言模型系列 - Qwen2-Math。现在,阿里云对其进行了升级,并开源了 Qwen2.5-Math 系列,包括基础模型 Qwen2.5-Math-1.5B/7B/72B,经过指令微调的模型 Qwen2.5-Math-1.5B/7B/72B-Instruct,以及数学奖励模型 Qwen2.5-Math-RM-72B

🚨 Qwen2.5-Math 主要支持通过 CoT 和 TIR 解决英语和中文的数学问题。我们不建议将这一系列模型用于其他任务。

与仅支持使用思维链 (CoT) 解决英语数学问题的 Qwen2-Math 系列不同,Qwen2.5-Math 系列扩展到支持使用 CoT 和工具集成推理 (TIR) 来解决中文和英语的数学问题。与使用 CoT 的 Qwen2-Math 系列模型相比,Qwen2.5-Math 系列模型在中文和英语数学基准测试中取得了显著的性能提升。

虽然 CoT 在增强 LLM 的推理能力方面起着至关重要的作用,但它在实现计算精度和处理复杂的数学或算法推理任务(如求解二次方程的根或计算矩阵的特征值)方面面临着挑战。TIR 可以进一步提高模型在精确计算、符号操作和算法操作方面的熟练程度。Qwen2.5-Math-1.5B/7B/72B-Instruct 在使用 TIR 的 MATH 基准测试中分别达到了 79.7、85.3 和 87.8 的分数。

Qwen2.5-Math:基础模型

上图显示了 Qwen2-Math 和 Qwen2.5-Math 的总体专业化流程。在训练了 Qwen2-Math 基础模型之后,我们通过三个主要途径将其升级到 Qwen2.5-Math 模型:

  1. 1. 利用 Qwen2-Math-72B-Instruct 模型合成额外的高质量数学预训练数据。

  2. 2. 通过多个召回周期,从网络资源、书籍和代码中聚合更多高质量的数学数据,特别是中文数据。

  3. 3. 利用 Qwen2.5 系列基础模型进行参数初始化,该模型显示出更强大的语言理解、代码生成和文本推理能力。

最终,我们构建了 Qwen Math Corpus v2 用于 Qwen2.5-Math-1.5B/7B/72B 的预训练,保持 4K 的上下文长度。与用于 Qwen2-Math 训练的 Qwen Math Corpus v1 相比,Qwen Math Corpus v2 的总标记数从 700B 增加到超过 1T。

我们在三个广泛使用的英语数学基准测试 GSM8K、Math 和 MMLU-STEM 上评估了我们的 Qwen2.5-Math 基础模型。此外,我们还评估了三个中文数学基准测试 CMATH、高考数学完形填空和高考数学问答。所有评估都使用少样本思维链提示进行测试。

与 Qwen2-Math-1.5B/7B/72B 相比,Qwen2.5-Math-1.5B/7B/72B 在所有基准测试中都取得了显著的改进。例如,Qwen2.5-Math-1.5B/7B/72B 在 MATH 上获得了 5.4、5.0、6.3 分的提升,在高考数学问答上获得了 3.4、12.2、19.8 分的提升。

Qwen2.5-Math-Instruct: 指令微调模型

与 Qwen2-Math-Instruct 类似,我们基于 Qwen2.5-Math-72B 训练了一个特定于数学的奖励模型 Qwen2.5-Math-RM-72B。该 RM 用于通过拒绝采样构建 SFT 数据,也用于 SFT 之后的强化学习与群体相对策略优化 (GRPO)。

在 Qwen2.5-Math-Instruct 的开发过程中,使用 Qwen2-Math-Instruct 模型和 Qwen2.5-Math-RM-72B 进行了额外的迭代,以在拒绝采样期间进一步提高响应的质量。

与 Qwen2-Math 的后训练相比,我们进一步引入了中文和英文的 TIR 数据和 SFT 数据用于 Qwen2.5 的后训练。

我们在英语和中文的数学基准测试中评估了 Qwen2.5-Math-Instruct。除了 GSM8K 和 Math 等广泛使用的基准测试之外,我们还纳入了更多更具挑战性的考试,以全面检验 Qwen2.5-Math-Instruct 的能力,例如 OlympiadBench、CollegeMath、高考、AIME2024 和 AMC2023。对于中文数学基准测试,我们使用 CMATH、高考(中国高考 2024)和初中 24(中国中考 2024)。

我们在零样本设置中报告了所有基准测试的贪婪、Maj@8 和 RM@8 性能,除了多项选择基准测试(包括 MMLU STEM 以及高考和初中 24 中的多项选择题)使用 5 样本设置。

Qwen2.5-Math-72B-Instruct 模型在英语和中文方面分别比 Qwen2-Math-72B-Instruct 模型平均高出 4.4 分和 6.1 分,确立了其作为目前最好的开源数学模型的地位。

旗舰模型 Qwen2.5-Math-72B-Instruct 的性能明显优于开源模型和领先的闭源模型(例如 GPT-4o、Gemini Math-Specialized 1.5 Pro)。在 RM@8 的 TIR 设置下,在 MATH 上获得了 92.9 的高分。

在 72B 模型合成的预训练和监督微调数据的帮助下,Qwen2.5-Math-7B-Instruct 的性能超过了 Qwen2-Math-Instruct 72B。在 CoT 和 TIR 设置下,它分别获得了 83.6 和 85.3 的 MATH 分数。

即使是我们最小的 1.5B 模型,在利用 Python 解释器时也能获得大约 80 的 MATH 分数,超过了该领域目前的大多数模型。

在 AIME 2024 和 AMC 2023 等更复杂的数学竞赛评估中,Qwen2.5-Math-Instruct 在各种设置(包括 Greedy、Maj@64、RM@64 和 RM@256)中也表现良好。

在 Qwen2.5-Math-RM-72B 的支持下,Qwen2.5-Math-1.5B-Instruct 使用 CoT 模式的 RM@256 成功解决了 AMC 2023 中 40 道题中的 29 道。

此外,Qwen2.5-Math-72B-Instruct 在 TIR 模式下几乎获得了满分,解决了几乎所有问题。

在难度极高的 AIME 2024 基准测试中,Claude3 Opus、GPT-4 Turbo 和 Gemini 1.5 Pro 仅成功解决了 30 道题中的 1 或 2 道。

相比之下,Qwen2.5-Math-72B-Instruct 在 Greedy 解码 CoT 模式下解决了 9 道题,在 TIR 模式下解决了 12 道题。在 RM 的帮助下,Qwen2.5-Math-7B-Instruct 甚至可以解决多达 21 道题,进一步证明了 Qwen2.5-Math-Instruct 出色的数学问题解决能力。

Qwen2.5-Math 去污染

去污染对于确保模型性能评估的无偏性至关重要。按照之前的工作 Qwen2,使用 13-gram 匹配来排除可能被污染的训练样本。为了提高匹配过程的准确性,执行文本规范化,删除不相关的标点符号和符号。

为了进一步减少误报,特别是对于常见的数学表达式,我们引入了一个额外的标准:对于被认为是被污染的样本,最长公共子序列的比率必须超过 0.6。

对于预训练数据,根据 GSM8K 和 MATH 等数据集过滤掉可能被污染的样本。在处理后训练数据(包括 SFT 数据、RM 训练数据和 RL 查询集)时,排除所有报告的评估数据集中任何可能被污染的问题或解决方案。这些评估数据集包括 GSM8K、MATH、Minerva Math、Gaokao 2023 En、Olympiad Bench、College Math、MMLU STEM、高考、CMATH、CN Middle School 24、AIME 24 和 AMC 23。

在分析被污染的样本时,我们发现一些现有的训练数据集(例如 MATH 训练数据集)包含大量问题,这些问题与测试数据集中发现的问题共享高度相似的概念或结构。虽然这些变体不是完全重复的,但它们可能会损害我们评估的完整性。因此,我们继续从训练语料库中排除此类样本。

Qwen2.5-Math 演示

阿里云在 Qwen-Agent 中开发了一个支持 TIR 模式的演示,它允许在本地运行代码以体验 Qwen2.5-Math 的工具集成推理能力。

此外,阿里云在 Huggingface 和 Modelscope 中提供了一个多模态数学演示。该 WebUI 基于用于 OCR 的 Qwen2-VL 和用于数学推理的 Qwen2-Math。您可以输入数学和算术问题的图像、文本或草图。

除了大型语言模型的出色表现,Qwen2.5-3B 等小型语言模型的性能也令人瞩目,它们参数规模小但知识密度高,在资源受限环境下展现出巨大的应用潜力。

Qwen2.5-Coder 不仅编码能力出色,还展现出更强的遵循复杂指令的能力,这表明代码训练可以促进模型的通用推理能力,为开发更智能、更强大的 AI 模型提供了新的思路。

开源生态,携手共进

Qwen 团队致力于开发强大的基础模型,并积极与开源社区合作,共同推动人工智能领域的创新和发展。Qwen2.5 的开源,不仅为开发者提供了强大的工具,也为人工智能研究提供了新的平台,将加速人工智能技术的普及和应用。

Qwen 团队将继续探索更强大的模型,包括 32B 版本的 Qwen2.5-Coder 和更强大的代码推理模型,敬请期待!

相关链接

  • • Qwen2.5 博客: https://qwenlm.github.io/blog/qwen2.5/

  • • Qwen2.5-LLM 博客: https://qwenlm.github.io/blog/qwen2.5-llm/

  • • Qwen2.5-Coder 博客: https://qwenlm.github.io/blog/qwen2.5-coder/

子非AI
子非AI,亦解AI之妙:一站式AI情报站,助你开启智能未来之门。
 最新文章