阿里云发布数学大模型 Qwen2-Math,性能超越 GPT-4o

文摘   2024-08-10 06:43   中国香港  

继 Google DeepMind 的 AI 系统在国际数学奥林匹克竞赛 (IMO) 中取得银牌水平的成绩后,阿里云也发布了全新的数学大模型 Qwen2-Math 系列,再次证明了 AI 在解决高级数学推理问题方面取得的巨大突破。 Qwen2-Math 不仅在解决数学问题方面表现出色,还能提供详细的解题步骤,为数学领域的 AI 应用开辟了新的可能性。

Google DeepMind:AI 征战数学奥赛,推理能力突破银牌!

Qwen2-Math 模型介绍

Qwen2-Math 系列模型是基于阿里云之前发布的 Qwen2 LLM 构建的,并针对数学问题进行了专门的优化。该系列模型包括基础模型和指令微调模型:

  • • Qwen2-Math: 基础模型使用 Qwen2-1.5B/7B/72B 初始化,并在精心设计的数学语料库上进行预训练。这个庞大的语料库包含大量高质量的数学网络文本、书籍、代码、考试题以及使用 Qwen2 合成的数学预训练数据,为模型提供了丰富的数学知识。

  • • Qwen2-Math-Instruct: 指令微调模型在基础模型之上,结合了数学特定的奖励模型和二进制信号进行指令微调,进一步提升了模型的数学推理能力。其中,Qwen2-Math-72B-Instruct 是旗舰模型,拥有 720 亿参数,并在多个数学基准测试中取得了领先的成绩。

优异的数学能力

Qwen2-Math-72B-Instruct 在一系列数学基准测试中表现出色,超越了 GPT-4o 和 Claude 3.5 等专有模型。这些测试涵盖了从小学到大学的各种数学题型,包括:

  • • GSM8K: 小学数学应用题数据集

  • • MATH: 高中数学数据集

  • • MMLU-STEM: 科学、技术、工程和数学多选题数据集

  • • OlympiadBench: 数学奥林匹克竞赛题数据集

  • • CollegeMath: 大学数学题数据集

  • • AIME24: 美国数学邀请赛题数据集

  • • AMC23: 美国数学竞赛题数据集

案例研究

为了更直观地展示 Qwen2-Math 的能力,我们来看一些测试案例:

问题 1:来自 IMO Shortlist 2002

求最小的正整数 t,使得存在整数  满足 x3_1+x3_2+,ldots,+x3_t=20022002

Qwen2-Math-72B-Instruct 的解答:

为了确定满足方程  的整数  存在的最小正整数 t,我们首先分析立方及其和的性质。我们需要找到最小的 t,使得 t 个立方体的和等于 

首先,我们注意到 2002 可以分解为素数因子:$2002 = 2 \times 7 \times 11 \times 13$。因此,$2002^{2002} = (2 \times 7 \times 11 \times 13)^{2002} = 2^{2002} \times 7^{2002} \times 11^{2002} \times 13^{2002}$。

接下来,我们考虑立方体模 9 的性质。立方体模 9 只能与 0、1 或 -1 同余。这是因为: $0^3 ≡ 0 (mod 9)$, $1^3 ≡ 1 (mod 9)$, $2^3 ≡ 8 ≡ -1 (mod 9)$, $3^3 ≡ 27 ≡ 0 (mod 9)$, $4^3 ≡ 64 ≡ 1 (mod 9)$, $5^3 ≡ 125 ≡ -1 (mod 9)$, $6^3 ≡ 216 ≡ 0 (mod 9)$, $7^3 ≡ 343 ≡ 1 (mod 9)$, $8^3 ≡ 512 ≡ -1 (mod 9)$。

现在,我们需要确定 。首先,我们找到 : $2002 ÷ 9 = 222$ 余 4 

因此,$2002^{2002} ≡ 4^{2002} (mod 9)$。

接下来,我们使用欧拉定理,该定理指出,对于 。这里,$φ(9) = 6$,因此: $4^6 ≡ 1 (mod 9)$。

我们可以化简指数 : $2002 ÷ 6 = 333$ 余 4 

因此,$4^{2002} ≡ 4^4 (mod 9)$。 $4^4 = 256$。

最后,我们找到 : $256 ÷ 9 = 28$ 余 4 

因此,$2002^{2002} ≡ 4 (mod 9)$。

我们需要找到最小的 t,使得 t 个立方体的和与 4 模 9 同余。立方体模 9 的可能和为: $0 ≡ 0 (mod 9)$, $1 ≡ 1 (mod 9)$, $-1 ≡ 8 (mod 9)$, $1 + 1 ≡ 2 (mod 9)$, $1 + (-1) ≡ 0 (mod 9)$, $-1 + (-1) ≡ -2 ≡ 7 (mod 9)$, $1 + 1 + 1 ≡ 3 (mod 9)$, $1 + 1 + (-1) ≡ 1 (mod 9)$, $1 + (-1) + (-1) ≡ -1 ≡ 8 (mod 9)$, $-1 + (-1) + (-1) ≡ -3 ≡ 6 (mod 9)$, $1 + 1 + 1 + 1 ≡ 4 (mod 9)$。

我们看到四个立方体的和可以与 4 模 9 同余。因此,最小的 t 是 4。

因此,存在整数  满足  的最小正整数 t 为 4

问题 2:来自 IMO Shortlist 2022

对于正整数 n,我们用 s(n) 表示 n 的各位数字之和。设  是一个多项式,其中  且  对于所有  都是正整数。对于所有正整数 k,s(k) 和 s(P(k)) 是否可能具有相同的奇偶性?

Qwen2-Math-72B-Instruct 的解答:

为了确定对于所有正整数 k,s(k) 和 s(P(k)) 是否可能具有相同的奇偶性,我们需要分析各位数字之和函数 s 和多项式 P(x) 的行为。

首先,回想一下,数字 k 的各位数字之和模 2 等于 k mod 2。这是因为 k 在十进制下的各位数字之和与 k mod 9 同余,并且由于 ,因此各位数字之和模 2 与 k mod 2 相同。

给定多项式 ,我们需要确定对于任何正整数 k,P(k) 的奇偶性。具体来说,我们需要检查  是否与  相同。

让我们考虑模 2 的多项式: $P(x) ≡ x^n + a_{n-1}x^{n-1} + \ldots + a_1x + a_0 (mod 2)$。

由于  是正整数,因此  为 0 或 1。令 。然后我们可以将模 2 的多项式改写为: $P(x) ≡ x^n + b_{n-1}x^{n-1} + \ldots + b_1x + b_0 (mod 2)$。

现在,我们需要检查  和  时  的奇偶性。

  1. 1. 情况 1:$k ≡ 0 (mod 2)$。为了使  与  具有相同的奇偶性,$b_0必须为 0。因此,$a\_0 必须为偶数。

  2. 2. 情况 2:$k ≡ 1 (mod 2)$。为了使  与  具有相同的奇偶性,$1 + b_{n-1} + \ldots + b_1 + b_0必须为奇数。由于 1 是奇数,因此总和 $b_{n-1} + \ldots + b\_1 + b\_0 必须为偶数。

根据以上情况,我们有:

  • •  必须为偶数。

  • • 总和  必须为偶数。

但是,如果  是偶数,则 。这意味着总和  必须为偶数。但是由于  为 0 或 1,因此总和  为偶数意味着  中必须有偶数个 1。

现在,考虑多项式 。对于此多项式:

  • • a\_0 = 1$(奇数),这与我们的要求 $a\_0 必须为偶数相矛盾。

  • • 总和 $b_{n-1} + \ldots + b_1 + b_0 = 1$(奇数),这也与我们的要求总和必须为偶数相矛盾。

因此,对于所有正整数 k,s(k) 和 s(P(k)) 不可能具有相同的奇偶性。

因此,最终答案为:

问题 3:来自 IMO 2022

设  表示正实数集。求所有函数 ,使得对于每个 ,恰好存在一个  满足 

Qwen2-Math-72B-Instruct 的解答:

为了找到所有函数 ,使得对于每个 ,恰好存在一个  满足 ,我们将逐步进行。

步骤 1:分析给定的不等式 给定 ,存在唯一的 ,使得 。我们需要探索此条件的含义。

步骤 2:考虑情况  将  代入不等式: $xf(x) + xf(x) = 2xf(x) ≤ 2$。

这简化为: $xf(x) ≤ 1$。

因此,对于所有 , $f(x) ≤ 1/x$。

步骤 3:考虑唯一性条件 对于每个 ,恰好存在一个 ,使得 。我们需要确保此 y 是唯一的。

步骤 4:测试函数  考虑函数 。将  和  代入不等式: $x \cdot 1/y + y \cdot 1/x = x/y + y/x$。

我们需要: $x/y + y/x ≤ 2$。

使用 AM-GM 不等式,我们知道: $x/y + y/x ≥ 2$。

当且仅当  时,等号成立,这意味着 

因此,对于 ,当且仅当  时,不等式  成立。这满足了对于每个 x 恰好存在一个 y 的条件。

步骤 5:验证其他函数是否可以满足条件 假设存在另一个函数 ,使得对于某些 x,$g(x) ≠ 1/x。然后,对于某些 x,$g(x) < 1/x 或 

  • • 如果 ,则  可能无法对所有 y 满足不等式。

  • • 如果 ,则  对于某些 y 可能会超过 2。

因此,除了  之外的任何函数都无法满足唯一性条件。

结论 满足给定条件的唯一函数  为: $f(x) = 1/x$。

这些案例研究表明,Qwen2-Math 不仅能够给出正确答案,还能提供详细的解题步骤,展现了其强大的数学推理能力,为解决复杂的数学问题提供了新的工具。

数据去污染

为了确保模型的可靠性和泛化能力,阿里云对 Qwen2-Math 的预训练和训练后数据集进行了去污染处理。

在预训练阶段,阿里云使用精确匹配和 13-gram 去重方法,从数学数据集中删除了与测试集重叠的样本,避免了数据泄露问题。在训练后阶段,阿里云进一步使用相同的过滤方法,删除了更多与各种数学考试题数据集重叠的样本,确保模型在未见过的题目上也能有良好的表现。

未来发展方向

阿里云计划在不久的将来发布支持中英双语的 Qwen2-Math 模型,并正在开发多语言模型,以满足更多用户的需求。此外,阿里云还将继续增强模型解决复杂和具有挑战性的数学问题的能力,例如:

  • • 提高模型在更高级数学问题上的表现,例如微分方程、抽象代数等。

  • • 开发能够处理图表和图像的数学模型,以解决更贴近实际应用的数学问题。

  • • 将 Qwen2-Math 应用于更广泛的领域,例如数学教育、数学研究、金融分析等。

相关链接

  • • Qwen2-Math GitHub 页面: https://github.com/QwenLM/Qwen2-Math

  • • Qwen2-Math Hugging Face 页面: https://huggingface.co/Qwen

文章关键字

Qwen2-Math, 阿里云, 数学大模型, 人工智能, 数学推理

子非AI
子非AI,焉知AI之乐:分享AI的有趣应用和创新案例,让你了解AI的乐趣。
 最新文章