解密阿里 QwQ：AI 推理新星，挑战o1

文摘 2024-11-29 08:42 美国

QwQ，发音类似“quill”，是阿里巴巴达摩院Qwen团队最新推出的实验性大型语言模型。它不像其他模型那样执着于流畅的对话或天马行空的创作，QwQ 的目标只有一个：深度推理，探索未知。它像一个充满好奇心的学徒，不断地思考、质疑、理解，在知识的海洋中追寻真理。QwQ 的命名也体现了这种哲学精神：它深知自己一无所知 (Questioning what we Question)，而这种认知正是其好奇心的源泉。

深度自省：QwQ 的推理之道

QwQ 的核心思想是深度自省。它模仿人类的思考方式，通过不断地自我对话、质疑假设、审视推理过程，来逐步逼近问题的答案。这就像一个学生在解题时，会反复检查自己的步骤，从错误中学习，最终掌握解题方法。QwQ 也正是通过这种细致的反思和自我质疑，获得了强大的推理能力。

能力与局限：QwQ 的现状

QwQ 在数学和编程领域展现出了惊人的天赋。下图展示了 QwQ 在多个基准测试中的出色表现：

• GPQA（研究生级别科学解题能力）：65.2%
• AIME（中学数学问题解决能力）：50.0%
• MATH-500（综合数学解题能力）：90.6%
• LiveCodeBench（真实编程场景代码生成和问题解决能力）：50.0%

这些数据表明，QwQ 具备解决复杂数学和编程问题的能力，其推理能力在同类模型中处于领先地位。

然而，作为一个实验性模型，QwQ 仍然存在一些局限性：

• 语言切换： 在回答中可能会出现不同语言的混合，这可能会影响用户体验。未来，研究团队将致力于改进模型的语言一致性。
• 推理循环： 在处理复杂问题时，偶尔会陷入循环推理，导致回答冗长，降低效率。团队正在探索更高效的推理策略，以避免这种情况的发生。
• 安全性： 虽然已经具备一定程度的安全管控，但仍需加强，以避免生成不恰当或有偏见的内容。安全始终是 AI 发展的重中之重，团队将持续投入资源，提升模型的安全性。

案例解析：QwQ 的推理过程

为了更好地理解 QwQ 的推理能力，我们来看一看推理实例：

逻辑推理题：扑克牌谜题

User:

S先生、P先生、Q先生他们知道桌子的抽屉里有16张扑克牌：红桃A、Q、4 黑桃J、8、4、2、7、3 草花K、Q、5、4、6 方块A、5。约翰教授从这16张牌中挑出一张牌来，并把这张牌的点数告诉 P先生，把这张牌的花色告诉Q先生。这时，约翰教授问P先生和Q 先生：你们能从已知的点数或花色中推知这张牌是什么牌吗？于是，S先生听到如下的对话：

P先生：我不知道这张牌。

Q先生：我知道你不知道这张牌。

P先生：现在我知道这张牌了。

Q先生：我也知道了。

请问：这张牌是什么牌？

QwQ-32B-Preview:

这道题是逻辑推理题，涉及到信息的逐步披露和推理。题目中有一副16张扑克牌，分别是：

• 红桃：A、Q、4
• 黑桃：J、8、4、2、7、3
• 草花：K、Q、5、4、6
• 方块：A、5

约翰教授选了一张牌，把点数告诉了P先生，把花色告诉了Q先生。然后通过他们的对话，我们要推断出是哪张牌。

首先，让我们来梳理一下对话的内容：

1. P先生说：“我不知道这张牌。”
所以，可能的点数是A、Q、4、5。
- • 这意味着点数是重复的，因为如果点数唯一，P先生就能确定是哪张牌。例如，如果点数是K，只有草花K，那P先生就能确定是草花K。但P先生说不知道，所以点数必须在多个花色中出现。看看哪些点数是重复的：
- • A：红桃和方块
- • Q：红桃和草花
- • 4：红桃、黑桃和草花
- • 5：草花和方块
- • 其他点数都是唯一的在某个花色中。
2. Q先生说：“我知道你不知道这张牌。”
- • 这句话有点 tricky。Q先生知道花色，而且他说他知道P先生不知道。这意味着，根据Q先生知道的花色，可以确定点数一定是重复的。(根据参考内容2中的完整推理过程) 综上所述，Q先生知道花色，且确定所有可能的点数都是重复的，所以花色只能是红桃或方块。
3. P先生说：“现在我知道这张牌了。”
- • P先生原来不知道，但现在知道了。(根据参考内容2中的完整推理过程) 因此，只有当点数是5时，P先生才能确定是方块5。所以，牌是方块5。
4. Q先生说：“我也知道了。”
- • Q先生原来只知道花色，但不知道是哪张牌，现在他也知道了。(根据参考内容2中的完整推理过程) 因此，Q先生现在也确定是方块5。

综上所述，这张牌是方块5。

最终答案

方块5

QwQ 的发展方向

• 模拟人类深度思考过程： 不同于其他模型侧重于语言表达，QwQ 更注重模拟人类的思考过程。这种方法赋予了模型更强的逻辑推理能力，使其能够更好地理解问题的本质，并找到更合理的解决方案。
• 聚焦数学和编程推理： QwQ 选择专注于数学和编程领域，并在这些领域取得了显著的成果。这种策略避免了资源的分散，使得模型能够在特定领域达到更高的水平。这或许能够为大型语言模型的未来发展提供新的思路，即专注于特定领域，打造更专业的 AI 工具。

QwQ 仍处于发展的早期阶段，未来还有很大的提升空间。研究团队将继续改进模型的推理能力，并逐步解决其现有的局限性。未来，QwQ 有望在以下领域发挥更大的作用：