陶哲轩：通义千问QwQ奥数真厉害，开源大模型顶流

科技 2024-11-30 12:53 北京

机器之心报道

编辑：泽南

QwQ 具有神奇的推理能力。

一个刚发布两天的开源模型，正在 AI 数学奥林匹克竞赛 AIMO 上创造新纪录。

本周五，知名数学家、加州大学洛杉矶分校教授、菲尔茨奖得主陶哲轩（Terence Tao）介绍了第二届 AIMO 竞赛的最新进展。比赛在数据竞赛平台 Kaggle 上已经持续了一个月，现在有队伍快要触发「Early Sharing Prize」的门槛了。

Early Sharing Prize 是为了鼓励 AIMO 参赛者在比赛早期分享高分模型经验设立的奖项，需要选手在竞赛中第一个获得 20/50 分，且公开自己的 notebook，奖金为额外的两万美元。

据陶哲轩介绍，就在不到一天前有参赛团队使用 QwQ-32B 的特定实例已经拿到了 18/20 的成绩，该模型似乎比之前的开源模型在解决数学竞赛问题方面表现得更好。

今年 7 月，陶哲轩在国际数学奥赛 IMO 上给第一届 AIMO 的获奖团队进行了颁奖，分享了自己对 AI 在数学研究中应用范式的思考，也打响了 AIMO 竞赛的名声。

AI 数学奥林匹克竞赛 AIMO 的初衷是让参与者使用 AI 模型解决国际数学难题，这将有助于推动人工智能模型的数学推理能力，并促进前沿知识的发展。

由于大模型技术的快速进步，人们对 AI 解决数学问题的能力寄予厚望，第一届 AIMO 的获奖队伍分获了 104.8 万美元的奖金，而现在第二届，奖池已经上升到了 211.7 万美元。

AIMO 竞赛要求参赛团队公开发布其代码、方法、数据和模型参数。刚刚结束的第一届比赛里大家使用的模型各不相同，包括 Mixtral 8x7b、Gemma、Llama 3 等等，有的来自大厂，有的来自 AI 创业公司，呈现百花齐放的态势。

而到了这一届，现在似乎已经变成了 Qwen 系列在刷屏，其他模型偶尔出现：

刚刚发布的 QwQ，还在把开源大模型推向新的高度。

QwQ 的能力也并不仅限于奥数这一个方面，最近社交网络上也有不少人在夸它的推理能力。

HuggingFace 的产品设计人员也表示：测试了一下 QwQ，结果令人惊叹：

有人说，QwQ 就是一个在冉冉升起的新神，虽然有时仍会出错，但令人着迷的就是它的推理路径，就像给 o1 再来一个巨大的加号。

更有趣的是，有人发现这个模型用于思考的原生语言似乎是中文：

难不成这就是 QwQ 逻辑能力强大的原因之一？无论如何，开源大模型领域的风向，似乎已经变了。

11 月 28 日，阿里云通义团队发布了全新 AI 推理模型 QwQ-32B-Preview，并同步开源。评测数据显示，预览版本的 QwQ 已展现出研究生水平的科学推理能力，在数学和编程方面表现尤为出色，整体推理水平比肩 OpenAI 的 o1。

HuggingFace 开源地址：https://huggingface.co/Qwen/QwQ-32B-Preview
HuggingFace Space 体验：https://huggingface.co/spaces/Qwen/QwQ-32B-preview

据介绍，QwQ（Qwen with Questions）是通义千问 Qwen 大模型最新推出的实验性研究模型，也是阿里云首个开源的 AI 推理模型。阿里云通义千问团队研究发现，当模型有足够的时间思考、质疑和反思时，其对数学和编程的理解就会深化。基于此，QwQ 取得了解决复杂问题的突破性进展。

在考察科学问题解决能力的 GPQA 评测集上，QwQ 获得了 65.2% 的准确率，具备研究生水平的科学推理能力；在涵盖综合数学主题的 AIME 评测中，QwQ 以 50% 的胜率证明其拥有解决数学问题的丰富技能；在全面考察数学解题能力的 MATH-500 评测中，QwQ 斩获 90.6% 的高分，一举超越了 o1-preview 和 o1-mini；在评估高难度代码生成的 LiveCodeBench 评测中，QwQ 答对一半的题，在编程竞赛题场景中也有出色表现。

另外当面对复杂问题时，QwQ 展现了深度自省的能力，会质疑自身假设，进行深思熟虑的自我对话，并仔细审视其推理过程的每一步。

比如，在经典智力题「猜牌问题」中，QwQ 会通过梳理各方对话并推演现实情况，它像个擅长思考的人一样，能揣摩「这句话有点 tricky」，反思「等一下，也许我需要更仔细地思考」，最终分析得出正确答案，这似乎是以前没有 AI 能做到的事情。

面对目前高涨的热度，通义团队表示，尽管 QwQ 展现了强大的分析能力，但该模型仍是个供研究的实验型模型，存在不同语言的混合使用、偶有不恰当偏见、对专业领域问题不了解等局限。随着研究深入模型迭代，这些问题将逐步得到解决。

参考内容：

https://mathstodon.xyz/@tao/113568284621180843

https://www.kaggle.com/competitions/ai-mathematical-olympiad-progress-prize-2/leaderboard

转载请联系本公众号获得授权

投稿或寻求报道：liyazhou@jiqizhixin.com

http://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650945019&idx=3&sn=71a363a83b7c5e7b221bc35efa3d19a4

机器之心

专业的人工智能媒体和产业服务平台

Andrej Karpathy：神奇大模型不存在的，只是对人类标注的拙劣模仿

Ilya 「Scaling What」的答案会是程序性知识吗？

关于计算机视觉中的自回归模型，这篇综述一网打尽了

ChatGPT 发布后这两年，该关注什么？机器之心打包了24个主题350多篇高质量文章

三名高中生，为近百年的分形定理带来了新证明

陶哲轩：通义千问QwQ奥数真厉害，开源大模型顶流

GPT-5涌现能力可预测？UC伯克利仅使用当前模型检查点预测未来模型

多模态慢思考：分解原子步骤以解决复杂数学推理

「瞄准」o1：国内大模型厂商的技术思路有何不同？过度推理成通病？

AI现场发了2万红包，打开了大模型Act时代

流式深度学习终于奏效了！强化学习之父Richard Sutton力荐

斯坦福吴佳俊扩散自蒸馏来了！突破文生图身份保留挑战

算法系统协同优化，vivo与港中文推出BlueLM-V-3B，手机秒变多模态AI专家

上百万智能体在OASIS模拟平台上玩推特，AI玩社交媒体和真人有多像？

向量数据库的中场战事：长期主义者Zilliz如何全球突围

世界首次！智源研究院实现数字孪生心脏电功能超实时仿真

rebuttal真的有用！这篇ICLR论文，所有审稿人都加了2分，直接跃升排名第9

12%计算量就能媲美原模型，Adobe、罗切斯特大学等提出YOPO剪枝技术

LLM破局泛化诊断难题，MSSP刊登北航PHM实验室健康管理大模型交叉研究

刚刚，Ilya的Seq2Seq、Ian的GAN获NeurIPS时间检验奖

Scaling Law 撞墙？复旦团队大模型推理新思路：Two-Player架构打破自我反思瓶颈

国产大模型首发中文逻辑推理，「天工大模型4.0」o1版来了

遗憾不？原来百度2017年就研究过Scaling Law，连Anthropic CEO灵感都来自百度

HuggingFace工程师亲授：如何在Transformer中实现最好的位置编码

跨模态大升级！少量数据高效微调，LLM教会CLIP玩转复杂文本

Sora就这么泄露了三小时，网友调侃Altman急拔网线，艺术家们也在抗议被「白嫖」

创业一年半，胖了30斤，AI大佬感叹：还是回谷歌好

吴恩达出手，开源最新Python包，一个接口调用OpenAI等模型

陈天奇团队LLM结构化生成新引擎XGrammar：百倍加速、近零开销

「毕昇一号」DNA活字存储喷墨打印机来了，低成本、高效率、全自动的DNA存储

撞墙还是新起点？自回归模型在图像领域展现出Scaling潜力

和梁朝伟同获港科荣誉博士，黄仁勋与沈向洋对谈Scaling Law、后训练、机器人和爱情

更新了！带Agent的Cursor太疯狂了

小学二年级数学水平，跟着这篇博客也能理解LLM运行原理

文本、图像、点云任意模态输入，AI能够一键生成高质量CAD模型了

智能体竟能自行组建通信网络，还能自创协议提升通信效率

AI版周扒皮！打字速度慢、鼠标超30秒未动，就被AI「警告」，Karpathy下场评论

RTX 4090可跑、完全开源，最快视频生成模型问世，实测一言难尽

RL「误人」？LeCun 在技术路线上又有何战略摇摆？

智能体零样本解决未见过人类设计环境！全靠这个开放式物理RL环境空间

研究大模型门槛太高？不妨看看小模型SLM，知识点都在这

大半年过去，主流视频生成模型们超越Sora了吗？

这才是真・开源模型！公开「后训练」一切，性能超越Llama 3.1 Instruct

阿里国际版o1来了，Marco-o1：聚焦开放式问题推理

英伟达开源福利：视频生成、机器人都能用的SOTA tokenizer

NeurIPS 2024 Oral | 还原所见！揭秘从脑信号重建高保真流畅视频

如今的智能体，已经像人一样「浏览」视频了，国内就有

仅仅一天，Gemini就夺回了GPT-4o拿走的头名

上交大o1复现新突破：蒸馏超越原版，警示AI研发"捷径陷阱"

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉