推理最强也最快，谷歌发布Gemini 2.0 Flash Thinking，全面超越o1-preview

科技 2024-12-20 12:26 北京

机器之心报道

编辑：Panda、小舟

不仅能推理，还能明确展示自己「推理逻辑」的大模型出现了。

OpenAI 的 12 天连续发布已近尾声，但它的热度显然已经被谷歌夺去了许多。从 Gemini 2.0 Flash 到 Veo 2 到今天的 Gemini 2.0 Flash Thinking，谷歌端上来的菜真是一道比一道香。

从名字也能看出来，Gemini 2.0 Flash Thinking 基于 Gemini 2.0 Flash，只是其经过专门训练，可使用思维（thoughts）来增强其推理能力。

据 Jeff Dean 介绍，Gemini 2.0 Flash Thinking 还会明确展示其思考过程。下面是 Jeff Dean 在 X 上发布的一个 demo—— 其中，模型解答了一个物理问题并解释了自己的推理过程，整个过程耗时 1 分多钟。

虽然 Flash 版本还不是 Gemini 2.0 的满血版，但这个 Thinking 模型就已经登顶了 Chatbot Arena 排行榜。Gemini 2.0 Flash Thinking 不仅是总分第一，在编程、数学、创意写作等各项评测任务上都是第一名（有些是并列第一）。

Targum 创始人和 CEO Alex Volkov 则通过 10 个难题对 o1-2024-12-17 和 gemini-2.0-flash-thinking-exp-1219 进行了对比测试，结果发现这两个推理模型的表现相当，而后者的速度要快得多。

而根据另一位研究者 Subhash Peshwa 的测算，Gemini 2.0 Flash Thinking 的思考速度是 o1-mini 的 2 倍。

Gemini 2.0 Flash Thinking 发布后，网友们都纷纷点赞，并乐见其与 ChatGPT 和 Claude 等聊天机器人的竞争。

目前，Gemini 2.0 Flash Thinking 实验版完全可以免费使用，感兴趣的读者可访问：
https://aistudio.google.com/prompts/new_chat?model=gemini-2.0-flash-thinking-exp-1219

表现优异，但也会犯错

首先，Gemini 2.0 Flash Thinking 在数学推理方面速度快、质量高。例如，Gemini 2.0 Flash Thinking 在 14 秒内破解了 goto 数学题，比任何其他可以解决该问题的模型快 5 倍：

在一道求解数学期望的问题上，OpenAI 的 o1 求解错误，而且推理速度很慢，而 Gemini 2.0 Flash Thinking 仅用 2/7 的时间就正确解答：

解一道简单的数学推理题：挑选数字小球，使数字总和为 30：

来源：https://x.com/OfficialLoganK/status/1869789822384255300

Gemini 2.0 Flash Thinking 迅速解答，而且给出了详细的推理过程。

DeepMind 首席科学家 Jack Rae 在纸上手写了一道数论问题，也是他的工作面试问题，Gemini 2.0 Flash Thinking 轻松解决了：

来源：https://x.com/drjwrae/status/1869806621024772096

可见，Gemini 2.0 Flash Thinking 可以准确识别视觉内容，并进行数学推理。

有时也会翻车，知道「strawberry」有 3 个「r」，但「strawberrry」就数不清了：

「9.9 和 9.11 谁大」这事还是没能解决：

顺带一提，关于现在的 LLM 难以数出 strawberry 中 r 数量的深层原因，可以参阅机器之心之前的报道《他们掰开神经元，终于让大模型 9.8 大于 9.11 了：神秘创业公司，开源 AI「洗脑」工具》。

Gemini 2.0 Flash Thinking 还有能力理解和解答非常困难的问题，比如斯坦福 NLP 的统计学家 Zitong Yang 就分享了自己的一个用来测试推理模型的问题：三赌徒问题。然后他惊喜地发现，Gemini 2.0 Flash Thinking 成为了首个正确解答该问题的模型，而他之前测试的 o1-preview、o1、r1、QwQ 模型都未能过关。

三赌徒问题：假设三个赌徒最初有 (a, b, c) 美元。每次试验都是随机选择两个玩家，让他们公平地掷一枚硬币；根据输赢，他们会正常地转手 1 美元。玩家一旦破产，就会退出。令 (S_1) 表示一名玩家破产所需的游戏局数。令 (S_2) 表示两名玩家破产所需的游戏局数。求 S_1 和 S_2 的期望。

下面是 Gemini 2.0 Flash Thinking 的部分思考过程和最终答案。

机器之心也上手进行了一番测试。考虑到网络上已有大量使用英语的测试，这里我们就仅使用汉语了。

首先来看看 Gemini 2.0 Flash Thinking 的编程能力：写一个井字棋小游戏，其中用两个不同的 emoji 标记双方的棋子。

可以看到，该模型用了 10.8s 思考，然后用 21.0s 完成了任务。测试一下，该模型生成的代码确实能正确实现功能。

这里再测试一道来自《孙子算经》的古代数学题：今有物不知其数，三三数之剩二；五五数之剩三；七七数之剩二。问物几何？

这一次，Gemini 2.0 Flash Thinking 思考了 11.1s，解答过程则用了 16.3s。有意思的是，该模型不仅正确解答了问题，也根据自己的知识库对相关信息进行了扩展说明。

Gemini 2.0 Flash Thinking 也支持输入图片和音频等模态的数据，可以帮助我们理解梗图或者解答手写的数学问题。

最后，我们来试试 Gemini 2.0 Flash Thinking 能否解读中文的验证码。

很显然，它彻底失败了，一个字都没能正确识别出来，所以暂时还不用担心被 AI 盗号了。

Gemini 2.0 Flash Thinking，着实有趣，就是名字有点长。

转载请联系本公众号获得授权

投稿或寻求报道：liyazhou@jiqizhixin.com

机器之心

专业的人工智能媒体和产业服务平台

最新文章

刚刚，OpenAI放出最后大惊喜o3，高计算模式每任务花费数千美元

统一视觉理解与生成，MetaMorph模型问世，LeCun、谢赛宁、刘壮等参与

人会逆向思维，LLM也可以？DeepMind研究表明还能提升推理能力

重塑跨智能体灵巧手抓取，NUS邵林团队提出全新交互式表征，斩获CoRL Workshop最佳机器人论文奖

2025英伟达奖学金出炉，7位华人博士生入选，上交、中科大、浙大校友在列

图森未来陈默：自动驾驶无以为继，急转驶入AIGC游戏，已拿下金庸群侠传、三体IP | 智者访谈

智源发布FlagEval「百模」评测结果，丈量模型生态变局

推理最强也最快，谷歌发布Gemini 2.0 Flash Thinking，全面超越o1-preview

出手即王炸？照片级真实度生成式世界模型，还获得皮克斯和Jeff Dean投资

UniReal登场：用视频架构统一图像生成与编辑，还学到真实世界动态变化规律

刚刚，OpenAI元老级研究员Alec Radford离职，他主导了GPT-1、GPT-2的研发

历时2年，华人团队力作，震撼开源生成式物理引擎Genesis，可模拟世界万物

震惊！Claude伪对齐率竟能高达78％，Anthropic 137页长论文自揭短

CMU把具身智能的机器人给越狱了

跨模态通信总丢失语义、产生歧义？加入AI大模型，LAM-MSC实现四模态统一高效传输

在线试玩 | 对齐、生成效果大增，文本驱动的风格转换迎来进阶版

微调时无需泄露数据或权重，这篇AAAI 2025论文提出的ScaleOT竟能保护隐私

Scaling Law撞墙？预训练终结？亚马逊云科技为什么还在做基础大模型

李飞飞团队统一动作与语言，新的多模态模型不仅超懂指令，还能读懂隐含情绪

英伟达下代RTX 50系列显卡规格被泄露，旗舰5090显存达32GB

Florence-VL来了！使用生成式视觉编码器，重新定义多模态大语言模型视觉信息

让多视角图像生成更轻松！北航和VAST推出MV-Adapter

AI大模型时代，人才的需求已经变了

3B模型长思考后击败70B！HuggingFace逆向出o1背后技术细节并开源

OpenAI被偷家，谷歌Veo 2反超Sora

NeurIPS Spotlight | 基于信息论，决策模型有了全新预训练范式统一框架

USENIX Sec'25 | LLM提示词注入攻击如何防？UC伯克利、Meta最新研究来了

Tokenization不存在了？Meta最新研究，无需Tokenizer的架构来了

Kimi又上新！抢先实测视觉思考模型k1，甚至比o1更聪明

与1500多支国内外队伍同台竞技，快手在NeurIPS 2024顶级大赛中上演双杀

企业大模型落地关键是什么？这家领先的大模型技术和应用公司给出答案

AI病理助手来了！浙大OmniPT上岗，3秒锁定癌症病灶，准确率超95%

世界模型进入4D时代！单视角视频构建的自由视角4D世界来了

Bengio参与的首个《AI安全指数报告》出炉，最高分仅C、国内一家公司上榜

对话肖特特：从伯克利到PromptAI创业，发明创造下一代视觉智能

哗然！MIT教授NeurIPS演讲公开歧视中国学生，大会官方认错、本人道歉

预训练将结束？AI的下一步发展有何论调？Scaling Law 撞墙与否还重要吗？

决策过程是魔法还是科学？首个多模态大模型的可解释性综述全面深度剖析

Ilya Sutskever在NeurIPS炸裂宣判：预训练将结束，数据压榨到头了（全文+视频）

无人机：不是我想长腿，《Nature》论文说这样更省力

KDD2025 | 多标签节点分类场景下，阿里安全&浙大对图神经网络增强发起挑战

世界模型才是智驾唯一解？造车新势力们对于自动驾驶世界模型的探索路线有何异同？

Mamba作者带斯坦福同学、导师创业，Cartesia获2700万美元种子轮融资

OpenAI很会营销，而号称超强AI营销的灵感岛实测成效如何？

李飞飞：World Labs这样实现「空间智能」

扩散模型=流匹配？谷歌DeepMind博客深度详解这种惊人的等价性

多智能体架构Insight-V来了！突破长链视觉推理瓶颈

微软高剑峰、哈工大（深圳）张民等四位华人入选，2024 ACL Fellow名单公布

Sora之后，苹果发布视频生成大模型STIV，87亿参数一统T2V、TI2V任务

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉