免费 o1 替代品来了！谷歌新发“王炸”推理大模型：思考速度碾压其他大模型，水平堪比理科博士

科技 2024-12-21 10:15 辽宁

作者｜冬梅

在 OpenAI “12 天马拉松”发布的第 11 天，他们平平无奇的发布又被谷歌抢了风头。

刚刚，谷歌发布了实验性的“Gemini 2.0 Flash Thinking”模型，它以令人印象深刻的推理能力而闻名，可以“明确地展示自己的思维”来解决复杂问题，其水平与物理、化学和生物学博士生相当。

谷歌 CEO Sundar Pichai 在社交网络 X 上的一篇文章中写道，这是“我们迄今为止最周到的模型，”还配上了笑脸。

顾名思义，它建立在“2.0 Flash 的速度和性能”之上。谷歌表示，它“经过训练可以大声思考”，从而“具有更强的推理性能”。

为了与 OpenAI 的 o1 竞争，谷歌 DeepMind 首席科学家 Jeff Dean 在 X 上的一条发文中表示，该模型“经过训练，可以使用思维来加强其推理能力”，同时还受益于速度更快的 Gemini Flash 2.0 模型。

Dean 分享的演示展示了 Gemini 2.0 Flash Thinking 如何通过“思考”一系列步骤，然后再提供解决方案，从而解答物理问题。谷歌分享了几个跨物理和概率的演示：

Gemini 2.0 Flash Thinking 现已在 Google AI Studio 和 Vertex AI 中推出。它在 Chatbot Arena LLM 排行榜上首次亮相，位居“所有类别第一” 。就在昨天，谷歌在 Gemini 应用程序中推出了 2.0 Experimental Advanced，Gemini-Exp-1206 也位居排行榜榜首。

这不一定是人类那样的“推理”，但这意味着机器将指令分解为可以产生更强结果的更小的任务。

另一个示例由 Google 产品负责人 Logan Kilpatrick 发布，展示了该模型如何推理解决涉及视觉和文本元素的问题。“这只是我们推理之旅的第一步，”Kilpatrick 说。

在开发者文档中，谷歌解释说，“思考模式的响应推理能力比基础版 Gemini 2.0 Flash 模型更强”，而基础版 Gemini 2.0 Flash 模型是谷歌最新、最出色的模型，仅在 8 天前发布。

新模型仅支持 32000 个标记输入（约 50-60 页文本），并且每个输出响应可以产生 8000 个标记。在 Google AI Studio 的侧面板中，该公司声称它最适合“多模式理解、推理”和“编码”。

该模型的训练过程、架构、许可和成本的完整细节尚未公布。目前，它在 Google AI Studio 中显示每个令牌的成本为零。

与 OpenAI 的竞争推理模型 o1 和 o1 mini 不同，Gemini 2.0 允许用户通过下拉菜单访问其逐步推理，从而更清晰、更透明地了解模型如何得出结论。

通过允许用户了解决策过程，Gemini 2.0 解决了人们对人工智能作为“黑匣子”运行的长期担忧，并使该模型（许可条款仍不明确）与竞争对手的其他开源模型相提并论。

一些开发者对该模型的早期简单测试表明，它可以正确而快速地（1 到 3 秒内）回答一些对于其他 AI 模型来说非常棘手的问题，例如计算“Strawberry”一词中的 R 的数量。（见上面的截图）。

原生支持图像上传和分析

Gemini 2.0 Flash Thinking 是对竞争对手 OpenAI o1 系列的进一步改进，旨在处理跳跃中的图像。

o1 最初是纯文本模型，但后来扩展到包括图像和文件上传分析。目前，这两种模型也只能返回文本。

根据开发者文档显示，Gemini 2.0 Flash Thinking 目前还不支持与谷歌搜索落地，也不支持与其他谷歌应用和外部第三方工具集成。

Gemini 2.0 Flash Thinking 的多模式能力扩展了其潜在用例，使其能够应对结合不同类型数据的场景。

例如，在一项测试中，该模型解决了一个需要分析文本和视觉元素的难题，展示了其跨格式集成和推理的多功能性。

开发人员可以通过 Google AI Studio 和 Vertex AI 利用这些功能，其中模型可供实验。

随着人工智能领域的竞争日趋激烈，Gemini 2.0 Flash Thinking 可能标志着问题解决模型新时代的开始。它能够处理多种数据类型、提供可视化推理并大规模执行，这使它成为推理人工智能市场的有力竞争者，可与 OpenAI 的 o1 系列及其他产品相媲美。

参考链接：

https://lmarena.ai/?leaderboard

https://analyticsindiamag.com/ai-news-updates/openai-sets-the-stage-for-agentic-ai-with-chatgpt-desktop-apps-for-mac-and-windows/

今日好文推荐

2024 年度技术热词来袭，AI 如何在可控生成和降本增效中寻找平衡

OpenAI 史上最长宕机：自研 K8s 成“拦路虎”，导致数小时无法修复

700 多亿打水漂后，这家巨头突然舍弃了无人驾驶出租车业务！新老员工炸锅：刚还在加班、“一群傻瓜”

掀翻牌桌：定义面向未来的开发新范式

InfoQ

为一线互联网公司核心技术人员提供优质内容。科技圈的观察者，前沿技术的传播者。

GPT-5 研发一年半进度堪忧！每轮 5 亿美金训练成本打水漂，还得雇人从头“造数据”

火山引擎边缘云全面升级智能边缘，推动 AI 应用场景拓展与技术创新

Apache Iceberg 赢得未来：2025 年如何前进

出于对 Perforce 的不满，社区计划分叉 Puppe

伪装“计算机工程师”窃取 TB 级数据勒索 25 万美元！前 FBI 特工解析 AI 时代安全危机

2025 年技术指引：让真实案例和经验为开发者开路 | QCon

3000+面试题，17小时专家课：程序员的求职加速包 | 极客时间

数据即将耗尽？大型 AI 公司中没有人会感到恐慌

百川智能发布金融大模型 Baichuan4-Finance，整体准确率领先GPT-4o近20%

机器比人靠谱！Meta 耗时4年半，将 Java 代码转成 Kotlin：进度刚过半，真正难搞的还没开始

资源节省超 50%！作业帮 Spark 全面替换 Hive 的技术实践

接受代码超 16 万行、补全采纳率约 20%，招商证券是如何打造智能化金融科技研发工具的？

软件架构与实验的艺术

Cloudflare 报告：Go 超越Node.js，成 API 客户端首选语言

Airbnb死磕React Native惨败，微软却玩出花！Office、Outlook全线接入，Copilot成最大赢家

开播 10 分钟 5w 观看，GMI Cloud、贾扬清与4 家媒体老板在“AI 出海”直播中聊了什么？

OpenAI 官宣 o3 系列王者模型：能解最难的数学题，单个任务最高花费数千美元，越贵越好用！

奈飞分布式计数器剖析：全球范围内可扩展、准确且实时的计数

AI 开始明抢人类饭碗了！公司全员 AI 化，只重用“工程”背景员工，是转型新风向还是烧家具取暖？

编码神器GitHub Copilot免费版上线！特朗普会见周受资；MiniMax的AI明星Talkie在美消失？| Q资讯

免费 o1 替代品来了！谷歌新发“王炸”推理大模型：思考速度碾压其他大模型，水平堪比理科博士

AWS 云开发工具漏洞可能导致 AWS 账户被彻底接管

曾经的“自动驾驶第一股”急速掉头 AIGC 游戏，CEO 亲述图森未来生死时速这一年

AI 驱动的智能化单元测试生成：字节跳动的实践与创新

作业帮基于 Apache DolphinScheduler 3_0_0 的缺陷修复与优化

豆包视觉理解模型正式发布：一元处理近 300 张高清图片，低于行业价格 85%

在 Lyft 创建 iOS 应用扩展的挑战

OpenAI“双喜临门”：ChatGPT 热线上线，员工“年终奖”最高可达1000万美元

人工智能赋能业务发展研讨：多行业探索 AI 如何驱动行业变革

学好 Prompt，和大模型双向奔赴！| 极客时间

从 CephFS 到 JuiceFS：同程旅行亿级文件存储平台构建之路

智谱完成新一轮三十亿元融资，2024 年商业化收入增长超过 100%

首款开发鸿蒙原生应用的 AI 辅助编程工具正式上线了

后开源时代：开源作者不再是乞求者，而是受益者

新旧交替：AI 时代架构师的进阶之路 |《架构师》电子书下载

首个科学计算基座大模型BBT-Neutron开源，助力突破大科学装置数据分析瓶颈

使用 Rust 重新实现 SQLite 以实现异步 I/O

阿里内部观点：智能化研发一年复盘，我们离真正的 AI 开发还有多远？

AI 重塑技术流程：下半场的破局之道

考虑了很久，还是决定转Go了！| 极客时间

刚刚，ChatGPT Search 向所有用户免费开放！三大升级加剧 AI 搜索竞争，网友：谷歌正式倒闭

Ruby on Rails 8.0 发布，引入 Kamal 2 以改进部署

2024 年度技术热词来袭，AI 如何在可控生成和降本增效中寻找平衡

Ilya Sutskever 在 NeurIPS 2024 的演讲：预训练时代已经结束了

ChatGPT 按提示词数秒完成游戏开发，程序员们该慌了

大型开发者调查结果：哪些 AI 助手最受欢迎？使用 VR 头显编程开始成为趋势

Cloudflare 在 11月发生重大故障，导致日志丢失

OpenAI 史上最长宕机：自研 K8s 成“拦路虎”，导致数小时无法修复

春节假期各大厂卷起来了？腾讯9天垫底；字节跳动在厕所推广“反黑话”运动！OpenAI吹哨人被证实死亡！年仅26岁｜Q资讯

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉