北京时间12月20日,谷歌发布自研新型“推理”人工智能大模型——Gemini 2.0 Flash Thinking Experimental ,目前该模型处于实验阶段。从简短测试来看,该模型确实在用更多时间进行分步推理,一些此前大模型翻车的简单题目上,该模型给出了准确答案。
新模型名为Gemini 2.0 Flash Thinking Experimental,目前可在谷歌AI原型平台AI Studio(https://aistudio.google.com/)中使用。模型卡将其描述为“最适合多模态理解、推理和编码”,能够“推理”编程、数学和物理等领域最复杂的问题。

在X上的一篇帖子中,AI Studio产品负责人Logan Kilpatrick称 Gemini 2.0 Flash Thinking Experimental 是“谷歌推理之旅的第一步”。

Google DeepMind 首席科学家Jeff Dean在X上发帖表示,Gemini 2.0 Flash Thinking Experimental “经过训练,可以使用思维来强化其推理能力”。
“当我们增加推理时间计算时,我们看到了有希望的结果,”Jeff Dean说,他指的是在考虑问题时“运行”模型所使用的计算量。
Gemini 2.0 Flash Thinking Experimental建立在谷歌最近发布的Gemini 2.0 Flash模型之上,其设计与OpenAI 的o1等推理模型类似。与此前的大模型不同,推理模型可以有效地进行自我事实核查,这有助于它们避免一些通常会绊倒人工智能模型的陷阱。缺点是,推理模型通常需要更长时间(通常需要几秒到几分钟)才能得出最后的答案。
根据智能超参数的体验,给出提示后,Gemini 2.0 Flash Thinking Experimental会暂停一下再做出反应,考虑一系列相关提示,并在此过程中“解释”其推理,并给出它认为的最准确答案。
当智能超参数问单词“strawberry”中有多少个R时,它回答“三个”。当问 9.11 和 9.9 谁更大时,它分步给出了 9.9 更大。此前不少大模型在这些简单题目上表现翻车,给出了错误答案。
推理大模型目前正成为大模型厂商的竞争焦点。随着 OpenAI 发布 o1 模型之后。11 月初,人工智能研究公司DeepSeek发布了其首个推理模型DeepSeek-R1的预览版。11月底,阿里云通义千问团队公布了更擅长推理任务的QwQ(Qwen with Questions)开源推理模型。
推理模型能否最终获得市场认可仍然需要进一步观察。因为,这类模型在运行时需要消耗大量算力,并且给出答案的时间更长。目前,大模型厂商对此类模型的收费也更高,部分原因是因为运行成本较高。
相关报道:
OpenAI发布全新o1模型:擅长推理,能“像人一样”解释其推理过程
前沿大模型普遍有“欺骗”能力,o1模型的嘴最硬,实施欺骗行为后“死不承认”
觉得内容有收获,请您加个关注,标个星~ 谢谢您