首页时事民生政务教育文化科技财富体娱健康情感

旅行百科职场楼市企业乐活学术汽车时尚创业美食幽默美体文摘

27亿刀天价员工首个成果，谷歌版o1算出最难高考数学题！物理代码难题闪电秒解

科技 2024-12-20 17:24 北京

新智元报道

编辑：编辑部 HYZh

【新智元导读】谷歌版o1震撼登场，一诞生直接屠榜了Chatbot Arena，横扫所有类别。复杂数学、物理、代码难题都能解决，思考速度快如闪电。更劲爆的是，此模型似乎是谷歌天价请回沙哥Noam Shazeer后，他的首个成果，27亿美元花得值了。

OpenAI十二天直播，杀疯了的竟然是谷歌。

就在深夜，「谷歌版o1」Gemini 2.0 Flash Thinking突然发布。

跟o1的策略类似，它同样是将更多计算能力投入「推理时计算」——即模型实际解决问题的时长。

但不一样的是，Flash Thinking能清晰地展示思考过程。

一经发布，它就直接屠榜Chatbot Arena。

从战绩来看，新模型在总榜位列第一，数学榜单第一，创意写作第一，Hard Promt第一，视觉榜单第一！

举一个比较复杂的概率问题的例子。

如果一直掷硬币，直到得到「正正正」或「正反正」，得到其中一个的几率和另一个的几率之比是多少？

这种水平的概率题，绝大多数LLM都会折戟。

但模型展示出了详细完备的思考过程，并行云流水般地在34.7秒内就给出了最终答案——2:3。

点击「展开查看模型思维」，即可观察推理过程

现在，Gemini 2.0 Flash Thinking已经在Google AI Studio和Vertex AI中上线了，开发者可以去免费测试。

对此，网友纷纷表示，明明是OpenAI的圣诞特别活动，怎么发出炸裂成果的全是谷歌？

现在都是谷歌每天欺负OpenAI

谷歌版o1彻底杀疯了，全是第一

在LLM竞技场上，Gemini 2.0 Flash Thinking连同Gemini-Exp-1206一起，「横扫所有类别，荣登榜首」。

无论是复杂提示、代码、数学、创意写作、指令跟随、长QA等等。

不过，这些排名并未包含OpenAI的完整o1模型。

但无论如何，Flash Thinking打了相当漂亮的一仗。

这个模型，大概率就是谷歌对打OpenAI o1系列的武器，而且，它很可能不是最强版本，或许还有Pro或Ultra Thinking的存在。

据外媒THE DECODER报道，Flash Thinking似乎是著名AI研究员Noam Shazeer进入谷歌后的首个工作成果。

如果果真如此，谷歌27亿美元天价请回天才老员工的这笔买卖，也算值了。

Shazeer是著名论文「Attention is All You Need」的作者之一

在80百分位的情况下，Flash Thinking的响应速度几乎是o1-mini的2倍！

比如下面这道题，OpenAI的o1和o1 Pro分别用了102秒和138秒，而Gemini 2.0 Flash Thinking只花了14秒。

上下滑动查看

一举冲顶成为最强理科生，最难高考题也不在话下

有人尝试把号称「史上最难」的高考数学题扔给Flash Thinking，它居然也给出了准确的回答。

这种表现，震惊了所有网友。

要知道，这道题连o1都做不出来。

而且更为厉害的是，这道题是中文题。

上下滑动查看

能做出数学高考题的含金量，不用详细解释了。

毕竟，中国的高考可是被Erudera评为地球上最难的考试。

而在Chatbot Arena的数学领域中，Flash Thinking对比Flash同样也有着显著性进步。

在物理方面，可以来看看下面这个演示，Flash Thinking展示了是如何解决一道物理题并阐明其推理过程。

演示中的题目为：一个电子被限制在一个一维无限深势阱中，势阱壁位于x=- 0.15nm和x=+0.15nm处。求出电子在势阱中能级跃迁时发射的四种最长波长的光子。

Flash Thinking首先会将问题本身复述清晰，接着就开始进行逐步思考问题的求解步骤。

经过16.9s的计算分析后，Flash Thinking给出了最终答案，即为98.9nm，59.3nm，42.4nm ，37.1nm。

下面这个演示，则展示了Flash Thinking如何处理涉及涉及视觉和文本线索的挑战性难题。

演示中使用者首先上传了一张有四个台球的图片，并提问道「我能怎么使用这其中的三个数字使其总和为30？」

在这个演示中，有一个很有趣的地方就在于中间第二个台球既可以识别为9，也可以颠倒一下，识别为6。

Flash Thinking在首次尝试中先是将其识别为正常观察的9，但是发现并不能实现问题的求解。

于是，他很聪明的做出了一个判断：「在题目中并没有清楚的说明每个数字只能出现一次」。

于是它开始尝试将数字进行重复利用，但是还是无法实现问题的求解。

接着，有趣的地方便来了，它出奇地想到了可以把9识别为颠倒的6，这说明它成功地察觉到了这不仅仅只是一个数字游戏，而是实际上可以翻滚的台球。

最终得到了问题的正确答案：利用11、13、6三个数字即可实现总和为30。

整个思考过程清清楚楚，一目了然。

从解题过程中可以看出，Gemini 2.0 Flash Thinking不仅能够实现处理多模态信息，在求解实际的问题方面，它不再是曾经的大模型那种较为机械死板的智能水平，而是像人一样能够学会去多视角地变通看待问题，最终灵活地得到问题的解决方案。

谷歌DeepMind研究者让Thinking模型尝试用不同方法，求解普特南2024的一到数学题，然后自我验证答案是否正确。

35.9秒内，模型给出了答案。

网友实测

手快的网友们，已经纷纷甩给了Gemini 2.0 Flash Thinking一堆难题。

网友们给出的题目，难度都不小。

比如这道数列问题，要求写出一个数列的前六个数字，其中每个数字都是前一个数字的三倍，且第一个数字是2。

最终，模型给出了正确答案——E。

这位网友实测后发现，新模型的推理能力实在强大，不光破解了单词网格难题，甚至连复杂的经济学问题都做得出来。

设想太阳能和模块化核反应堆的广泛应用带来了巨大的能源供应，从经济学的角度深入思考未来十年可能出现的经济变化。请详尽地分析可能产生的影响。

模型给出的答案是：通货膨胀率会下降，经济环境会发生重大变化。

结论：变革的十年如果太阳能和模块化核反应堆（SMR）电力的充足性和可负担性得以实现，未来十年将见证一场深刻的经济变革。我们可以预期通货膨胀率下降，经济环境发生重大变化。

Hallid.ai联创indigo给了它一道填数题，Thinking只需要20秒就做出来了。

而且给出了正确答案。

相比之下，o1就花了40秒，而且还错了。

不过，不知道是不是测试版的原因，Flash Thinking能不能数清楚「草莓」里的r，似乎完全取决于你给了啥prompt……

相比之下，我们在本地跑的QWQ，可以轻松解决这个问题。

参考资料：

https://x.com/JeffDean/status/1869789813232341267

https://the-decoder.com/googles-gemini-2-0-flash-thinking-is-googles-answer-to-openais-o1/

智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响，领航中国新智能时代。

最新文章

27亿刀天价员工首个成果，谷歌版o1算出最难高考数学题！物理代码难题闪电秒解

刚刚，GPT开山一作被曝离职OpenAI！被Ilya感谢，ChatGPT无名英雄选择单飞

2025英伟达奖学金名单公布，7位华人入选！中科大浙大校友在列，人均6万美元

全球百模争霸，国产大模型拿下多个冠军！智源FlagEval全球评测榜单出炉

一键生成万字专利！中科院发布多智能体框架AutoPatent，含1933个「草稿-专利」数据对

Meta斯坦福全新多模态Apollo，60分钟视频轻松理解！7B性能超越30B

招人！新智元邀你勇闯ASI之巅

OpenAI开通ChatGPT热线了！美国电话就能打，老人机也能玩，15分钟免费

全球最强GPU订单曝光，TOP 1微软一年买爆近50万块！xAI晒首批GB200提前过年

28年数据枯竭？AI炼出数据飞轮2.0，智能体+多模态数据湖硬核掘金

AI改变数学的一年！黎曼假说、朗兰兹猜想，盘点2024年数学里程碑

全面超越CoT！Meta田渊栋团队新作：连续思维链

2025年，AI Agent还会是风口吗？11个问题揭秘智能体技术发展全貌

招人！新智元邀你勇闯ASI之巅

OpenAI圣诞第9天：满血o1 API放出，开发者大狂欢！实时API升级音频token暴降60%

Pika 2.0横扫Sora惊艳全网，一键颠覆广告业！上传自拍秒变好莱坞大片，和明星同框不是梦

用上AI，升职提前4年？清华等分析6790万篇论文：科学界收缩，不用AI的领域无人问津

稳定学习预后标志物，多种癌症生存曲线证实！清华最新成果登Nature顶级子刊

沃顿商学院教授发文解析o1：能力仍有短板，「人机协同智能」或成AGI最重要难题

招人！新智元邀你勇闯ASI之巅

谷歌逆风翻盘暴击OpenAI，90天王者归来！44页报告押注25年三大技术前沿

举报人「自杀」，OpenAI表示震惊！NYU教授发长文悼念：警钟仍在回响

谷歌版Sora来了，4K高清暴击OpenAI！视频生图新卷王，更理解物理世界

ChatGPT搜索，全球免费！Her动嘴实时搜，暴打谷歌边聊边搜

北大开源全新图像压缩感知网络：参数量、推理时间大幅节省，性能显著提升 | 顶刊TPAMI

语言游戏让AI自我进化，谷歌DeepMind推出苏格拉底式学习

招人！新智元邀你勇闯ASI之巅

视频一键拆分PS层！DeepMind新模型效果碾压同级，物体、背景完美分离，还能脑补

图像领域再次与LLM一拍即合！idea撞车OpenAI强化微调，西湖大学发布图像链CoT

Nature再发招聘调查：学术界和工业界大不同，帮你避坑从简历到面试的N个细节

招人！新智元邀你勇闯ASI之巅

MIT教授NeurIPS歧视言论炸雷，中国女学生霸气反击！AI大佬集体痛斥，道歉信来了

OpenAI官方爆料，长文开怼马斯克：靠打官司实现不了AGI！

Claude 3.5编程收入暴增10倍，抢走Cursor反杀OpenAI！估值180亿初创3年颠覆硅谷

招人！新智元邀你勇闯ASI之巅

「中美科技合作协定」终于续签！但AI半导体等关键技术却遭排除

Ilya向全世界宣布：预训练结束了！全球AI数据耗尽，超级智能才是未来

26岁OpenAI举报人疑自杀！死前揭ChatGPT训练黑幕

欧洲万亿美元科技巨头为0，被美国「泰坦」无情碾压！LeCun转评

招人！新智元邀你勇闯ASI之巅

ChatGPT「睁眼」了！OpenAI版「Her」满血上线，还有圣诞限定彩蛋

LSTM之父：我也是注意力之父！1991年就发表线性复杂度，遥遥领先Transformer 26年

再也不怕显存爆炸了！高效重建「几何精准」的大规模复杂三维场景，中科院提出CityGaussianV2

Meta公布黑科技：戴上腕带即可隔空打字，引领神经接口AR革命

招人！新智元邀你勇闯ASI之巅

ChatGPT崩溃4小时！DDL打工人、期末大学生全慌了

2024 ACL Fellow名单出炉！微软高剑峰等4位华人科学家入选

OpenAI深夜被狙，谷歌Gemini 2.0掀翻牌桌！最强智能体组团击毙o1

谷歌Gemini再添猛将！GPA 5.0毕业即DeepMind高级科学家，开挂博士给科研新人7点建议

超图计算+目标检测，性能新SOTA！清华发布Hyper-YOLO：用超图捕捉高阶视觉关联

分类

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉