27亿刀天价员工首个成果,谷歌版o1算出最难高考数学题!物理代码难题闪电秒解

科技   2024-12-20 17:24   北京  



  新智元报道  

编辑:编辑部 HYZh
【新智元导读】谷歌版o1震撼登场,一诞生直接屠榜了Chatbot Arena,横扫所有类别。复杂数学、物理、代码难题都能解决,思考速度快如闪电。更劲爆的是,此模型似乎是谷歌天价请回沙哥Noam Shazeer后,他的首个成果,27亿美元花得值了。

OpenAI十二天直播,杀疯了的竟然是谷歌。
就在深夜,「谷歌版o1」Gemini 2.0 Flash Thinking突然发布。
跟o1的策略类似,它同样是将更多计算能力投入「推理时计算」——即模型实际解决问题的时长。
但不一样的是,Flash Thinking能清晰地展示思考过程。
一经发布,它就直接屠榜Chatbot Arena。
从战绩来看,新模型在总榜位列第一,数学榜单第一,创意写作第一,Hard Promt第一,视觉榜单第一!
举一个比较复杂的概率问题的例子。
如果一直掷硬币,直到得到「正正正」或「正反正」,得到其中一个的几率和另一个的几率之比是多少?
这种水平的概率题,绝大多数LLM都会折戟。
但模型展示出了详细完备的思考过程,并行云流水般地在34.7秒内就给出了最终答案——2:3。

点击「展开查看模型思维」,即可观察推理过程
现在,Gemini 2.0 Flash Thinking已经在Google AI Studio和Vertex AI中上线了,开发者可以去免费测试。
对此,网友纷纷表示,明明是OpenAI的圣诞特别活动,怎么发出炸裂成果的全是谷歌?

现在都是谷歌每天欺负OpenAI

谷歌版o1彻底杀疯了,全是第一


在LLM竞技场上,Gemini 2.0 Flash Thinking连同Gemini-Exp-1206一起,「横扫所有类别,荣登榜首」。
无论是复杂提示、代码、数学、创意写作、指令跟随、长QA等等。
不过,这些排名并未包含OpenAI的完整o1模型。
但无论如何,Flash Thinking打了相当漂亮的一仗。
这个模型,大概率就是谷歌对打OpenAI o1系列的武器,而且,它很可能不是最强版本,或许还有Pro或Ultra Thinking的存在。
据外媒THE DECODER报道,Flash Thinking似乎是著名AI研究员Noam Shazeer进入谷歌后的首个工作成果。
如果果真如此,谷歌27亿美元天价请回天才老员工的这笔买卖,也算值了。

Shazeer是著名论文「Attention is All You Need」的作者之一
在80百分位的情况下,Flash Thinking的响应速度几乎是o1-mini的2倍!
比如下面这道题,OpenAI的o1和o1 Pro分别用了102秒和138秒,而Gemini 2.0 Flash Thinking只花了14秒。

上下滑动查看

一举冲顶成为最强理科生,最难高考题也不在话下

有人尝试把号称「史上最难」的高考数学题扔给Flash Thinking,它居然也给出了准确的回答。
这种表现,震惊了所有网友。
要知道,这道题连o1都做不出来。
而且更为厉害的是,这道题是中文题。

上下滑动查看

能做出数学高考题的含金量,不用详细解释了。
毕竟,中国的高考可是被Erudera评为地球上最难的考试。
而在Chatbot Arena的数学领域中,Flash Thinking对比Flash同样也有着显著性进步。

在物理方面,可以来看看下面这个演示,Flash Thinking展示了是如何解决一道物理题并阐明其推理过程。

演示中的题目为:一个电子被限制在一个一维无限深势阱中,势阱壁位于x=- 0.15nm和x=+0.15nm处。求出电子在势阱中能级跃迁时发射的四种最长波长的光子。

Flash Thinking首先会将问题本身复述清晰,接着就开始进行逐步思考问题的求解步骤。
经过16.9s的计算分析后,Flash Thinking给出了最终答案,即为98.9nm,59.3nm,42.4nm ,37.1nm。

下面这个演示,则展示了Flash Thinking如何处理涉及涉及视觉和文本线索的挑战性难题。

演示中使用者首先上传了一张有四个台球的图片,并提问道「我能怎么使用这其中的三个数字使其总和为30?」

在这个演示中,有一个很有趣的地方就在于中间第二个台球既可以识别为9,也可以颠倒一下,识别为6。
Flash Thinking在首次尝试中先是将其识别为正常观察的9,但是发现并不能实现问题的求解。
于是,他很聪明的做出了一个判断:「在题目中并没有清楚的说明每个数字只能出现一次」。
于是它开始尝试将数字进行重复利用,但是还是无法实现问题的求解。
接着,有趣的地方便来了,它出奇地想到了可以把9识别为颠倒的6,这说明它成功地察觉到了这不仅仅只是一个数字游戏,而是实际上可以翻滚的台球。
最终得到了问题的正确答案:利用11、13、6三个数字即可实现总和为30。
整个思考过程清清楚楚,一目了然。
从解题过程中可以看出,Gemini 2.0 Flash Thinking不仅能够实现处理多模态信息,在求解实际的问题方面,它不再是曾经的大模型那种较为机械死板的智能水平,而是像人一样能够学会去多视角地变通看待问题,最终灵活地得到问题的解决方案。
谷歌DeepMind研究者让Thinking模型尝试用不同方法,求解普特南2024的一到数学题,然后自我验证答案是否正确。
35.9秒内,模型给出了答案。

网友实测


手快的网友们,已经纷纷甩给了Gemini 2.0 Flash Thinking一堆难题。
网友们给出的题目,难度都不小。
比如这道数列问题,要求写出一个数列的前六个数字,其中每个数字都是前一个数字的三倍,且第一个数字是2。
最终,模型给出了正确答案——E。
这位网友实测后发现,新模型的推理能力实在强大,不光破解了单词网格难题,甚至连复杂的经济学问题都做得出来。
设想太阳能和模块化核反应堆的广泛应用带来了巨大的能源供应,从经济学的角度深入思考未来十年可能出现的经济变化。请详尽地分析可能产生的影响。
模型给出的答案是:通货膨胀率会下降,经济环境会发生重大变化。
结论:变革的十年如果太阳能和模块化核反应堆(SMR)电力的充足性和可负担性得以实现,未来十年将见证一场深刻的经济变革。我们可以预期通货膨胀率下降,经济环境发生重大变化。
Hallid.ai联创indigo给了它一道填数题,Thinking只需要20秒就做出来了。
而且给出了正确答案。
相比之下,o1就花了40秒,而且还错了。
不过,不知道是不是测试版的原因,Flash Thinking能不能数清楚「草莓」里的r,似乎完全取决于你给了啥prompt……
相比之下,我们在本地跑的QWQ,可以轻松解决这个问题。
参考资料:
https://x.com/JeffDean/status/1869789813232341267
https://the-decoder.com/googles-gemini-2-0-flash-thinking-is-googles-answer-to-openais-o1/




新智元
智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。
 最新文章