Google三大模型齐发,均进Lmarena前十,实测对比Deepseek、Qwen推理能力大增

创业   2025-02-06 11:14   广东  

作者子川

来源AI先锋官


疯狂,Google连发三款模型!
面对Deepseek的爆火出圈,OpenAI忍不住上线全新模型o3-mini,这不,Google也开始按耐不住了,就在今天,三款模型齐上线——
  • Google目前最强大的模型:Gemini 2.0 Pro实验版。

  • 性价比之王:Gemini 2.0 Flash-Lite。

  • 思维增强版:Gemini 2.0 Flash Thinking。
三款模型一经发布,就轻松霸占了各大榜单。
在Lmarena模型竞技榜中,Gemini 2.0 Pro 实验版直接冲到了第一,Gemini-2.0-Flash排到了前三,就连Gemini-2.0-Flash-lite也挤进前十。
不仅如此,在编程榜单中表现依旧亮眼。Gemini 2.0 Pro实验版超越了DeepSeek、o1等顶尖模型,排在第一位。
三款模型,每一个都有自己的独特本领!


Gemini 2.0 Pro实验版

Gemini 2.0 Pro 实验版是Google目前性能最强的模型,具备顶级的编程能力,拥有更强的知识理解和推理能力。

它支持 200 万token的超大上下文窗口,并具备调用工具的能力(例如 Google 搜索和代码执行)
博主@Shrivastava使用Gemini 2.0 Pro实验版创建了一个太阳系模拟系统,效果十分亮眼。


Gemini 2.0 Flash-Lite

Google的CTO Koray Kavukcuoglu在介绍它时提到:它是目前性价比最高的版本。
它可以为大约 40,000 张独特的照片生成相关的单行字幕,在 Google AI Studio 的付费套餐中成本不到一美元。
不过对比素有AI界拼夕夕的Deepseek来说,还是贵出不少。
同时,Gemini 2.0 Flash-Lite支持100万token的上下文窗口和多模态输入。

Gemini 2.0 Flash

Gemini 2.0 Flash 是一个为开发者量身打造的模型,专门用来处理大规模、高频率的任务,同样也支持100万token的上下文窗口和多模态。
目前三款模型均可以在AI Studio 中免费使用。
链接:https://aistudio.google.com/
今年年初,模型竞争可谓异常激烈,前有DeepSeek强势出击、OpenAI紧急发布o3-mini,后有Qwen Max悄悄发力,挤进Lmarena模型竞技榜前十,现在Google更是连发三款模型。
正好,我们用它们来实测一下,看看哪款模型能脱颖而出。

测试题一:未训练的数学真题
小编在网上找到一道2025高考仿真模拟卷(高三)的数学题,还是填空题最后一道题,先公布正确答案:ACD。
Gemini-2.0 Pro:
Qwen 2.5 Max:
o3-mini:
DeepSeek:
好家伙,只有o3-mini一个人回答错误……
再来一道题看看怎么回事
测试题二:狮子在哪?

题目:某天你走进了一间房间,房间里一共有三扇门,并且旁边有一张纸条,而且纸条上面有一些线索和信息,且具体的信息则是这样的:

线索一:三扇门上面的数均为比十二大,并且比二十小的质数,且狮子所在的门上面的数不是最大的;
线索二:绿色的门不在最右边,且绿色的门与紫色的门不相邻;
线索三:狼所在的门不是橙色,且绿色的门上面的数字不是最大的;
线索四:紫色的门上的编号不是十七,且狮子不在紫色的门里;
线索五:狼不在编号为十三的门里,且绿色的门上的编号不是十七;
线索六:狮子所在的门不在最左边,且与狼所在的门正好相邻;
那么根据以上的线索,请问据此可以推断,狮子究竟在哪一扇门里?
选项A:绿色门
选项B:紫色门
选项C:橙色门
选项D:无法判断
Gemini-2.0 Pro:
Qwen 2.5 Max:
o3-mini:
DeepSeek:

只有Qwen 2.5 Max推理错误,其他模型全部推理成功,那么上上难度。

测试题三:日期推理
题目:如果昨天是明天的话就好了,那么今天就是周五了。请问:实际上,句中的今天可能是周几?
这道题可是老朋友了,之前用于测试o3-mini,遗憾的是最后没有回答出来,控这次Gemini-2.0 Pro是否能回答出来。

Gemini-2.0 Pro:

Qwen 2.5 Max:

o3-mini:
DeepSeek:

o3-mini和Qwen Max推理错误,只有DeepSeek和Gemini 2.0 Pro推理准确。

目前Gemini 2.0 Pro只有还保持全胜的战绩。

测试题四:数草莓

在刷X的时候,突然看到有人分享Gemini-2.0 Pro不会数草莓,果断试了一下,还真不会,不过比大小还是ok的。

测试题五:卖水
题目:沙漠里一个卖水的商人有25公升的水,这时有一个想买19公升的人,还有一个想买12公升的人。水不够卖给2人,只能选一个人卖掉,卖水商只想赶快回家,而从皮囊中倒出1公升水需要10秒,他应卖给谁?

Gemini-2.0 Pro:

DeepSeek:

从这道题可以看出Gemini-2.0 Pro的思维比较灵活,他的想法是只倒出6公升水即可,从而卖给要19公升水的人;
DeepSeek则循规蹈矩的选择卖给要买12公升水的人,索性那就算他们都对吧。
测试题六:分布匹
题目:一个人在林中散步时,无意中听到了几个强盗在商量如何分赃。强盗们说,如果每人分6匹布,则剩余5匹;如果每人分7匹布,则少8匹。请问:共有几个强盗?几匹布?

Gemini-2.0 Pro:

DeepSeek:

这类问题就是我国数学史上有名的盈亏问题。它有一个固定的公式:(盈 +亏 )/分差 =人数 (单位数 )。所以,这道题的算法就是:(8+5)/(7— 6)=13(强盗人数 ), 13× 6+5=83(布匹数 )。
答案是共有 13个强盗, 83匹布,全部答对。
整体测试下来,会发现Gemini-2.0 Pro的推理能力得到大幅度的增强,同时还保持了之前的优点,推理速度极快。
不过是不是因为还处于实验版本的原因,推理过程中会出现中英混杂的情况。
一觉醒来,看到Google发布的三大模型,而且成绩都还不错,看来今年将又是大模型疯狂卷的一年。
 .END.
扫码邀请进群,我们带你一起来玩转ChatGPT、GPT-4、文心一言、通义千问、讯飞星火等AI大模型,顺便学一些AI搞钱技能。



往期文章回顾




AI先锋官
AIGC大模型及应用精选与评测
 最新文章