Google三大模型齐发，均进Lmarena前十，实测对比Deepseek、Qwen推理能力大增

创业 2025-02-06 11:14 广东

作者｜子川

来源｜AI先锋官

疯狂，Google连发三款模型！

面对Deepseek的爆火出圈，OpenAI忍不住上线全新模型o3-mini，这不，Google也开始按耐不住了，就在今天，三款模型齐上线——

Google目前最强大的模型：Gemini 2.0 Pro实验版。
性价比之王：Gemini 2.0 Flash-Lite。
思维增强版：Gemini 2.0 Flash Thinking。

三款模型一经发布，就轻松霸占了各大榜单。

在Lmarena模型竞技榜中，Gemini 2.0 Pro 实验版直接冲到了第一，Gemini-2.0-Flash排到了前三，就连Gemini-2.0-Flash-lite也挤进前十。

不仅如此，在编程榜单中表现依旧亮眼。Gemini 2.0 Pro实验版超越了DeepSeek、o1等顶尖模型，排在第一位。

三款模型，每一个都有自己的独特本领！

Gemini 2.0 Pro实验版

Gemini 2.0 Pro 实验版是Google目前性能最强的模型，具备顶级的编程能力，拥有更强的知识理解和推理能力。

它支持 200 万token的超大上下文窗口，并具备调用工具的能力（例如 Google 搜索和代码执行）

博主@Shrivastava使用Gemini 2.0 Pro实验版创建了一个太阳系模拟系统，效果十分亮眼。

Gemini 2.0 Flash-Lite

Google的CTO Koray Kavukcuoglu在介绍它时提到：它是目前性价比最高的版本。

它可以为大约 40,000 张独特的照片生成相关的单行字幕，在 Google AI Studio 的付费套餐中成本不到一美元。

不过对比素有AI界拼夕夕的Deepseek来说，还是贵出不少。

同时，Gemini 2.0 Flash-Lite支持100万token的上下文窗口和多模态输入。

Gemini 2.0 Flash

Gemini 2.0 Flash 是一个为开发者量身打造的模型，专门用来处理大规模、高频率的任务，同样也支持100万token的上下文窗口和多模态。

目前三款模型均可以在AI Studio 中免费使用。

链接：https://aistudio.google.com/

今年年初，模型竞争可谓异常激烈，前有DeepSeek强势出击、OpenAI紧急发布o3-mini，后有Qwen Max悄悄发力，挤进Lmarena模型竞技榜前十，现在Google更是连发三款模型。

正好，我们用它们来实测一下，看看哪款模型能脱颖而出。

测试题一：未训练的数学真题

小编在网上找到一道2025高考仿真模拟卷（高三）的数学题，还是填空题最后一道题，先公布正确答案：ACD。

Gemini-2.0 Pro:

Qwen 2.5 Max:

o3-mini:

DeepSeek:

好家伙，只有o3-mini一个人回答错误……

再来一道题看看怎么回事

测试题二：狮子在哪？

题目：某天你走进了一间房间，房间里一共有三扇门，并且旁边有一张纸条，而且纸条上面有一些线索和信息，且具体的信息则是这样的：

线索一：三扇门上面的数均为比十二大，并且比二十小的质数，且狮子所在的门上面的数不是最大的；

线索二：绿色的门不在最右边，且绿色的门与紫色的门不相邻；

线索三：狼所在的门不是橙色，且绿色的门上面的数字不是最大的；

线索四：紫色的门上的编号不是十七，且狮子不在紫色的门里；

线索五：狼不在编号为十三的门里，且绿色的门上的编号不是十七；

线索六：狮子所在的门不在最左边，且与狼所在的门正好相邻；

那么根据以上的线索，请问据此可以推断，狮子究竟在哪一扇门里？

选项A：绿色门

选项B：紫色门

选项C：橙色门

选项D：无法判断

Gemini-2.0 Pro:

Qwen 2.5 Max:

o3-mini:

DeepSeek:

只有Qwen 2.5 Max推理错误，其他模型全部推理成功，那么上上难度。

测试题三：日期推理

题目：如果昨天是明天的话就好了，那么今天就是周五了。请问：实际上，句中的今天可能是周几？

这道题可是老朋友了，之前用于测试o3-mini，遗憾的是最后没有回答出来，控这次Gemini-2.0 Pro是否能回答出来。

Gemini-2.0 Pro:

Qwen 2.5 Max:

o3-mini:

DeepSeek:

o3-mini和Qwen Max推理错误，只有DeepSeek和Gemini 2.0 Pro推理准确。

目前Gemini 2.0 Pro只有还保持全胜的战绩。

测试题四：数草莓

在刷X的时候，突然看到有人分享Gemini-2.0 Pro不会数草莓，果断试了一下，还真不会，不过比大小还是ok的。

测试题五：卖水

题目：沙漠里一个卖水的商人有25公升的水，这时有一个想买19公升的人，还有一个想买12公升的人。水不够卖给2人，只能选一个人卖掉，卖水商只想赶快回家，而从皮囊中倒出1公升水需要10秒，他应卖给谁？

Gemini-2.0 Pro:

DeepSeek:

从这道题可以看出Gemini-2.0 Pro的思维比较灵活，他的想法是只倒出6公升水即可，从而卖给要19公升水的人；

而DeepSeek则循规蹈矩的选择卖给要买12公升水的人，索性那就算他们都对吧。

测试题六：分布匹

题目：一个人在林中散步时，无意中听到了几个强盗在商量如何分赃。强盗们说，如果每人分6匹布，则剩余5匹；如果每人分7匹布，则少8匹。请问：共有几个强盗？几匹布？

Gemini-2.0 Pro:

DeepSeek:

这类问题就是我国数学史上有名的盈亏问题。它有一个固定的公式：(盈 +亏 )/分差 =人数 (单位数 )。所以，这道题的算法就是：(8+5)/(7— 6)=13(强盗人数 )， 13× 6+5=83(布匹数 )。

答案是共有 13个强盗， 83匹布，全部答对。

整体测试下来，会发现Gemini-2.0 Pro的推理能力得到大幅度的增强，同时还保持了之前的优点，推理速度极快。

不过是不是因为还处于实验版本的原因，推理过程中会出现中英混杂的情况。

一觉醒来，看到Google发布的三大模型，而且成绩都还不错，看来今年将又是大模型疯狂卷的一年。

.END.

扫码邀请进群，我们带你一起来玩转ChatGPT、GPT-4、文心一言、通义千问、讯飞星火等AI大模型，顺便学一些AI搞钱技能。

往期文章回顾

‍

AI先锋官

AIGC大模型及应用精选与评测

最新文章

“李飞飞团队50美元复刻DeepSeek R1”之辨

Google三大模型齐发，均进Lmarena前十，实测对比Deepseek、Qwen推理能力大增

OpenAI 急推 o3-mini 救场，实测与DeepSeek谁是最强推理大模型

除夕无休! DeepSeek 推多模态大模型Janus-Pro，实测生图效果一般

春节旅行前，请收下夸克AI锦囊

实测豆包全家桶，推理、视觉、语音能力大增，唱歌居然跑调

均不输o1，DeepSeek、Kimi 撞车发布最新模型

实测，小红书正式上线翻译功能

对比可灵、vidu2.0，实测 Luma AI 全新视频模型Ray2

OpenAI开年首发Tasks，AI agent真的要来了？

马斯克xAI首推Grok APP，我们实测发现了这些震惊和翻车

DeepSeek推出手机App，实测体验就一个字“快”

王星被绑架案敲响警钟，看看这款国外的“黛西奶奶”AI反诈工具

“被埋男孩图”涉案者被行拘，我们实测了这些AI图鉴别工具

实测！谷歌最火 AI 工具NotebookLM重磅更新

英伟达Cosmos平台阳谋

实测天工4.0，比肩o1，力压kimi，推理能力大增！

最全！英伟达 CES 2025 发布会核心产品与技术详解

黄仁勋CES 2025演讲实录，现场“王炸”不断，5090显卡、3000美元个人AI超算等等

第一时间评测：罗永浩首个AI产品J1 Assistant，只支持英文并限制国内IP

一文带您看懂AI agent

英伟达AI科学家Jim Fan 2024年盘点(全文):DeepSeek是开源LLMs领域最大黑马

对比测试可灵1.5 ，及PK Veo2，可灵1.6物理规律、语义理解等能力皆大幅提升

DeepSeek V3 引发AI路径之辩：从“鹦鹉学舌”到“乌鸦喝水”？

理想汽车做了个独立的 AI APP

突然刷屏的ai界“拼多多”deepseek

新王诞生！阿里通义开源多模态推理模型QVQ，实测杀赢旧王ChatGPT o1

我们让这些 AI 大模型推选了 “2024年10大AI产品”

最全！ OpenAI 12天直播大戏合集（文字+视频）

又是期货，OpenAI推出全新推理模型o3，实力远超o1

深夜发布！英伟达 Jetson Orin Nano“掌中超算”到底有多强？

Sora发布即翻车，谷歌Veo2偷塔AI视频新王？

最全！AI大模型订阅和API价格全球排行榜

Kimi 终于出手多模态！实测视觉思考模型 K1.VS. 正式版o1，不相上下

AI驱动人形机器人大爆发（附:最新锐34款人形机器人视频）

实测谷歌Gemini 2.0：数数、推理翻车，多模态惊艳，编程输Claude

新增视频编辑功能，OpenAI最大期货Sora兑现，奥特曼称其视频版 GPT-1

Sora v2即将发布，支持生成一分钟视频、多场景切换、完美的角色一致性

OpenAI上线o1满血版，ChatGPT Pro 会员200美元/月被吐槽

谷歌Genie2:单图生成无限可交互 3D 世界，马斯克要用它做游戏

“一图一世界”！李飞飞World labs 最全视频 Demo 合集

实测腾讯开源混元视频模型：PK 可灵、即梦，效果不赖

李飞飞《经济学人》撰文：AI 革命始于大语言模型，下一步是基于视觉的空间大模型

搭载阶跃大模型，这款二次元 AI 应用可读出任意物件灵魂

周鸿祎为它拍短剧，实测纳米搜索是视频创作工具，不是 AI 搜索

可口可乐AI圣诞广告惹争议，网友:令人毛骨悚然（附:其他7个品牌 AI广告）

Sora 接口泄露三小时:网友创作视频“最全合集”（附:艺术家对 OpenAI 控诉信全文）

k0-math模型上线Kimi，实测效果还不错

Luma 紧跟Runway半小时推文-图-视频模型，我们实测效果一言难尽

搜狗输入法嵌入AI 搜索功能，实测很丝滑，对比微信输入法 AI 会如何？

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉