谷歌 Gemini 1.5 Pro-002 与 Flash-2 发布:快速、优质、低价的AI新选择!

科技   2024-09-25 22:19   湖南  

🍹 Insight Daily 🪺

Aitrainee | 公众号:AI进修生

Hi,这里是Aitrainee,欢迎阅读本期新文章。

继上一次Gemini 1.5的几个Preview推出后,谷歌今天又推送了两个新的模型,Gemini-1.5-Pro-002和Gemini-1.5-Flash-002。

如果你不太了解Gemini 模型之间的差异的话,可以看看下面这张表:

Gemini 1.5 系列模型专为在各种文本、代码和多模式任务中实现一般性能而设计。例如,Gemini 模型可用于合成 1000 页 PDF 中的信息、回答有关包含超过 1 万行代码的存储库的问题、录制长达一小时的视频并从中创建有用的内容等等。

我们看看这次发布的新模型:

新模型整体素质提高,1.5 Pro 和 Flash 002 在 MMLU-Pro (MMLU 基准测试更具挑战性的版本)的提升了约 7%

在 MATH 和 HiddenMath(一组内部保留的竞赛数学问题)基准测试中,两种模型都取得了相当大的进步,约 20%。

对于视觉和代码用例,在衡量视觉理解和 Python 代码生成的评估中,两种模型的表现也更好(范围从约 2-7%)。

原来g1的动态思维链我有在Gemini Preview版本试过,可惜他没有像Llama3.1 70B那样理解并输出每一步

文章:g1:o1推理链开源实现,原理竟如此简单!解决 60-80% 的困扰LLM的简单逻辑问题

但是这次的002可以做到

然后就是大降价 ...

Flash速度更快了:

   输出速度提高 2 倍,延迟减少 3 倍。

我平时基本上用的是Chatgpt,但是需要有其他一个模型用来做辅助,

因为在和Chatgpt进行某个线性流程的对话的时候,针对一些问题会产生一些小的疑问或者是一些附加问题,我不希望这些不太重要的问题影响这个整洁的聊天记录树,为了后面能更好的复习,我需要尽可能少一点下面这种数量的切换。

我希望是比Chatgpt 回答更快,智能程度不要差很大就好。那么Aistudio 的Gemini的几个Preview版本就是我的首选,当然这次之后变成002了。

Gemini也是为数不多的支持历史聊天重写续聊的模型。虽然最灵活的还是GPT的重写续聊,但GPT的不支持删除。

并且 Gemini 是免费的,而且API也是免费的,不会有那么多GPT的限制,谷歌卡多可能是原因之一吧,hhh。

API的免费还是挺有帮助的,比如接入FastGPT、Dify、OneAPI、Continue、Claude Dev。

ClaudeDev 升级:全面支持 o1 & Gemini,升级你的开发体验!

实际测试一下

启动:https://aistudio.google.com/

Strawberry这个单词有几个 r ?

ok,都挂了。

3307是质数吗?(是的)

两个都答对了,但是中文版提问会答错:

GPT4-o英文版提问也错了:

昨天的当天是明天的哪一天 ?

还是Pro强 ...

想让他俩跑一跑Lisp结构化提示词——就是前段时间比较火的“汉语新解”by李继刚。

对了我也生成了一些SVG卡片


开始吧

ok,都稀碎  ...

列出一个源于拉丁语的以相同字母开头和结尾的英语形容词,总共有11个字母,并且所有元音按字母顺序排列。

Pro的"Deleterious" 确实是一个拉丁来源的英语形容词,符合字母和元音的要求。它的长度为11个字母,且以“s”结尾,但开头和结尾字母不同。而Flash的"aeaeaeiaeau" 不符合标准,因为它不是一个英语单词。

所以,都错了

房子里有五个人,A、B、C、D和E,A正在和B看电视,D在睡觉,B正在吃三明治,E在打乒乓球。突然电话响了,B离开房间去接电话,C在做什么?

都对了。

生成一个蝴蝶的SVG代码,Pro的这个很棒,触须、翅膀轮廓、身体都有,这还是我见过最漂亮的一个

Flash还可以

为一个AI公司创建一个登录页面,登录页面应该有四个部分:头部、横幅、功能和联系我们,使用HTML、CSS和JS,使其简洁现代。

Pro的凑合。

Flash的页面很差劲。

总得来说,我们平常大量使用过后会知道哪款模型实际上真的不错,而不是只看基准测试。

用Gemini Pro 002做个辅助模型还不错,当然辅助模型我可能也会选择通义千问。

🌟希望这篇文章对你有帮助,感谢阅读!如果你喜欢这系列文章请以 点赞 / 分享 / 在看 的方式告诉我,以便我用来评估创作方向。


往期推荐



ClaudeDev 升级:全面支持 o1 & Gemini,升级你的开发体验!

Gemini 1.5 实验版 (Pro, Flash, 8B):新款 Gemini 击败 Claude? 且价格低廉(全面测试)

Reflection 70B(已全面测试):这个开源 LLM 击败了 Claude 3.5 Sonnet 和 GPT-4O?

Grok-2(经过全面测试):最佳和无限制的模型就在这里?( 击败 Claude-3.5 Sonnet、GPT-4O!?)

谷歌新小模型Gemma2 2B真的和比它大100倍的模型相当吗?(全面测试

DeepSeek-Coder-V2.1:最佳编码LLM再度升级!(经过全面测试并击败 Claude,GPT-4o)

DeepSeek-V2又双叒升级了,最强开源模型!(DeepSeek-Chat-V2.1开源 & 全面测试

Mistral NeMo:这是现在最好的开源LLM!(经过全面测试并击败 Qwen2、DeepSeek-V2 及其他)

CodeGeeX4-ALL-9B:新的开源代码模型击败了 DeepSeek Coder V2 和 Qwen-2 ?(全面测试                                 

知音难求,自我修炼亦艰

抓住前沿技术的机遇,与我们一起成为创新的超级个体

(把握AIGC时代的个人力量)

点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 

AI进修生
AI算法工程师 / Prompt工程师 / ROS机器人开发者 | 分享AI动态与算法应用资讯,提升技术效率。
 最新文章