首页时事民生政务教育文化科技财富体娱健康情感

旅行百科职场楼市企业乐活学术汽车时尚创业美食幽默美体文摘

谷歌 Gemini 1.5 Pro-002 与 Flash-2 发布：快速、优质、低价的AI新选择！

科技 2024-09-25 22:19 湖南

🍹 Insight Daily 🪺

Aitrainee | 公众号：AI进修生

Hi，这里是Aitrainee，欢迎阅读本期新文章。

继上一次Gemini 1.5的几个Preview推出后，谷歌今天又推送了两个新的模型，Gemini-1.5-Pro-002和Gemini-1.5-Flash-002。

如果你不太了解Gemini 模型之间的差异的话，可以看看下面这张表：

Gemini 1.5 系列模型专为在各种文本、代码和多模式任务中实现一般性能而设计。例如，Gemini 模型可用于合成 1000 页 PDF 中的信息、回答有关包含超过 1 万行代码的存储库的问题、录制长达一小时的视频并从中创建有用的内容等等。

我们看看这次发布的新模型：

新模型整体素质提高，1.5 Pro 和 Flash 002 在 MMLU-Pro （MMLU 基准测试更具挑战性的版本）的提升了约 7%。

在 MATH 和 HiddenMath（一组内部保留的竞赛数学问题）基准测试中，两种模型都取得了相当大的进步，约 20%。

对于视觉和代码用例，在衡量视觉理解和 Python 代码生成的评估中，两种模型的表现也更好（范围从约 2-7%）。

原来g1的动态思维链我有在Gemini Preview版本试过，可惜他没有像Llama3.1 70B那样理解并输出每一步

文章：g1：o1推理链开源实现，原理竟如此简单！解决 60-80% 的困扰LLM的简单逻辑问题

但是这次的002可以做到

然后就是大降价 ...

Flash速度更快了：

输出速度提高 2 倍，延迟减少 3 倍。

我平时基本上用的是Chatgpt，但是需要有其他一个模型用来做辅助，

因为在和Chatgpt进行某个线性流程的对话的时候，针对一些问题会产生一些小的疑问或者是一些附加问题，我不希望这些不太重要的问题影响这个整洁的聊天记录树，为了后面能更好的复习，我需要尽可能少一点下面这种数量的切换。

我希望是比Chatgpt 回答更快，智能程度不要差很大就好。那么Aistudio 的Gemini的几个Preview版本就是我的首选，当然这次之后变成002了。

Gemini也是为数不多的支持历史聊天重写续聊的模型。虽然最灵活的还是GPT的重写续聊，但GPT的不支持删除。

并且 Gemini 是免费的，而且API也是免费的，不会有那么多GPT的限制，谷歌卡多可能是原因之一吧，hhh。

API的免费还是挺有帮助的，比如接入FastGPT、Dify、OneAPI、Continue、Claude Dev。

ClaudeDev 升级：全面支持 o1 & Gemini，升级你的开发体验！

实际测试一下

启动：https://aistudio.google.com/

Strawberry这个单词有几个 r ?

ok，都挂了。

3307是质数吗？(是的)

两个都答对了，但是中文版提问会答错：

GPT4-o英文版提问也错了：

昨天的当天是明天的哪一天 ?

还是Pro强 ...

想让他俩跑一跑Lisp结构化提示词——就是前段时间比较火的“汉语新解”by李继刚。

对了我也生成了一些SVG卡片

开始吧

ok，都稀碎 ...

列出一个源于拉丁语的以相同字母开头和结尾的英语形容词，总共有11个字母，并且所有元音按字母顺序排列。

Pro的"Deleterious" 确实是一个拉丁来源的英语形容词，符合字母和元音的要求。它的长度为11个字母，且以“s”结尾，但开头和结尾字母不同。而Flash的"aeaeaeiaeau" 不符合标准，因为它不是一个英语单词。

所以，都错了

房子里有五个人，A、B、C、D和E，A正在和B看电视，D在睡觉，B正在吃三明治，E在打乒乓球。突然电话响了，B离开房间去接电话，C在做什么？

都对了。

生成一个蝴蝶的SVG代码，Pro的这个很棒，触须、翅膀轮廓、身体都有，这还是我见过最漂亮的一个

Flash还可以

为一个AI公司创建一个登录页面，登录页面应该有四个部分：头部、横幅、功能和联系我们，使用HTML、CSS和JS，使其简洁现代。

Pro的凑合。

Flash的页面很差劲。

总得来说，我们平常大量使用过后会知道哪款模型实际上真的不错，而不是只看基准测试。

用Gemini Pro 002做个辅助模型还不错，当然辅助模型我可能也会选择通义千问。

🌟希望这篇文章对你有帮助，感谢阅读！如果你喜欢这系列文章请以 点赞 / 分享 / 在看 的方式告诉我，以便我用来评估创作方向。

往期推荐

ClaudeDev 升级：全面支持 o1 & Gemini，升级你的开发体验！

Gemini 1.5 实验版 (Pro, Flash, 8B)：新款 Gemini 击败 Claude? 且价格低廉（全面测试）

Reflection 70B（已全面测试）：这个开源 LLM 击败了 Claude 3.5 Sonnet 和 GPT-4O？

Grok-2（经过全面测试）：最佳和无限制的模型就在这里？（击败 Claude-3.5 Sonnet、GPT-4O！？）

谷歌新小模型Gemma2 2B真的和比它大100倍的模型相当吗？（全面测试）

DeepSeek-Coder-V2.1：最佳编码LLM再度升级！（经过全面测试并击败 Claude，GPT-4o）

DeepSeek-V2又双叒升级了，最强开源模型！（DeepSeek-Chat-V2.1开源 & 全面测试）

Mistral NeMo：这是现在最好的开源LLM！（经过全面测试并击败 Qwen2、DeepSeek-V2 及其他）

CodeGeeX4-ALL-9B：新的开源代码模型击败了 DeepSeek Coder V2 和 Qwen-2 ？（全面测试）

知音难求，自我修炼亦艰

抓住前沿技术的机遇，与我们一起成为创新的超级个体

（把握AIGC时代的个人力量）

点这里👇关注我，记得标星哦～

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~

http://mp.weixin.qq.com/s?__biz=MzkyMzY1NTM0Mw==&mid=2247494322&idx=1&sn=97f4e42bb58c2126e1b4016453bf60a6

AI算法工程师 / Prompt工程师 / ROS机器人开发者 | 分享AI动态与算法应用资讯，提升技术效率。

最新文章

Napkin AI：这款免费AI工具，能把复杂的想法变成精彩的卡片，效率高到飞起！（Lisp提示词那样）

Memfree：一个混合 AI 搜索引擎，输入输出支持多模态内容（知识库+联网混合Rerank）

面试大厂被怼：怎么连Attention都不会？

GPTMe：这个 AI 代理最简单，可以做任何事情！（控制浏览器、搜索、代码、视觉）

ComfyUI Party：将LLM与图片工作流集成，图片、语音、文本、视觉一体！（graphRAG、ollama）

Bolt.new：这款全新免费编码代理太棒了！轻松超越 v0 和 Cursor！（告别 ChatGPT、Claude）

Flux-1.1 Pro 免费体验：AI绘画最先进的模型刚刚问世！（击败 Flux-1、SD-3！）

Vertex AI + ClaudeDev + Aider：谷歌300美元额度，免费体验 Claude-3.5 API ！

刚刚！最佳语音识别 Whisper-large-v3-turbo 上线，速度更快（本地安装 + Whisper-web）

Aider（已升级）：Aider利用双模型架构做到85% SOTA得分！（架构师/编辑师助你实现编程新高度）

免费工具！如何用Napkins和Llama-3.2快速生成网页应用？

Molmo ：开源多模态LLM超越 GPT-4o（实际测试）

Ai-artifacts：免费使用o1模型！还有Claude Artifacts 功能，几秒生成全栈APP（10+编程任务测试）

全新Llama 3.2系列：性能提升明显，但真的是最优选择吗？（已测试)

谷歌 Gemini 1.5 Pro-002 与 Flash-2 发布：快速、优质、低价的AI新选择！

OpenMusic：新手友好！用AI轻松创作、普通GPU+几行代码生成高质量音乐 - 本地安装

本地AI文件管理器：AI驱动+私有LLM，免费整理你的文件库

Claude Dev（最新升级）：新增文件引用、视觉捕获和更多自定义功能

Qwen-2.5 + ClaudeDev + Aider：这套免费的AI编程工具链，简直太棒了！

快速打造AI应用！Taipy：只用Python，轻松构建生产级AI Web应用，功能强大还简单!

Mistral Small-2 全新发布！API免费用，商业模型大降价50%

Qwen2.5：13个新模型来袭！开源通用、编码、数学模型全解读，72B超越Llama 405B - 本地安装测试

g1：o1推理链开源实现，原理竟如此简单！解决 60-80% 的困扰LLM的简单逻辑问题

Vchitect 2.0：开源文本到视频生成模型，创作20秒高质量短视频 Vs Gen-3、Kling、CogVideoX-5B

Sentient Agent：让 AI 控制你的浏览器，一键完成任务！三行代码自动控制浏览器（填表、查股票、播放视频）

Llama 3.1 70B AQLM-PV版发布！大模型压缩后可在24GB显存GPU上本地运行！！

GameGen-O来了！只需一句话，生成你的梦幻开放世界游戏，AI一键生成“ 类黑神话 ”？

ClaudeDev 升级：全面支持 o1 & Gemini，升级你的开发体验！

DataGemma RAG 27B - 第一款挑战幻觉的模型 - 本地安装

Piiranha-v1 - 使用 AI 模型保护你的个人信息 - 本地安装

Pixtral 12B：本地部署、图像分析和OCR功能全解析

Chai-1模型助力药物研发！一键本地安装，让AI预测分子结构（生物学多模态LLM）

Amica 与 Ollama：语音识别与3D渲染结合的AI聊天助手 - 本地安装

LLaMA-Omni ：Llama-3.1构建的低延迟、高质量端到端语音交互模型，旨在实现 GPT-4o 级别的语音能力

KAN 2.0：MIT 的 “ AI炼金术 ” 能否让科学发现像刷抖音一样快？

升级Ollama！MiniCPM-V2_6图像识别模型上线，适用于手机上单张图片、多张图片和视频的 GPT-4V 级 MLLM

VSCode+Aider+Supermaven：打造免费开源的顶级AI开发环境，别再为Cursor花钱了！

每日AI 9/10：DeepSeek-Coder再进化！音频驱动Loopy、KubeAI Kubernetes 上私有化AI部署

Dark Idol Llama-3.1 8B：最强角色扮演AI，未审查版助你尽情创作、不受限制的互动体验

Crawl4AI：AI驱动的网页抓取神器，结合LLM实现自动化数据提取与处理

Deep Seek V2.5：新一代上线！结合编码与通用能力，超越前作

Yi-Coder 9B、1.5B：最佳小型开源编码LLM就在这里！（击败 DeepSeek、Qwen 及其他）

Reflection 70B（已全面测试）：这个开源 LLM 击败了 Claude 3.5 Sonnet 和 GPT-4O？

ClaudeDev（已升级）：Ollama、Groq全面支持！轻松集成AI工作流

首个100%开源专家混合模型，7B参数仅1B推理成本、开源MoE新选择！（附安装教程）

我的世界中诞生AI文明！1000个自主智能体协作建立经济、文化、宗教和政府

Composio神器登场！为AI代理提供100+集成工具，代码、搜索、API全搞定

Aider （升级版）：最强AI编程助手新版发布！更强大、支持Shell命令、剪切和缓存！

时序+大模型火了！67篇研究洞察，ICLR等顶会热议新方向（LLM Prompt、Agent、视觉）

每日AI：Vercel v0 太棒了！！MLE-Agent、专注RAG与工具调用优化的Command R+

分类

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉