谷歌的Gemini 2.0来了! 这是我见过最强的免费AI助手。

科技 2024-12-12 23:29 湖南

🍹 Insight Daily 🪺

Aitrainee | 公众号：AI进修生

Hi，这里是Aitrainee，欢迎阅读本期新文章。

12月12日凌晨，就在OpenAI轰轰烈烈的"12天连续发布" 进行到第五天时，谷歌发布了他们的重磅更新—— Gemini 2.0 Flash。

说实话, 谷歌这次的发布, 很厉害，很有用，有点坐不住了。

为什么这么说? 且听我慢慢道来。

我首先不是通过官方的博客看到的。我在Google AI Studio上看到了他的这个变化。

实时对话、实时的桌面也共享。他能看到我所看到的一切，甚至还能看到我（实时摄像头）。

左侧栏实时流下面这个是使用Gemini 2.0 Flash来生成的三个经典的程序，并且你可以点击去查看他们在github上的源码。

比如空间理解

还有他这个地图调用

当然还有视频分析。这里就不多说了。

好了，直接先浅浅体验完一波了。现在我们来详细说说吧。

谷歌这次是真的放大招了。。。

还记得去年底Gemini 1.0发布时的轰动吗? 当时谷歌就放出豪言要在AI领域重新夺回话语权。但说实话, 1.0版本虽然不错, 但还是差了那么一点意思。

这次不一样了。Gemini 2.0是一个真正的统一底层模型，它具备了三大基础能力:

一是感知能力 - 不仅能理解文本、图像、视频、音频和代码，还能原生生成图像和多语言音频，不像ChatGPT还需要依赖DALLE等外部模块,语音生成也是单独的模块。

二是记忆能力 - 支持高达200万token的超长上下文理解；

三是工具使用能力 - 可以原生调用Google搜索、执行代码以及使用第三方功能。

正是这三大基础能力的突破，让它成为了一个能支撑各类智能应用的底层基础设施。

皮查伊在发布会上说: " 过去一年,我们一直在投资开发更具主动性的模型。这意味着它们可以更好地理解周围的世界,提前思考多个步骤,并在你的监督下采取行动。"

Gemini 2.0 体验下来，他们确实不是吹牛的。

到底强在哪里?

首先是速度。比起1.5 Pro快了整整两倍, 你提问完按下回车, 答案就已经开始往外冒了。用过Claude的朋友应该懂, 再也不用盯着那个转圈圈等半天了。

然后是多模态能力。现在的Gemini不只是能看图认字那么简单,它能:

- 实时处理视频内容

- 直接生成图像和音频

- 处理实时音视频流（前面已经演示了）

- 理解复杂的多模态输入

它的编程能力，函数调用能力非常出色，加上支持长上下文窗口，这对编程来说简直是救星。

一个博主的操作例子：让它写一个简单的水量追踪App, 它不光直接给出了完整的代码, 还主动提醒我要考虑用户数据持久化和输入验证这些细节。这种主动思考的能力, 着实不错。

免费的午餐真的存在。

要说这次更新最让人兴奋的, 莫过于它的使用政策了。

现在通过Google AI Studio,你可以完全免费使用Gemini 2.0。而且给的额度相当大方:

- 每分钟10次请求

- 每分钟400万tokens上限

- 每天1500次免费请求

- 200万超大上下文窗口

如果你通过Google AI Studio使用该模型，那么它没有速率限制，你可以免费无限次使用。要知道, 这可是旗舰级的AI模型啊。

更大的野心

其实仔细观察就会发现, 谷歌这次的野心可不只是发布一个更强的模型这么简单。

让我们回顾智能体的几大基础能力：记忆、工具使用和规划能力，都在Gemini 2.0中得到了大幅的提升。它不仅能原生调用Google搜索、执行代码以及使用第三方用户定义的功能，还具备了强大的规划和长期记忆能力。

想象一下, 当你在做一个项目时, AI助手不只是被动地等待你的命令, 而是能主动提醒你项目中可能存在的问题, 提前帮你规划接下来的步骤, 这是多么美好的场景。

而 Gemini 2.0, 就是这个未来的第一步。

开发者的福音

对开发者来说, 这次更新带来了更多惊喜:

1. 新的多模态实时API,支持实时音频、视频流输入

2. 支持多个组合工具的使用

3. 通过谷歌AI工作室和Vertex AI向开发者开放

4. 完整版本将于明年1月推出

特别值得一提的是,谷歌还计划推出实验性的AI智能。想象一下, 当你的团队刚完成一次bug清理, 却发现还有一长串bug等着处理。从现在开始, 你可以将Python和Javascript的编码任务交给Jules - 这个基于Gemini 2.0的AI代码助手。

更特别的是，Jules还可以以异步方式工作，并与GitHub工作流程集成。在你专注于核心开发时，它可以在后台帮你处理Bug修复和其他耗时的任务。这在Cursor和Devin上似乎还未做到，更别提OpenAI刚发布的Canva了。

游戏领域的突破

谷歌DeepMind在游戏领域有着深厚的积累。就在上周,他们刚刚推出了Genie 2, 这个AI模型能够仅从一张图片就创建出无限种可玩的3D世界。而现在,基于Gemini 2.0构建的游戏AI代理更是令人惊叹。

他们正在与Supercell等领先游戏开发商合作,探索AI代理在不同类型游戏中的应用。从《部落冲突》这样的策略游戏到《卡通农场》这样的模拟经营游戏,这些AI助手能够:

- 仅通过观察屏幕就理解游戏规则和挑战

- 通过实时对话提供建议

- 调用Google搜索来连接网络上丰富的游戏知识

未来已来

更令人期待的是, 除了在虚拟世界中的应用, 谷歌还在探索如何将Gemini 2.0的空间推理能力应用到机器人领域。

虽然这些研究原型和实验还处于早期阶段, 但已经展示出了令人兴奋的潜力。你可以在labs.google了解更多相关信息。

这意味着谷歌通过一场发布会，在主流智能体应用方向上全部追平业界顶尖水平，甚至还能做出点新花样。

如何用 Gemini 2.0 Flash "搞事情"？

除了直接使用Google AI Studio, 还有一些很酷的方式可以让Gemini 2.0为你效力。

1. Aider：你的免费AI编码"小助手"

Aider 最近更新了排行榜，Gemini 2.0 Flash 的表现还不错，虽然还不能完全和 Sonnet 相提并论，但也足够用了。

• 第一步：领个"钥匙": 先去 Google AI Studio 获取你的 API Key，记得保存好，后面要用。
• 第二步：升级你的"装备": 打开终端，用 aider 命令更新 Aider，或者安装 Aider。
• 第三步：给"装备"充能: 每次打开终端，都要导出你的 Gemini API Key，或者你可以创建一个环境文件，把 API Key 放进去，这样就不用每次都导出了。
• 第四步：启动你的"小助手": 使用 aider --model gemini-2.0-flash-experimental 命令启动 Aider，就可以开始用 Gemini 2.0 Flash 进行 AI 编码了。

2. Cline：你的另一个AI编码"好帮手"

虽然 Cline 还没更新 Gemini 模型列表，但我们可以通过 OpenAI 兼容的方式来使用 Gemini 2.0 Flash。

• 第一步：找到"入口": 在 Cline 中，选择 OpenAI 兼容 API。
• 第二步：输入"密码": 输入 Gemini 的 API 地址和你的 API Key，以及 Gemini 2.0 Flash 的模型名称。
• 第三步：开始你的"表演": 设置好之后，就可以开始用 Klein 进行 AI 编码了。

3. Cursor：最快的编码体验

如果你想要最快的编码体验，Cursor是个不错的选择。目前尝试在chat模式下可以使用，响应速度非常快。在某些编码任务上，这种即时反馈的体验可能会让你爱不释手。

4、数据科学的新玩法

如果你是数据科学家或研究人员, Gemini 2.0还为你带来了一个重磅功能 - Colab的智能代理。

想象一下, 你只需用日常语言描述你的分析目标, Colab就能自动为你生成完整的分析笔记本。这不是科幻, 而是已经在实验中的现实。

一个真实的例子: 劳伦斯伯克利国家实验室的一位科学家在研究全球热带湿地甲烷排放项目时,使用这个数据科学代理将分析处理时间从一周缩短到了五分钟！

如果你想抢先体验这个功能:

1. 现在就可以加入受信任的测试人员计划

2. 或者等待2025年上半年的全面推出

开发工具的全面升级

谷歌还宣布, 未来几个月将把Gemini 2.0带入更多开发平台:

- Android Studio

- Chrome DevTools

- Firebase

- Visual Studio Code

- IntelliJ

- PyCharm等

开发者现在就可以通过Gemini Code Assist使用Gemini 2.0 Flash,在这些IDE中获得增强的编码辅助功能。

想要开始使用? 访问ai.google.dev注册,并关注Google AI for Developers获取最新更新。

我的使用建议

如果你想尝试Gemini 2.0,我的建议是:

1. 先去Google AI Studio注册一个账号

2. 熟悉一下它的基本功能

3. 试着用它来做一些各种实践

4. 多尝试它的多模态能力

相信我, 花时间去熟悉这个工具绝对值得。因为它代表的不只是一个更强的AI模型, 而是AI助手的未来方向。

说实话, 看到谷歌这次的表现, 我觉得AI圈的竞争才刚刚开始。接下来OpenAI会怎么回应? 微软又会使出什么招数? 让我们拭目以待。

如果你也在使用Gemini 2.0, 欢迎在评论区分享你的使用体验。说不定你的经验会帮助到其他正在尝试的朋友。

这篇文章写得比较长, 但我觉得值得。毕竟Gemini 2.0的发布, 确实是最近AI圈最值得关注的大事件之一。

🌟 知音难求，自我修炼亦艰，抓住前沿技术的机遇，与我们一起成为创新的超级个体（把握AIGC时代的个人力量）。

参考链接：
[1] https://developers.googleblog.com/en/the-next-chapter-of-the-gemini-era-for-developers/
[2] https://mp.weixin.qq.com/s/5sVZuzRIDemnc-2IFZ6Keg
[3] https://blog.google/technology/google-deepmind/google-gemini-ai-update-december-2024/#ai-game-agents

点这里👇关注我，记得标星哦～

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~

AI进修生

AI算法工程师 / Prompt工程师 / ROS机器人开发者 | 分享AI动态与算法应用资讯，提升技术效率。

MiniPerplx：一款全新开源的AI搜索引擎，xAI 和 Vercel 赞助。

Gemini CodeGen + Search：全新免费的 AI 编码器与使用Replit2小时复刻Perplexity。

一手体验STORM写作系统，这才是AI写作的未来形态。

DeepSeek Artifacts：全新免费的 AI 编码器，构建公共前端代码数据集（Bolt、V0类）

我用Bolt DIY + Deepseek V3做了个跨年倒计时，2024留给你最后的温暖。

用思维链激活Cursor + Cursor绝不仅仅是代码编辑器。

三分钟带你看完Lovable，这款全新的AI全栈APP构建器击败了Bolt吗？

如何让 Cursor 在大型项目中更好地工作 - 进阶技巧分享

Cursor 0.44版本悄悄上线，体验YOLO模式，我知道编程再也回不去了。

10分钟入门Cursor+Git，让AI编程如虎添翼。

深夜惊喜！谷歌版o1免费上线，支持图片和音频输入！还能在Cursor里用，支持代码批量修改！

从0到1用AI做了个AI服务网站, 全程没写一行代码。

PDF转Markdown，TextIn文档解析工具全体验，兼容多种格式！（附独家免费权益）

又一篇AI顶会！这个idea简直“ 杀疯了 ” ....

告别算力焦虑，轻松玩转大模型，请低调使用

当Claude3.5 遇上 Gemini 2，这个免费的AI编程竞技场炸了。

ChatGPT实时视频通话功能全量开放，AI终于睁开了"眼睛"。

谷歌的Gemini 2.0来了! 这是我见过最强的免费AI助手。

TEN Agent 一键让 Coze Bot 开口说话，这下AI助手终于能跟我聊天了。

我花了72小时研究Cursor Agents，以下是必须分享的硬核干货！

浏览器标签管理太乱？这款神器帮我整理得井井有条！

AI编程 x ，跑提示词 v，开发AI saas网站，全新免费 Websim AI 生成网站、小游戏和工具！

Copycoder：这个工具和 Cursor、Bolt、V0 配合太棒了！提供更好的前端开发提示词（AI导航网站生成）

Cursor从入门到精通：不可错过的七大技巧分享，Agent、Cursorrules（详细教程）

WindSurf+Bolt+Cursor+Sealos：构建AI播客应用程序，前后端分离、对象存储、数据库存储、部署、K8S

终于不用为GPU算力发愁了，趋动云免费算力、火热AI项目一键启动包、大模型微调与部署

V0更新：AI驱动的全栈Web开发工具，击败了Bolt 、Cursor、Windsurf 吗？

中国版的o1来了！DeepSeek-R1-Lite媲美o1-preview，还原完整COT推理过程！

Bolt + Supabase：1分钟实现APP的登陆功能、连接数据库（Bolt、Cursor、BaaS、AI全栈）

豆包MarsCode：AI带你刷题、解析代码仓库、云IDE支持，还免费，这也太酷了吧。

Windsurf：这款全新免费的 AI IDE 击败了Cursor 吗？超强上下文感知、AI代理和工作流支持

Gemini Exp 1114：有史以来最好的大模型！击败 o1-Preview + Claude 3.5 Sonnet！

李彦宏百度世界2024圆桌访谈：应用驱动是第一性原理，百度的多模态能力非常强

Qwen-2.5 Coder (32B)+ Cursor+ Aider：这个最强开源代码模型击败了 Claude、GPT-4o？

使用 Bolt + Cursor 构建任何东西：AI实时语音助手、AI播客应用程序，每个人都可以拥有自己的专属软件。

Ollama 更新！手把手教你用Ollama轻松搭建Llama 3.2 Vision + 视觉RAG系统（本地安装）

Fast GraphRAG：一个比 GraphRAG 更快、成本更低、更高效的RAG框架开源了（本地安装 & 测试）

Grok-2 免费API + Cline : 使用Grok API 免费运行AI编码代理，每月都有25美元免费额度！

Cofounder：这个新的AI代理，全栈架构师+项目经理，一个提示生成应用（比 Aider、v0、Cline 更强吗？）

Bolt + 免费的Mistral 和 Github API：免费且强大的AI代理工作流，无需V0（o1-preview免费）

媲美GPT4o！教你用智谱GLM-4-Plus在Fastgpt、Dify中构建知识库，并结合o1思维链和工具调用！

幻图AI：一款全新免费工具，换脸、换装、文生图、创意融合，轻松搞定！（无需 ComfyUI、Midjourney）

LongVU：Meta AI 开源长视频语言理解的多模态模型！能记住视频中的细节，处理大量视频帧！

MaskGCT：这款全新的开源语音大模型太强了，击败CosyVoice、XTTS-v2（视频翻译、声音克隆、跨语种合成）

Claude出来后，还有这些 Agent 代理操作电脑，很棒。

开源向量数据库哪个好？Milvus、Chroma 和 Qdrant 的选择指南

Claude 3.5 Sonnet 升级后，很强。用它写代码不知道有多爽。

一键翻译视频！SoniTranslate 轻松生成多语言音频与字幕，满足教育、内容创作、跨文化交流需求！

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉