🍹 Insight Daily 🪺
Aitrainee | 公众号:AI进修生
Hi,这里是Aitrainee,欢迎阅读本期新文章。
12月12日凌晨,就在OpenAI轰轰烈烈的"12天连续发布" 进行到第五天时,谷歌发布了他们的重磅更新—— Gemini 2.0 Flash。说实话, 谷歌这次的发布, 很厉害,很有用,有点坐不住了。我首先不是通过官方的博客看到的。我在Google AI Studio上看到了他的这个变化。实时对话、实时的桌面也共享。他能看到我所看到的一切,甚至还能看到我(实时摄像头)。左侧栏实时流下面这个是使用Gemini 2.0 Flash来生成的三个经典的程序,并且你可以点击去查看他们在github上的源码。
好了,直接先浅浅体验完一波了。现在我们来详细说说吧。
还记得去年底Gemini 1.0发布时的轰动吗? 当时谷歌就放出豪言要在AI领域重新夺回话语权。但说实话, 1.0版本虽然不错, 但还是差了那么一点意思。这次不一样了。Gemini 2.0是一个真正的统一底层模型,它具备了三大基础能力:一是感知能力 - 不仅能理解文本、图像、视频、音频和代码,还能原生生成图像和多语言音频,不像ChatGPT还需要依赖DALLE等外部模块,语音生成也是单独的模块。二是记忆能力 - 支持高达200万token的超长上下文理解;三是工具使用能力 - 可以原生调用Google搜索、执行代码以及使用第三方功能。正是这三大基础能力的突破,让它成为了一个能支撑各类智能应用的底层基础设施。皮查伊在发布会上说: " 过去一年,我们一直在投资开发更具主动性的模型。这意味着它们可以更好地理解周围的世界,提前思考多个步骤,并在你的监督下采取行动。"Gemini 2.0 体验下来,他们确实不是吹牛的。首先是速度。比起1.5 Pro快了整整两倍, 你提问完按下回车, 答案就已经开始往外冒了。用过Claude的朋友应该懂, 再也不用盯着那个转圈圈等半天了。然后是多模态能力。现在的Gemini不只是能看图认字那么简单,它能:它的编程能力,函数调用能力非常出色,加上支持长上下文窗口,这对编程来说简直是救星。一个博主的操作例子:让它写一个简单的水量追踪App, 它不光直接给出了完整的代码, 还主动提醒我要考虑用户数据持久化和输入验证这些细节。这种主动思考的能力, 着实不错。要说这次更新最让人兴奋的, 莫过于它的使用政策了。现在通过Google AI Studio,你可以完全免费使用Gemini 2.0。而且给的额度相当大方:如果你通过Google AI Studio使用该模型,那么它没有速率限制,你可以免费无限次使用。要知道, 这可是旗舰级的AI模型啊。更大的野心
其实仔细观察就会发现, 谷歌这次的野心可不只是发布一个更强的模型这么简单。让我们回顾智能体的几大基础能力:记忆、工具使用和规划能力,都在Gemini 2.0中得到了大幅的提升。它不仅能原生调用Google搜索、执行代码以及使用第三方用户定义的功能,还具备了强大的规划和长期记忆能力。想象一下, 当你在做一个项目时, AI助手不只是被动地等待你的命令, 而是能主动提醒你项目中可能存在的问题, 提前帮你规划接下来的步骤, 这是多么美好的场景。而 Gemini 2.0, 就是这个未来的第一步。开发者的福音
1. 新的多模态实时API,支持实时音频、视频流输入3. 通过谷歌AI工作室和Vertex AI向开发者开放特别值得一提的是,谷歌还计划推出实验性的AI智能。想象一下, 当你的团队刚完成一次bug清理, 却发现还有一长串bug等着处理。从现在开始, 你可以将Python和Javascript的编码任务交给Jules - 这个基于Gemini 2.0的AI代码助手。更特别的是,Jules还可以以异步方式工作,并与GitHub工作流程集成。在你专注于核心开发时,它可以在后台帮你处理Bug修复和其他耗时的任务。这在Cursor和Devin上似乎还未做到,更别提OpenAI刚发布的Canva了。游戏领域的突破
谷歌DeepMind在游戏领域有着深厚的积累。就在上周,他们刚刚推出了Genie 2, 这个AI模型能够仅从一张图片就创建出无限种可玩的3D世界。而现在,基于Gemini 2.0构建的游戏AI代理更是令人惊叹。他们正在与Supercell等领先游戏开发商合作,探索AI代理在不同类型游戏中的应用。从《部落冲突》这样的策略游戏到《卡通农场》这样的模拟经营游戏,这些AI助手能够:- 调用Google搜索来连接网络上丰富的游戏知识未来已来
更令人期待的是, 除了在虚拟世界中的应用, 谷歌还在探索如何将Gemini 2.0的空间推理能力应用到机器人领域。虽然这些研究原型和实验还处于早期阶段, 但已经展示出了令人兴奋的潜力。你可以在labs.google了解更多相关信息。这意味着谷歌通过一场发布会,在主流智能体应用方向上全部追平业界顶尖水平,甚至还能做出点新花样。
如何用 Gemini 2.0 Flash "搞事情"?
除了直接使用Google AI Studio, 还有一些很酷的方式可以让Gemini 2.0为你效力。
1. Aider:你的免费AI编码"小助手"
Aider 最近更新了排行榜,Gemini 2.0 Flash 的表现还不错,虽然还不能完全和 Sonnet 相提并论,但也足够用了。
• 第一步:领个"钥匙": 先去 Google AI Studio 获取你的 API Key,记得保存好,后面要用。
• 第二步:升级你的"装备": 打开终端,用 aider
命令更新 Aider,或者安装 Aider。
• 第三步:给"装备"充能: 每次打开终端,都要导出你的 Gemini API Key,或者你可以创建一个环境文件,把 API Key 放进去,这样就不用每次都导出了。
• 第四步:启动你的"小助手": 使用 aider --model gemini-2.0-flash-experimental
命令启动 Aider,就可以开始用 Gemini 2.0 Flash 进行 AI 编码了。
2. Cline:你的另一个AI编码"好帮手"
虽然 Cline 还没更新 Gemini 模型列表,但我们可以通过 OpenAI 兼容的方式来使用 Gemini 2.0 Flash。
• 第一步:找到"入口": 在 Cline 中,选择 OpenAI 兼容 API。
• 第二步:输入"密码": 输入 Gemini 的 API 地址和你的 API Key,以及 Gemini 2.0 Flash 的模型名称。
• 第三步:开始你的"表演": 设置好之后,就可以开始用 Klein 进行 AI 编码了。
3. Cursor:最快的编码体验
如果你想要最快的编码体验,Cursor是个不错的选择。目前尝试在chat模式下可以使用,响应速度非常快。在某些编码任务上,这种即时反馈的体验可能会让你爱不释手。
4、数据科学的新玩法
如果你是数据科学家或研究人员, Gemini 2.0还为你带来了一个重磅功能 - Colab的智能代理。想象一下, 你只需用日常语言描述你的分析目标, Colab就能自动为你生成完整的分析笔记本。这不是科幻, 而是已经在实验中的现实。一个真实的例子: 劳伦斯伯克利国家实验室的一位科学家在研究全球热带湿地甲烷排放项目时,使用这个数据科学代理将分析处理时间从一周缩短到了五分钟!开发工具的全面升级
谷歌还宣布, 未来几个月将把Gemini 2.0带入更多开发平台:开发者现在就可以通过Gemini Code Assist使用Gemini 2.0 Flash,在这些IDE中获得增强的编码辅助功能。想要开始使用? 访问ai.google.dev注册,并关注Google AI for Developers获取最新更新。我的使用建议
1. 先去Google AI Studio注册一个账号相信我, 花时间去熟悉这个工具绝对值得。因为它代表的不只是一个更强的AI模型, 而是AI助手的未来方向。说实话, 看到谷歌这次的表现, 我觉得AI圈的竞争才刚刚开始。接下来OpenAI会怎么回应? 微软又会使出什么招数? 让我们拭目以待。如果你也在使用Gemini 2.0, 欢迎在评论区分享你的使用体验。说不定你的经验会帮助到其他正在尝试的朋友。这篇文章写得比较长, 但我觉得值得。毕竟Gemini 2.0的发布, 确实是最近AI圈最值得关注的大事件之一。🌟 知音难求,自我修炼亦艰,抓住前沿技术的机遇,与我们一起成为创新的超级个体(把握AIGC时代的个人力量)。参考链接:
[1] https://developers.googleblog.com/en/the-next-chapter-of-the-gemini-era-for-developers/
[2] https://mp.weixin.qq.com/s/5sVZuzRIDemnc-2IFZ6Keg
[3] https://blog.google/technology/google-deepmind/google-gemini-ai-update-december-2024/#ai-game-agents点这里👇关注我,记得标星哦~
一键三连「分享」、「点赞」和「在看」
科技前沿进展日日相见 ~