Gemini 2.0发布!主打Agent+多模态,性能超1.5 Pro、可直接生成音频、图片

文摘   2024-12-12 07:29   湖北  
在 1.0 发布 10 个月后,谷歌在今天发布 Gemini 2.0 Flash,第一家实现原生多模态输入输出的模型。

DeepMind CEO Hassabis 说,「它的表现与当前的 1.5 Pro 型号一样出色。因此,你可以将其视为在相同成本效益、性能效率和速度下,整整提升了一个档次。我们对此非常满意。」而且,它不仅在执行 Gemini 过去能完成的任务上表现更优,还能完成新的任务。Gemini 2.0  现在能够原生生成音频和图像,并带来了新的多模态能力,Hassabis 表示,这些能力为 AI 领域的下一个重大突破——Agent,奠定了基础。

可以说,原生多模态输入、输出的大模型时代来了。

本次主要发布四款产品:Gemini 2.0 Flash 、通用助手 Project Astra 的新进展、Project Mariner 浏览器 Agent 助手、AI 代码助手 Jules。

现在可以在 Gemini 网页端使用 Gemini 2.0 Flash,稍后会在 Gemini app 中推出。

开发者可以在 Google AI Studio 和 Vertex AI 使用 Gemini 2.0 Flash 模型,所有开发者均可使用多模态输入和文本输出,产品将于 1 月份全面上市,届时将推出更多型号。

点击关注,每天更新深度 AI 行业洞察

01 

原生多模态输入输出,

速度是 1.5 Pro 的 2 倍

与 1.5 Flash 相比,Gemini 2.0 Flash 在同样快速的响应时间下性能进一步增强。值得一提的是,2.0 Flash 在关键基准测试中甚至超越了 1.5 Pro,其速度是 1.5 Pro 的两倍。

同时 2.0 Flash 还具有新功能,除了能够支持图片、视频和音频等多模态输入,2.0 Flash 现在还可以支持多模态输出,例如可以直接生成图像与文本混合的内容,以及原生生成可控的多语言文本转语音 (TTS) 音频。它还可以原生调用 Google Search、代码执行以及第三方用户定义的函数等工具。

开发者将能够使用  Gemini 2.0 Flash 生成包含文本、音频和图像的集成响应——这一切都通过单一 API  调用实现。这些新的输出模式现已向早期测试者开放,预计明年将更广泛地推广。所有图像和音频输出中将启用 SynthID  隐形水印。

  • 多语言原生音频输出:Gemini 2.0 Flash 具备原生文本转语音功能,不仅让开发者能精细控制模型说什么,还能掌控其表达方式,提供 8 种高质量语音选择,涵盖多种语言及口音。

  • 原生图像输出:Gemini 2.0 Flash 现可直接生成图像,并支持对话式多轮编辑。它能够输出交错的文本与图像,适用于食谱等多模态内容创作。

Gemini  2.0 已训练成能够使用工具——这是构建 Agent 体验的基础能力。它不仅能够原生调用 Google  搜索和代码执行等工具,还能通过函数调用方式集成自定义的第三方功能原生使用 Google  搜索作为工具,能带来更准确、全面的回答,并增加对发布者的访问量。同时,支持并行运行多个搜索,通过从多源头同时获取更相关的事实并综合以提高信息检索的准确性。

开发者现在可以构建实时多模态应用,支持来自摄像头或屏幕的音视频流输入。自然对话模式如打断和语音活动检测均得到支持。API 支持将多个工具整合在一起,通过一次 API 调用完成复杂用例。


02 

Project Astra 大更新,

谷歌新眼镜出镜

基于 Gemini 2.0 Flash 的版本,谷歌今年 I/O 上推出的通用助手 Project Astra 有了很多功能的更新。

  • 更流畅的对话:Project Astra 现在可以在多种语言和混合语言之间进行对话,并且能够更好地理解不同口音和生僻单词。

  • 新工具的使用:借助 Gemini 2.0,Project Astra 可以使用 Google Search、Google Lens 和 Google Maps,从而在日常生活中更好地发挥助手作用。

  • 更强的记忆力:谷歌增强了 Project Astra 的记忆能力,现在,它最多可以记住长达 10 分钟的会话内容,并且可以回忆起过去与它进行的更多对话。

  • 更低的延迟:借助新的流式处理技术和原生音频理解能力,该智能体能够以近于人类对话的延迟来理解语言。

借助 AI 助手 Gemini app 以及智能眼镜(不确定是否是首次亮相)等其他设备,谷歌正在将这些功能正在将这些功能应用于 Google 的的更多产品中。不得不说,智能眼镜对于谷歌在 Astra 项目上的努力来说,再合适不过了。

状态:期货,目前尚未全面推出,仅限受信任的测试人员使用。


03 

Project Mariner:

完成复杂任务的浏览器 Agent

在官方新闻稿中,谷歌 CEO 桑达尔·皮查伊将 Agents 定义为「能够更深入地理解你周围的世界,提前多步思考,并在你的监督下代表你采取行动」的模型。

Project Mariner 是使用 Gemini 2.0 构建的早期原型,它能够理解和推理浏览器页面中的信息,包括像素和文本、代码、图像和表单等网页元素,然后通过 Chrome 扩展程序的形式完成任务。

这算是谷歌的「Computer Use」了。

在 WebVoyager 基准测试(该测试针对智能体在端到端的真实世界网页任务的性能)中,Project Mariner 作为单个智能体设置实现了 83.5% 的工作效率,达到了最先进的水平。

出于安全原因和技术限制,目前 Project Mariner 只会在当前激活的网页上工作————你就像站在它身后,看着它使用你的电脑。而它在采取某些敏感操作(如购买某物)之前,会要求用户进行最终确认。

状态:期货,目前尚未全面推出,仅限受信任的测试人员使用。


04 

Jules:AI 代码助手

基于 Gemini 2.0,Jules 以异步方式工作,并与用户的 GitHub 工作流程集成,在专注于实际想要构建的内容时,它负责处理 Bug  修复和其他耗时的任务。

官方声称,利用了搭载代码执行工具的 2.0 Flash,在 SWE-bench Verified 测试中达到了 51.8% 的通过率,Claude 3.5 是 49%。 

Jules 会制定详尽的多步骤计划来解决问题,高效地修改多个文件,甚至准备拉取请求,直接将修复内容提交回 GitHub。

  • 更高的生产力。将问题和编码任务分配给 Jules,以实现异步编码效率。

  • 进度跟踪。实时更新掌握动态,优先处理需关注任务。

  • 完全开发者掌控。随时审查 Jules 创建的计划,并根据需要提供反馈或请求调整。轻松审阅,并在适当时将 Jules 编写的代码合并到您的项目中。

状态:期货,目前 Jules 开放给一小部分可信赖的测试者,并计划在 2025 年初向其他有兴趣的开发者提供。


05 

游戏 Agent:

实时指导你打游戏

上周,谷歌推出了  Genie 2,这是一种世界模型,能够从单一图像中创造出无尽的、可玩的 3D 世界。这一次,他们利用 Gemini 2.0  构建了游戏 Agents,这些 Agent 能帮助用户在视频游戏的虚拟世界中导航。它们仅凭屏幕上的动作就能推理游戏情况,并在实时对话中提供下一步行动的建议。

谷歌与 Supercell 等顶尖的游戏开发团队合作,探索 Agent 在游戏领域的应用。通过测试它们在《部落冲突》、《海岛奇兵》等各种游戏中的表现,来评估它们理解游戏规则、应对挑战的能力。

除了探索虚拟世界的智能体能力外,谷歌还将 Gemini 2.0 的空间推理能力应用于机器人领域,尝试让智能体在现实世界中提供帮助。

除此之外,谷歌还推出了一项名为深度研究(Deep Research)的新功能,基于高级推理和长上下文能力,它能直接帮你干研究助理的活儿——给个主题,自己出报告的那种。有点类似 kimi 的深度搜索。

目前这个新功能在 Gemini Advanced 版本中可用。





更多阅读

来自独立开发者的AI编程上手实战:如何用AI 提高编码效率?哪款工具最好用?
150亿美元估值、从20日活到2亿月活,Discord做对了什么?
拿下诺贝尔奖、Anthropic创始人最看好的领域,AI for Science行业万字解析
做出最好大模型的 CEO,不认为 Scaling Law 撞墙了

转载原创文章请添加微信:founderparker

草台AI
世界潮流 浩浩荡荡 顺之则昌 逆之则亡。AI来了!AIGC,LLM,大模型,规模效应,软件开发
 最新文章