Gemini 2.0发布！主打Agent+多模态，性能超1.5 Pro、可直接生成音频、图片

文摘 2024-12-12 07:29 湖北

在 1.0 发布 10 个月后，谷歌在今天发布 Gemini 2.0 Flash，第一家实现原生多模态输入输出的模型。

DeepMind CEO Hassabis 说，「它的表现与当前的 1.5 Pro 型号一样出色。因此，你可以将其视为在相同成本效益、性能效率和速度下，整整提升了一个档次。我们对此非常满意。」而且，它不仅在执行 Gemini 过去能完成的任务上表现更优，还能完成新的任务。Gemini 2.0 现在能够原生生成音频和图像，并带来了新的多模态能力，Hassabis 表示，这些能力为 AI 领域的下一个重大突破——Agent，奠定了基础。

可以说，原生多模态输入、输出的大模型时代来了。

本次主要发布四款产品：Gemini 2.0 Flash 、通用助手 Project Astra 的新进展、Project Mariner 浏览器 Agent 助手、AI 代码助手 Jules。

现在可以在 Gemini 网页端使用 Gemini 2.0 Flash，稍后会在 Gemini app 中推出。

开发者可以在 Google AI Studio 和 Vertex AI 使用 Gemini 2.0 Flash 模型，所有开发者均可使用多模态输入和文本输出，产品将于 1 月份全面上市，届时将推出更多型号。

点击关注，每天更新深度 AI 行业洞察

01 原生多模态输入输出，

速度是 1.5 Pro 的 2 倍

与 1.5 Flash 相比，Gemini 2.0 Flash 在同样快速的响应时间下性能进一步增强。值得一提的是，2.0 Flash 在关键基准测试中甚至超越了 1.5 Pro，其速度是 1.5 Pro 的两倍。

同时 2.0 Flash 还具有新功能，除了能够支持图片、视频和音频等多模态输入，2.0 Flash 现在还可以支持多模态输出，例如可以直接生成图像与文本混合的内容，以及原生生成可控的多语言文本转语音 (TTS) 音频。它还可以原生调用 Google Search、代码执行以及第三方用户定义的函数等工具。

开发者将能够使用 Gemini 2.0 Flash 生成包含文本、音频和图像的集成响应——这一切都通过单一 API 调用实现。这些新的输出模式现已向早期测试者开放，预计明年将更广泛地推广。所有图像和音频输出中将启用 SynthID 隐形水印。

多语言原生音频输出：Gemini 2.0 Flash 具备原生文本转语音功能，不仅让开发者能精细控制模型说什么，还能掌控其表达方式，提供 8 种高质量语音选择，涵盖多种语言及口音。
原生图像输出：Gemini 2.0 Flash 现可直接生成图像，并支持对话式多轮编辑。它能够输出交错的文本与图像，适用于食谱等多模态内容创作。

Gemini 2.0 已训练成能够使用工具——这是构建 Agent 体验的基础能力。它不仅能够原生调用 Google 搜索和代码执行等工具，还能通过函数调用方式集成自定义的第三方功能。原生使用 Google 搜索作为工具，能带来更准确、全面的回答，并增加对发布者的访问量。同时，支持并行运行多个搜索，通过从多源头同时获取更相关的事实并综合以提高信息检索的准确性。

开发者现在可以构建实时多模态应用，支持来自摄像头或屏幕的音视频流输入。自然对话模式如打断和语音活动检测均得到支持。API 支持将多个工具整合在一起，通过一次 API 调用完成复杂用例。

02 Project Astra 大更新，

谷歌新眼镜出镜

基于 Gemini 2.0 Flash 的版本，谷歌今年 I/O 上推出的通用助手 Project Astra 有了很多功能的更新。

更流畅的对话：Project Astra 现在可以在多种语言和混合语言之间进行对话，并且能够更好地理解不同口音和生僻单词。
新工具的使用：借助 Gemini 2.0，Project Astra 可以使用 Google Search、Google Lens 和 Google Maps，从而在日常生活中更好地发挥助手作用。
更强的记忆力：谷歌增强了 Project Astra 的记忆能力，现在，它最多可以记住长达 10 分钟的会话内容，并且可以回忆起过去与它进行的更多对话。
更低的延迟：借助新的流式处理技术和原生音频理解能力，该智能体能够以近于人类对话的延迟来理解语言。

借助 AI 助手 Gemini app 以及智能眼镜（不确定是否是首次亮相）等其他设备，谷歌正在将这些功能正在将这些功能应用于 Google 的的更多产品中。不得不说，智能眼镜对于谷歌在 Astra 项目上的努力来说，再合适不过了。

状态：期货，目前尚未全面推出，仅限受信任的测试人员使用。

03 Project Mariner：

完成复杂任务的浏览器 Agent

在官方新闻稿中，谷歌 CEO 桑达尔·皮查伊将 Agents 定义为「能够更深入地理解你周围的世界，提前多步思考，并在你的监督下代表你采取行动」的模型。

Project Mariner 是使用 Gemini 2.0 构建的早期原型，它能够理解和推理浏览器页面中的信息，包括像素和文本、代码、图像和表单等网页元素，然后通过 Chrome 扩展程序的形式完成任务。

这算是谷歌的「Computer Use」了。

在 WebVoyager 基准测试（该测试针对智能体在端到端的真实世界网页任务的性能）中，Project Mariner 作为单个智能体设置实现了 83.5% 的工作效率，达到了最先进的水平。

出于安全原因和技术限制，目前 Project Mariner 只会在当前激活的网页上工作————你就像站在它身后，看着它使用你的电脑。而它在采取某些敏感操作（如购买某物）之前，会要求用户进行最终确认。

状态：期货，目前尚未全面推出，仅限受信任的测试人员使用。

04 Jules：AI 代码助手

基于 Gemini 2.0，Jules 以异步方式工作，并与用户的 GitHub 工作流程集成，在专注于实际想要构建的内容时，它负责处理 Bug 修复和其他耗时的任务。

官方声称，利用了搭载代码执行工具的 2.0 Flash，在 SWE-bench Verified 测试中达到了 51.8% 的通过率，Claude 3.5 是 49%。　

Jules 会制定详尽的多步骤计划来解决问题，高效地修改多个文件，甚至准备拉取请求，直接将修复内容提交回 GitHub。

更高的生产力。将问题和编码任务分配给 Jules，以实现异步编码效率。
进度跟踪。实时更新掌握动态，优先处理需关注任务。
完全开发者掌控。随时审查 Jules 创建的计划，并根据需要提供反馈或请求调整。轻松审阅，并在适当时将 Jules 编写的代码合并到您的项目中。

状态：期货，目前 Jules 开放给一小部分可信赖的测试者，并计划在 2025 年初向其他有兴趣的开发者提供。

05 游戏 Agent：

实时指导你打游戏

上周，谷歌推出了 Genie 2，这是一种世界模型，能够从单一图像中创造出无尽的、可玩的 3D 世界。这一次，他们利用 Gemini 2.0 构建了游戏 Agents，这些 Agent 能帮助用户在视频游戏的虚拟世界中导航。它们仅凭屏幕上的动作就能推理游戏情况，并在实时对话中提供下一步行动的建议。

谷歌与 Supercell 等顶尖的游戏开发团队合作，探索 Agent 在游戏领域的应用。通过测试它们在《部落冲突》、《海岛奇兵》等各种游戏中的表现，来评估它们理解游戏规则、应对挑战的能力。

除了探索虚拟世界的智能体能力外，谷歌还将 Gemini 2.0 的空间推理能力应用于机器人领域，尝试让智能体在现实世界中提供帮助。

除此之外，谷歌还推出了一项名为深度研究（Deep Research）的新功能，基于高级推理和长上下文能力，它能直接帮你干研究助理的活儿——给个主题，自己出报告的那种。有点类似 kimi 的深度搜索。

目前这个新功能在 Gemini Advanced 版本中可用。

更多阅读

来自独立开发者的AI编程上手实战：如何用AI 提高编码效率？哪款工具最好用？

150亿美元估值、从20日活到2亿月活，Discord做对了什么?

拿下诺贝尔奖、Anthropic创始人最看好的领域，AI for Science行业万字解析

做出最好大模型的 CEO，不认为 Scaling Law 撞墙了

转载原创文章请添加微信：founderparker

草台AI

世界潮流浩浩荡荡顺之则昌逆之则亡。AI来了!AIGC，LLM，大模型，规模效应，软件开发

斯坦福的STORM项目之后，我们还能这样让AI成为最强写作指导

Agents is all you need！谷歌发布 AI Agent 白皮书

19k! 斯坦福大学出品的这个项目, 让AI写出高质量文章, 7万人已使用

灵魂的低语：AI与文字的交响

2024，我追过的 AI 风口

让你的小说脱颖而出！AI一键打造完美故事蓝图

一键生成小说开局，快速吸引注意力，让创作更轻松

一键生成小说人物设定，让创作更轻松

206分钟，雷军首次袒露造车心声：我不想输，更不愿辜负大家！

告别“读后忘”！用AI大模型轻松驾驭深度阅读，渐进式摘要了解一下？

掌握2024年LLM发展脉络，AI时代不掉队！

吴恩达年度AI复盘：Agent崛起、价格暴跌、模型瘦身，2024 AI 狂飙！

Sam Altman 揭示生产力复利的秘密，让你轻松领先 99% 的人 —— 读《Productivity》有感

Codeium支持支付宝付款了! 一分钟解锁 AI 编程，开启 10 倍效率加速！

AI 都混进课堂了，这事儿可真有趣——学学日本人咋玩的！

你可能不知道：Google AI正在悄悄改变各行各业

喂饭级别教程，从零开始学习Transformer模型的原理

告别信息爆炸：三种AI摘要策略，让你阅读效率飙升10倍！

告别加班！这款 AI 数据神器，让你像聊天一样轻松搞定数据！

用LangChain教AI模仿你的写作风格：详细教程

Anthropic宣告智能体时代来临: 如何构建高效的智能体, 从入门到实践的全面指南

AI大厂Claude 官方深度解析：提示词工程的最佳实践

让你的创作灵感永不枯竭，就像是装上了永动机

OpenAI 新货详解：大量接口/价格更新，还有 Go/Java SDK

这个提示词价值不菲，轻松突破大语言模型的写作瓶颈

OpenAI 新货详解：搜索更新

这款最受欢迎的谷歌浏览器插件，改变了我的阅读习惯!

AI如何帮助我们更好地表达 - 辅助思维分析，让头脑更清晰

AI如何帮助我们更好地表达 - 电商平台商品介绍文案写作，提升转化率

AI如何帮助我们更好地表达自己-营销文案写作

颠覆工作方式！Google Agentspace 用AI解锁企业智慧，让效率飞跃式提升！

Ilya Sutskever深度解析：十年AI之旅与Scaling Laws的未来启示

OpenAI 新货详解：Project

谷歌从来就没有落后，这一波gemini 2.0可太牛了，贾维斯来了！

OpenAI 新货详解：视频通话/共享屏幕

从'胡言乱语'到'条理清晰'：多Agent写作法如何拯救AI长文写作

Gemini 2.0发布！主打Agent+多模态，性能超1.5 Pro、可直接生成音频、图片

深度赋能日常交流：解锁互联网黑话的降维打击

OpenAI 新货详解：Canvas 更新，可运行 Python

OpenAI 新货详解：Sora，附各种案例

AI顶级专家也爱读的书：Andrej Karpathy的惊人阅读品味大揭秘

犀利段子手，毒舌观察家的日常吐槽

别再用老套的提示词了！这些创新方法让AI输出质量翻倍！

ChatGPT两年：一场技术革命的亲身体验

OpenAI 新货详解：强化微调

OpenAI 新货详解：o1 正式版 /ChatGPT Pro

10分钟优化：用AI提升简历竞争力，帮你快速赢得面试机会！

RAG评估最佳实践：综合指南

年底述职报告太难了？试试这个Prompt，轻松搞定！

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉