谷歌深夜祭出Gemini 2.0 “硬刚”OpenAI，还让开发者免费试用！Agent时代最强模型登场了？

科技 2024-12-13 16:38 辽宁

作者 | 冬梅

就在 OpenAI“12 天连续轰炸”的第五天，谷歌终于坐不住了。

刚刚，谷歌正式发布了 Gemini 2.0 系列人工智能模型的首个版本，该模型名为 Gemini 2.0 Flash，提供聊天版本供全球用户使用，同时还有一个实验版的模型可供开发人员免费使用，该版本具有文本转语音和图像生成功能。

据谷歌称，这是 Agent 时代迄今为止为最强大的 AI 模型，相比上一代 Gemini 模型，2.0 在速度上快两倍，并且比更大的“专业”版 Gemini 1.5 更加强大。此外，该版本带来了增强的性能、更多的多模态性和新的原生工具。

1 相比上一代模型，Gemini 2.0 增加了什么？

谷歌首席执行官 Sundar Pichai 在一份声明中表示：“如果 Gemini 1.0 致力于组织和理解信息，那么 Gemini 2.0 则致力于让信息变得更加有用。”

谷歌最新的大语言模型在大多数用户请求领域都比其前代产品表现更好，例如代码生成和根据用户请求提供事实正确响应的能力。

在谷歌 DeepMind CEO Demis Hassabis 和谷歌 DeepMind CTO Koray Kavukcuoglu 代表 Gemini 团队撰写的博文中，详细介绍了 Gemini 2.0 版本的具体特性。

据他们称，Gemini 2.0 Flash 以 1.5 Flash 的成功为基础，是谷歌目前最受开发者欢迎的版本，在同样快速的响应时间下具有增强的性能。值得注意的是，2.0 Flash 在关键基准测试中甚至比 1.5 Pro 更快，速度是 1.5 Pro 的两倍。2.0 Flash 还具有新功能。除了支持图像、视频和音频等多模式输入外，2.0 Flash 现在还支持多模式输出，例如与文本混合的原生生成的图像和可操纵的文本转语音 (TTS) 多语言音频。它还可以原生调用 Google 搜索、代码执行以及第三方用户定义函数等工具。

过去一个月，Gemini 团队一直在分享 Gemini 2.0 的早期实验版本，并得到了开发人员的积极反馈。

Gemini 2.0 Flash 现已作为实验模型通过 Google AI Studio 和 Vertex AI 中的 Gemini API 向开发者提供，所有开发者均可使用多模式输入和文本输出，早期合作伙伴可使用文本转语音和原生图像生成功能。

1 月份将全面上市，同时将推出更多模型尺寸。为了帮助开发人员构建动态和交互式应用程序，谷歌还发布了新的 Multimodal Live API，它具有实时音频、视频流输入以及使用多个组合工具的能力。

要访问实验版本 Flash 2.0 的聊天优化版本，Gemini 用户可以在桌面和移动网络上的模型下拉菜单中选择它。该公司表示，它将很快在 Gemini 移动应用程序上提供。

Gemini Flash 2.0 的多模版本将通过 Google 的 AI Studio 和 Vertex AI 开发者平台提供。

该公司还表示，计划在 2025 年初将 Gemini 2.0 扩展到更多谷歌产品。

2 推出 Deep Search 新功能

谷歌此次发布的还不仅仅是大模型。谷歌宣布将推出一项名为 Deep Research 的新功能，它使用高级推理和长上下文功能充当研究助手，探索复杂主题并代表用户编写报告。它今日起已经 Gemini Advanced 中可用。

据谷歌方面称，Search 无疑是受到人工智能影响最深远、变革最显著的产品。如今，AI Overviews 已触达 10 亿用户，该功能使用户能够提出全新的问题类型，迅速成为 Search 有史以来最受欢迎的功能之一。接下来，谷歌会将 Gemini 2.0 的高级推理能力融入 AI Overviews，以攻克更复杂的主题和多步骤问题，包括高等数学方程、多模态查询和编码。同时，谷歌还计划明年将 AI Overviews 功能面向更多国家开放，适配更多语言。

2.0 基于谷歌定制的硬件第六代 TPU Trillium 构建而成。TPU 为 Gemini 2.0 的训练和推理提供 100% 算力支持，今天 Trillium 也全面向用户开放，以便他们能够基于此进行开发。

3 通过 Gemini 2.0 解锁 Agent 体验

Gemini 2.0 Flash 已经进行了原生用户界面操作能力的改进，其他改进还包括多模式推理、长上下文理解、复杂指令跟踪和规划、组合函数调用、原生工具使用和改进的延迟等。

自大模型诞生以来，AI Agent 的实际应用是一个非常火爆的研究领域。谷歌正在通过一系列原型探索这一新领域，这些原型可以帮助人们完成任务并完成工作。其中包括对 Project Astra 的更新，这是谷歌的研究原型，旨在探索通用人工智能助手的未来功能；新 Project Mariner，它从浏览器开始探索人机交互的未来；以及 Jules，一个可以帮助开发人员的 AI 代码 Agent。

Gemini API 集团产品经理 Shrestha Basu Mallick 和谷歌实验室产品总监 Kathy Korevec 表示：“从今天开始（对于受信任的测试人员），你可以将 Python 和 JavaScript 编码任务转移给 Jules。Jules 可以异步工作并与你的 GitHub 工作流程集成，处理错误修复和其他耗时任务，而你则专注于你真正想要构建的内容。

谷歌也表示，即便技术持续迭代，但 Gemini 系列模型仍处于开发的早期阶段，他们很高兴看到那些值得信赖的测试人员如何使用这些新功能以及他们可以从中学到什么经验，这样就可以在未来的产品中更广泛地使用它们。

4 硬刚一众 AI 独角兽，谷歌更胜一筹？

Gemini 2.0 是谷歌在科技行业日益激烈的人工智能竞赛中的最新成果。谷歌正在与科技巨头微软、Meta 以及一众 AI 明星独角兽如 OpenAI、Perplexity 和 Anthropic 等初创公司展开激烈战争。

谷歌这一波出手在技术社区引发了热议，一名 Reddit 用户对 Gemini 2.0 的发布表示震惊，他评论道：

“我不知道我现在的感受是什么。兴奋、担忧、不安、好奇以及对 AI 的绝对敬畏交织在一起。超现实的是，我们正在经历这种改进，并且每次发布的迭代都给我们留下了深刻的印象。我甚至都不敢想象 10 年后的情况。看看 2004 年到 2014 年的科技各个方面都取得了巨大进展，但与这两年 AI 势头相比还有很大差距。”‍

有用户调侃，谷歌甚至都等不及 OpenAI 把“疯狂发布周”过完再来炸场，结合前两日 Sora 潦草发布，有不少网友直接站队谷歌：

“谷歌的 Gemini 绝对是是 GPT-5 级别的威胁，我从未见过一家公司发布如此强大的模型让开发者免费试用。”

随着新 Flash 模型的发布，这场 AI 军备竞赛已经进入白热化阶段。据谷歌公司称，Agent 模型“可以更好地了解你周围的世界，提前思考多个步骤，并在你的监督下代表你采取行动。”

上周，在《纽约时报》 DealBook 峰会上与安德鲁·罗斯·索尔金 (Andrew Ross Sorkin) 的对话中，谷歌 CEO 皮查伊对微软的人工智能进步提出了质疑，表示他“很乐意在任何时候”对两家公司的模型进行并排比较。

安德鲁·罗斯·索尔金问皮查伊：“相对于其他参与者，你认为自己处于什么位置？”

皮查伊表示他很想进行并排比较，随后他补充道：“他们使用了别人的模型。”

“你这是在向我发起挑战。”索金回答道。

皮查伊笑着摇了摇头，补充道：“我只是——我非常尊重他们和他们的团队。”

微软当家人纳德拉对于谷歌技术实力也给予了很高的肯定。

早在今年 3 月份，微软 CEO 纳德拉在挪威银行投资管理播客上表示：“谷歌本应就是大型科技公司 AI 竞赛的默认赢家。谷歌是一家非常有能力的公司，他们既有人才，又有计算能力。他们是这个领域的垂直整合参与者。他们拥有从数据到芯片到模型到产品和分销的一切。”

号召全体员工“一起开除老板”！极狐 GitLab 架构师怒斥高层“恐吓免费版用户”，前员工揭 CEO“不懂开源”？

硅谷 1/10 程序员在摸鱼？拿20-30万美元年薪却几乎不干活

我们采访了亚马逊 CTO，但 AI 不是重点

会议推荐

12 月 13 日至 14 日（周五至周六），AICon 全球人工智能开发与应用大会将在北京盛大开幕！本次大会汇聚 70+ 位 AI 及技术领域的顶尖专家，深入探讨大模型与推理、AI Agent、多模态、具身智能等前沿话题。此外还有丰富的圆桌论坛、以及展区活动，带你深入探索大模型的最新实践与未来趋势。年度最后一次 AI 盛宴，让我们一起见证 AI 未来。

InfoQ

为一线互联网公司核心技术人员提供优质内容。科技圈的观察者，前沿技术的传播者。

AI 驱动的智能化单元测试生成：字节跳动的实践与创新

作业帮基于 Apache DolphinScheduler 3_0_0 的缺陷修复与优化

豆包视觉理解模型正式发布：一元处理近 300 张高清图片，低于行业价格 85%

在 Lyft 创建 iOS 应用扩展的挑战

OpenAI“双喜临门”：ChatGPT 热线上线，员工“年终奖”最高可达1000万美元

人工智能赋能业务发展研讨：多行业探索 AI 如何驱动行业变革

学好 Prompt，和大模型双向奔赴！| 极客时间

从 CephFS 到 JuiceFS：同程旅行亿级文件存储平台构建之路

智谱完成新一轮三十亿元融资，2024 年商业化收入增长超过 100%

首款开发鸿蒙原生应用的 AI 辅助编程工具正式上线了

后开源时代：开源作者不再是乞求者，而是受益者

新旧交替：AI 时代架构师的进阶之路 |《架构师》电子书下载

首个科学计算基座大模型BBT-Neutron开源，助力突破大科学装置数据分析瓶颈

使用 Rust 重新实现 SQLite 以实现异步 I/O

阿里内部观点：智能化研发一年复盘，我们离真正的 AI 开发还有多远？

AI 重塑技术流程：下半场的破局之道

考虑了很久，还是决定转Go了！| 极客时间

刚刚，ChatGPT Search 向所有用户免费开放！三大升级加剧 AI 搜索竞争，网友：谷歌正式倒闭

Ruby on Rails 8.0 发布，引入 Kamal 2 以改进部署

2024 年度技术热词来袭，AI 如何在可控生成和降本增效中寻找平衡

Ilya Sutskever 在 NeurIPS 2024 的演讲：预训练时代已经结束了

ChatGPT 按提示词数秒完成游戏开发，程序员们该慌了

大型开发者调查结果：哪些 AI 助手最受欢迎？使用 VR 头显编程开始成为趋势

Cloudflare 在 11月发生重大故障，导致日志丢失

OpenAI 史上最长宕机：自研 K8s 成“拦路虎”，导致数小时无法修复

春节假期各大厂卷起来了？腾讯9天垫底；字节跳动在厕所推广“反黑话”运动！OpenAI吹哨人被证实死亡！年仅26岁｜Q资讯

OpenAI 重磅推出 ChatGPT Projects 功能，让 ChatGPT 更容易管理！网友：这是几日来最有用的发布

Java新闻综述：JDK24 进入Rampdown阶段、JDK 25专家组、Jakarta EE 11 Core Profile

700 多亿打水漂后，这家巨头突然舍弃了无人驾驶出租车业务！新老员工炸锅：刚还在加班、“一群傻瓜”

我们如何在十个月内将 ARR 从 0 增长到 1000 万美元以上？

出海这么多年，AI Infra层到底有哪些新机遇？| 直播预告