谷歌深夜祭出Gemini 2.0 “硬刚”OpenAI,还让开发者免费试用!Agent时代最强模型登场了?

科技   2024-12-13 16:38   辽宁  

作者 | 冬梅

就在 OpenAI“12 天连续轰炸”的第五天,谷歌终于坐不住了。

刚刚,谷歌正式发布了 Gemini 2.0 系列人工智能模型的首个版本,该模型名为 Gemini 2.0 Flash,提供聊天版本供全球用户使用,同时还有一个实验版的模型可供开发人员免费使用,该版本具有文本转语音和图像生成功能。

据谷歌称,这是 Agent 时代迄今为止为最强大的 AI 模型,相比上一代 Gemini 模型,2.0 在速度上快两倍,并且比更大的“专业”版 Gemini 1.5 更加强大。此外,该版本带来了增强的性能、更多的多模态性和新的原生工具。

1 相比上一代模型,Gemini 2.0 增加了什么?

谷歌首席执行官 Sundar Pichai 在一份声明中表示:“如果 Gemini 1.0 致力于组织和理解信息,那么 Gemini 2.0 则致力于让信息变得更加有用。”

谷歌最新的大语言模型在大多数用户请求领域都比其前代产品表现更好,例如代码生成和根据用户请求提供事实正确响应的能力。

在谷歌 DeepMind CEO Demis Hassabis 和谷歌 DeepMind CTO Koray Kavukcuoglu 代表 Gemini 团队撰写的博文中,详细介绍了 Gemini 2.0 版本的具体特性。

据他们称,Gemini 2.0 Flash 以 1.5 Flash 的成功为基础,是谷歌目前最受开发者欢迎的版本,在同样快速的响应时间下具有增强的性能。值得注意的是,2.0 Flash 在关键基准测试中甚至比 1.5 Pro 更快,速度是 1.5 Pro 的两倍。2.0 Flash 还具有新功能。除了支持图像、视频和音频等多模式输入外,2.0 Flash 现在还支持多模式输出,例如与文本混合的原生生成的图像和可操纵的文本转语音 (TTS) 多语言音频。它还可以原生调用 Google 搜索、代码执行以及第三方用户定义函数等工具。

过去一个月,Gemini 团队一直在分享 Gemini 2.0 的早期实验版本,并得到了开发人员的积极反馈。

Gemini 2.0 Flash 现已作为实验模型通过 Google AI Studio 和 Vertex AI 中的 Gemini API 向开发者提供,所有开发者均可使用多模式输入和文本输出,早期合作伙伴可使用文本转语音和原生图像生成功能。

1 月份将全面上市,同时将推出更多模型尺寸。为了帮助开发人员构建动态和交互式应用程序,谷歌还发布了新的 Multimodal Live API,它具有实时音频、视频流输入以及使用多个组合工具的能力。

要访问实验版本 Flash 2.0 的聊天优化版本,Gemini 用户可以在桌面和移动网络上的模型下拉菜单中选择它。该公司表示,它将很快在 Gemini 移动应用程序上提供。

Gemini Flash 2.0 的多模版本将通过 Google 的 AI Studio 和 Vertex AI 开发者平台提供。

该公司还表示,计划在 2025 年初将 Gemini 2.0 扩展到更多谷歌产品。

2 推出 Deep Search 新功能

谷歌此次发布的还不仅仅是大模型。谷歌宣布将推出一项名为 Deep Research 的新功能,它使用高级推理和长上下文功能充当研究助手,探索复杂主题并代表用户编写报告。它今日起已经 Gemini Advanced 中可用。

据谷歌方面称,Search 无疑是受到人工智能影响最深远、变革最显著的产品。如今,AI Overviews 已触达 10 亿用户,该功能使用户能够提出全新的问题类型,迅速成为 Search 有史以来最受欢迎的功能之一。接下来,谷歌会将 Gemini 2.0 的高级推理能力融入 AI Overviews,以攻克更复杂的主题和多步骤问题,包括高等数学方程、多模态查询和编码。同时,谷歌还计划明年将 AI Overviews 功能面向更多国家开放,适配更多语言。

2.0 基于谷歌定制的硬件第六代 TPU Trillium 构建而成。TPU 为 Gemini 2.0 的训练和推理提供 100% 算力支持,今天 Trillium 也全面向用户开放,以便他们能够基于此进行开发。

3 通过 Gemini 2.0 解锁 Agent 体验

Gemini 2.0 Flash 已经进行了原生用户界面操作能力的改进,其他改进还包括多模式推理、长上下文理解、复杂指令跟踪和规划、组合函数调用、原生工具使用和改进的延迟等。

自大模型诞生以来,AI Agent 的实际应用是一个非常火爆的研究领域。谷歌正在通过一系列原型探索这一新领域,这些原型可以帮助人们完成任务并完成工作。其中包括对 Project Astra 的更新,这是谷歌的研究原型,旨在探索通用人工智能助手的未来功能;新 Project Mariner,它从浏览器开始探索人机交互的未来;以及 Jules,一个可以帮助开发人员的 AI 代码 Agent。

Gemini API 集团产品经理 Shrestha Basu Mallick 和谷歌实验室产品总监 Kathy Korevec 表示:“从今天开始(对于受信任的测试人员),你可以将 Python 和 JavaScript 编码任务转移给 Jules。Jules 可以异步工作并与你的 GitHub 工作流程集成,处理错误修复和其他耗时任务,而你则专注于你真正想要构建的内容。

谷歌也表示,即便技术持续迭代,但 Gemini 系列模型仍处于开发的早期阶段,他们很高兴看到那些值得信赖的测试人员如何使用这些新功能以及他们可以从中学到什么经验,这样就可以在未来的产品中更广泛地使用它们。

4 硬刚一众 AI 独角兽,谷歌更胜一筹?

Gemini 2.0 是谷歌在科技行业日益激烈的人工智能竞赛中的最新成果。谷歌正在与科技巨头微软、Meta 以及一众 AI 明星独角兽如 OpenAI、Perplexity 和 Anthropic 等初创公司展开激烈战争。

谷歌这一波出手在技术社区引发了热议,一名 Reddit 用户对 Gemini 2.0 的发布表示震惊,他评论道:

“我不知道我现在的感受是什么。兴奋、担忧、不安、好奇以及对 AI 的绝对敬畏交织在一起。超现实的是,我们正在经历这种改进,并且每次发布的迭代都给我们留下了深刻的印象。我甚至都不敢想象 10 年后的情况。看看 2004 年到 2014 年的科技各个方面都取得了巨大进展,但与这两年 AI 势头相比还有很大差距。”

有用户调侃,谷歌甚至都等不及 OpenAI 把“疯狂发布周”过完再来炸场,结合前两日 Sora 潦草发布,有不少网友直接站队谷歌:

“谷歌的 Gemini 绝对是是 GPT-5 级别的威胁,我从未见过一家公司发布如此强大的模型让开发者免费试用。”

随着新 Flash 模型的发布,这场 AI 军备竞赛已经进入白热化阶段。据谷歌公司称,Agent 模型“可以更好地了解你周围的世界,提前思考多个步骤,并在你的监督下代表你采取行动。”

上周,在《纽约时报》 DealBook 峰会上与安德鲁·罗斯·索尔金 (Andrew Ross Sorkin) 的对话中,谷歌 CEO 皮查伊对微软的人工智能进步提出了质疑,表示他“很乐意在任何时候”对两家公司的模型进行并排比较。

安德鲁·罗斯·索尔金问皮查伊:“相对于其他参与者,你认为自己处于什么位置?”

皮查伊表示他很想进行并排比较,随后他补充道:“他们使用了别人的模型。”

“你这是在向我发起挑战。”索金回答道。

皮查伊笑着摇了摇头,补充道:“我只是——我非常尊重他们和他们的团队。”

微软当家人纳德拉对于谷歌技术实力也给予了很高的肯定。

早在今年 3 月份,微软 CEO 纳德拉在挪威银行投资管理播客上表示:“谷歌本应就是大型科技公司 AI 竞赛的默认赢家。谷歌是一家非常有能力的公司,他们既有人才,又有计算能力。他们是这个领域的垂直整合参与者。他们拥有从数据到芯片到模型到产品和分销的一切。”

今日好文推荐

1620 天后,Redis 之父强势归来:开始着手修复社区裂痕,并布局下一代向量数据库

号召全体员工“一起开除老板”!极狐 GitLab 架构师怒斥高层“恐吓免费版用户”,前员工揭 CEO“不懂开源”?

硅谷 1/10 程序员在摸鱼?拿20-30万美元年薪却几乎不干活

我们采访了亚马逊 CTO,但 AI 不是重点

会议推荐

12 月 13 日至 14 日(周五至周六),AICon 全球人工智能开发与应用大会将在北京盛大开幕!本次大会汇聚 70+ 位 AI 及技术领域的顶尖专家,深入探讨大模型与推理、AI Agent、多模态、具身智能等前沿话题。此外还有丰富的圆桌论坛、以及展区活动,带你深入探索大模型的最新实践与未来趋势。年度最后一次 AI 盛宴,让我们一起见证 AI 未来。

InfoQ
为一线互联网公司核心技术人员提供优质内容。科技圈的观察者,前沿技术的传播者。
 最新文章