智东西12月12日报道,今日,谷歌重磅发布其迄今最强大的AI大模型Gemini 2.0,新功能包括原生图像生成和音频输出的多模态输出,并支持原生调用谷歌搜索、地图、Lens等工具。
其第一款新模型是Gemini 2.0 Flash的实验版本,速度是1.5 Pro的两倍。谷歌称,这款新模型专为AI Agent时代而设计,主打多模态+AI Agent。
基于Gemini 2.0 Flash,谷歌推出一大波AI Agent新品,包括今年5月轰动业界的通用AI助手原型Project Astra,还有能够作为实验性扩展在谷歌浏览器中完成多步骤复杂任务的Project Mariner,以及实验性AI编程Agent Jules、游戏Agent。
Gemini和Gemini Advanced用户可在桌面端的模型下拉菜单中选择聊天优化版Gemini 2.0来试用。开发人员可通过Google AI Studio和Vertex AI在Gemini API中开始使用此模型进行构建。
本周,谷歌开始在搜索的AI概览中测试Gemini 2.0。1月份,Gemini 2.0 Flash将全面上市,同时将推出更多模型尺寸。明年年初,谷歌会将Gemini 2.0扩展到更多谷歌产品中。
用户输入问题后,它会创建一个多步骤研究计划,在用户修改及批准后开始调用Gemini机器人深入分析来自网上的相关信息,并根据其关键发现生成一份详细的综合报告,并列上信息来源链接。用户可以要求Gemini扩展某些领域或调整报告,并将AI生成的研究导出到谷歌文档。
谷歌的官方博客显示,Gemini 2.0 Flash在关键基准测试中的速度是1.5 Pro的两倍。
除了支持图像、视频和音频等多模式输入外,Gemini 2.0 Flash现在还支持多模态输出,例如与文本混合的原生生成的图像和可操纵的文本转语音(TTS)多语言音频,还可以原生调用谷歌搜索、代码执行以及第三方用户定义函数等工具。
为了帮助开发人员构建动态和交互式应用程序,在此基础上,谷歌还发布了具有实时音频、视频流输入以及使用多个组合工具的能力的Multimodal Live API。
在AI Agent方面,谷歌宣布了对实验性功能的更新,包括通用AI Agent Project Astra、多步骤任务AI Agent Project Mariner、AI编程Agent Jules、游戏Agent。
1、通用AI Agent Project Astra:记住10分钟视频,更强agent能力
更好的记忆:今年5月谷歌展示了早期版本只能记住45秒的视频,现在它已经能记忆10分钟的视频了,可以记住用户与其进行的更多对话和个人偏好,更具个性化。
更好的对话: 能使用多种语言和混合语言进行交谈,并且能够更好地理解口音和不常见的单词。
新工具用途:使用Gemini 2.0的内置Agent框架,通过文本、语音、图像和视频回答问题并执行任务,在需要时调用谷歌搜索、Lens、地图等应用。
改善延迟:借助新的流媒体功能和本机音频理解,Agent以与人类对话相同的延迟理解语言,使对话感觉更自然。
2、多步骤任务AI Agent Project Mariner:最佳工作结果83.5%,为保证安全目前需人类介入
Project Mariner是谷歌在Gemini 2.0模型基础上发布的一个实验性功能,其可以完成多步骤的复杂任务。
作为研究原型,Project Mariner能够理解和推理浏览器屏幕上的信息,包括像素和文本、编程、图像和表单等网络元素,然后通过实验性的谷歌扩展程序使用这些信息完成任务。
谷歌官方博客显示,根据WebVoyager基准进行评估,该基准测试Agent在端到端真实世界网络任务上的性能,Project Mariner作为单一Agent设置实现了83.5%的最佳工作结果。
在演示中,Project Mariner可以同时完成获取表单、找到公司官网、联系方式等多步骤任务,Agent会自动执行在谷歌搜索中查找电子邮件的过程,且这一过程中用户可以随时点击暂停和停止。同时,用户可以看到Agent每一步行动的推理步骤和计划。
尽管目前Project Mariner执行任务时较慢且并不总是准确,但从技术上讲,这表明了在浏览器中导航已经成为可能。
目前,该代理在完成任务时需要人类介入,如Project Mariner只能在浏览器的活动选项卡中键入、滚动或点击,并且它会在用户执行某些购买等敏感操作之前要求用户进行最终确认。
3、AI编程Agent Jules:直接集成GitHub,长期目标是构建通用Agent
谷歌还在探索Agent Jules的更新。Jules是一种直接集成到GitHub工作流程中的实验性AI驱动的编程Agent。
Jules可以解决问题、制定计划并执行它,所有过程都在开发人员的指导和监督下进行。在这一领域,谷歌的长期目标是构建在所有领域(包括编程)都有帮助的AI Agent。
4、游戏Agent:视频游戏导航,根据游戏动作推理、实时对话充当游戏交流
谷歌使用Gemini 2.0构建了游戏Agent,可以帮助用户在视频游戏的虚拟世界中导航。Agent可以仅根据屏幕上的动作来推理游戏,并在实时对话中提供下一步操作的建议。
目前,研究人员在与Supercell等游戏开发商合作,探索这些Agent从《部落冲突》等策略游戏到《Hay Day》等农业模拟器,在各种游戏中解释规则和挑战的能力。
未来,谷歌还在试验可以通过将Gemini 2.0的空间推理功能应用于机器人技术来在物理世界中提供帮助的Agent。
在安全方面,谷歌在对多个实验原型进行研究的基础上,正通过迭代实施安全培训、与测试人员和外部专家合作,进行广泛的风险评估以及安全和保证评估。
谷歌与责任与安全委员会 (RSC) 合作以识别和了解潜在风险。
Gemini 2.0的推理功能使其AI辅助红队方法取得重大进步,包括从简单地检测风险到自动生成评估和训练数据以减轻风险的能力。
由于Gemini 2.0的多模态功能增加了潜在输出的复杂性,其将继续在图像和音频输入和输出方面评估和训练模型,以帮助提高安全性。
通过Project Astra,谷歌正在探索针对用户无意中与代理共享敏感信息的潜在缓解措施,并且其已经内置了隐私控制功能,使用户可以轻松删除会话。他们还在继续研究以确保AI代理充当可靠的信息来源,并且不会代表您采取意外操作。
通过Project Mariner,谷歌正在努力确保模型学会优先考虑用户指令,而不是第三方的提示注入尝试,以便它可以识别来自外部来源的潜在恶意指令并防止滥用。这可以防止用户通过电子邮件、文档或网站中隐藏的恶意指令等方式受到欺诈和网络钓鱼攻击。
全新Gemini 2.0由谷歌今年发布的Trillium TPU训练而成。Trillium是谷歌第六代TPU,也是迄今性能最高的TPU。
其相比上一代芯片的优化包括:超过4倍的训练性能,高达3倍的推理吞吐量,能效提高67%,每颗芯片峰值计算性能提高4.7倍,HBM容量翻倍,单个Jupiter网络有10万颗TPU,高至2.5倍的每美元训练性能、1.4倍的每美元推理性能。
今日,谷歌宣布如今Trillium TPU面向谷歌云客户普遍可用。
Trillium TPU是谷歌云AI超级计算机的关键组成部分,其架构采用了性能优化的硬件、开放的软件、领先的机器学习框架和灵活的消费级模型的集成系统。谷歌还对开放软件层进行了增强,包括对XLA编译器和流行框架的优化,以在AI训练、调优和服务方面实现大规模的领先性价比。
此外,使用大量主机DRAM(补充HBM)进行主机卸载等功能,提供了更高的效率。
每个Jupiter网络结构超过100,000颗Trillium芯片,具有13Pbps的对分带宽,能够将单个分布式训练任务扩展到数十万个加速器。
以色列AI大模型独角兽AI21 Labs已使用Trillium来加速开发下一代复杂语言模型。
Trillium通过部署12个包含3072颗芯片的pod实现了99%的扩展效率,并在24个包含6144颗芯片的pod中展示了94%的扩展效率,以预训练gpt3-175b。
谷歌使用4片的Trillium-256芯片作为基准,使用1片的Trillium-256芯片作为基准,当扩展到24个pod时,仍可获得超过90%的扩展效率。
在训练Llama-2-70B模型时,测试表明,Trillium以99%的扩展效率实现了从4片Trillium-256芯片pod到36片Trillium-256芯片pod的近线性扩展。
与前几代产品相比,Trillium TPU具有更好的扩展效率。下图表中,其测试展示了与同等规模的Cloud TPU v5p集群相比,Trillium在12 pod规模下的99%扩展效率(总峰值FLOPS)。
与上一代云TPU v5e相比,Trillium为密集大语言模型(如Llama-2-70b和gpt3-175b)提供高达4倍的训练速度,为MoE模型提供了比上一代云TPU v5e快3.8倍的训练。
与Cloud TPU v5e相比,Trillium TPU提供了3倍的DRAM。在训练Llama-3.1-405B模型时,根据模型FLOPs利用率(MFU)测量,Trillium的主机卸载功能可将性能提高50%以上。
Trillium也为图像扩散模型和密集大语言模型提供了最佳的TPU推理性能。其测试表明,与Cloud TPU v5e相比,Stable Diffusion XL的相对推理吞吐量(每秒图像)提高了3倍以上,Llama2-70B的相对推理吞吐量(每秒token)提高了近2倍。
Trillium是谷歌在离线和服务器推理用例中性能最高的TPU。下图显示,与Cloud TPU v5e相比,Stable Diffusion XL的离线推理相对吞吐量(每秒图像数)提高了3.1倍,服务器推理相对吞吐量提高了2.9倍。
除了更好的性能,Trillium还引入了一个新的集合调度功能。这个特性允许谷歌的调度系统做出智能的作业调度决策,从而在一个集合中有多个副本时提高推理工作负载的总体可用性和效率。
它提供了一种管理运行单主机或多主机推理工作负载的多个TPU片的方法,包括通过谷歌Kubernetes Engine(GKE)。将这些片分组到一个集合中,可以很容易地调整副本的数量以满足需求。
第三代数据流处理器SparseCore更擅长加速动态和数据依赖操作。引入第三代SparseCore的Trillium将嵌入密集型模型的性能提高了2倍,将DLRM DCNv2的性能提高了5倍。
Trillium还旨在优化每美元的性能。迄今为止,在训练密集大语言模型(如Llama2-70b和Llama3.1-405b)中,Trillium的每美元性能比Cloud TPU v5e提高了2.1倍,比Cloud TPU v5p提高了2.5倍。
在Trillium上生成1000张图像的成本比离线推理的Cloud TPU v5e低27%,比在SDXL上进行服务器推理的Cloud TPU v5e低22%。