AI Agent成主打!谷歌发布超强多模态大模型—Gemini 2.0

文摘   2024-12-12 09:29   河北  

专注AIGC领域的专业社区,关注微软&OpenAI、百度文心一言、讯飞星火等大语言模型(LLM)的发展和应用落地,聚焦LLM的市场研究和AIGC开发者生态,欢迎关注!

今天凌晨,谷歌发布了全新多模态大模型——Gemini 2.0。

与1.0版本相比,Gemini 2.0 在多模态方面实现了全新突破,不仅支持图像、视频和音频等多模态输入,还支持原生图像和音频输出。同时可以调用各种原生工具,包括谷歌搜索、代码以及第三方函数,极大提升了模型的灵活和扩展性。

最值得一提的是,Gemini 2.0内置了代码、游戏、浏览器等不同类型AI Agent,全面朝着智能体自动化方向发力。

Gemini 2.0性能全面增强

Gemini 2.0作为实验版本性能方面得到了显著强化,在保持低延迟的同时,推理效率比 Gemini 1.5 Pro 快两倍,并在代码、数学、图片、语义理解等多项关键基准测试中超越了 1.5 Pro,能够更快地响应用户请求提供流畅的交互体验,无论是在实时对话还是在处理复杂任务时都能表现出色。

Gemini 2.0 在长上下文理解方面也有了实质性增强,能够处理更多的数据,并保持上下文的连贯性,从而更好地理解长篇文章、对话历史或复杂的任务指令。这使得模型在处理需要长期记忆和逻辑推理的任务时更加得心应手,例如阅读理解、多轮对话和复杂问题解决。

除了传统的文本输出外,Gemini 2.0还支持原生图像生成和音频输出。可以根据用户的需求生成与文本相关的图像,或者将文本转换为自然流畅的语音。这种多模态输出能力为用户提供了更加丰富和直观的交互方式,例如,在教育、娱乐和辅助阅读等领域具有广泛的应用前景。

模型能够直接调用谷歌搜索、代码执行工具以及第三方用户定义函数,可以实时获取最新的信息,并执行复杂的计算任务。例如,在回答用户关于实时新闻或股票行情的问题时,模型可以直接调用搜索工具获取最新数据,并进行分析和总结。

Gemini 2.0的AI Agent

除了超强的多模态功能之外,AI Agent则是Gemini 2.0的最大亮点,也是如今为数不多支持该功能的大模型之一。

现在Project Astra这个AI Agent可以使用Gemini 2.0的多模态功能实现更强的自动化操作,可以集成谷歌搜索、Lens 和 Maps 等工具,使其在日常生活中成为更实用的AI助手。例如,当用户询问附近的餐厅时,Project Astra 可以使用 Maps 查找并提供相关的餐厅信息,包括位置、评价和营业时间等;当用户需要识别图片中的物体时,它可以调用 Lens 进行图像分析。

Project Astra的记忆能力也增强了很多,现在它在会话期间能够记住长达 10 分钟的信息,并能更好地回忆过去的对话。这使得它能够提供更加个性化的服务,根据用户的历史交互提供更相关的建议。

例如,如果用户之前询问过某个旅游目的地的信息,下次再询问相关问题时,Project Astra 可以参考之前的对话,提供更深入和个性化的旅游建议。

Project Mariner则是一个基于浏览器的AI Agent,能够理解和推理浏览器屏幕上的信息,包括像素、文本、代码、图像和表单等元素。例如,当用户在浏览网页时,Project Mariner 可以根据页面内容提供相关的操作建议,如填写表单、点击链接或执行特定的脚本。

在 WebVoyager 基准测试中,Project Mariner 作为单智能体设置实现了 83.5% 的最先进结果。这表明它在处理实际网页任务方面具有较高的能力,例如,在测试中,Project Mariner 能够成功快速自动化完成在线购物流程、信息查询和网页操作等任务。

Jules是一款面向代码开发的AI Agent,可以直接集成到 GitHub 工作流程中,帮助开发者处理问题、制定计划并执行任务。例如,当开发者遇到代码错误或需要优化代码时,Jules 可以分析代码库,提供可能的解决方案,并在开发者的指导下执行修复操作。

此外,谷歌还基于Gemini 2.0开发了一款用于游戏导航的AI Agent,而游戏依靠大量复杂的元素也是测试智能体最佳环境之一。

这个AI Agent可以根据屏幕上的动作进行推理,并实时提供下一步操作的建议。例如,在策略游戏《部落冲突》中,智能体可以分析战场形势,建议玩家如何部署兵力、升级建筑等;

在模拟经营游戏《开心农场》中,它可以提供种植作物、管理农场资源的最佳策略。

谷歌正在与 Supercell 等领先的游戏开发商合作,测试这些代理在不同类型游戏中的能力,包括解释游戏规则和应对挑战的能力。通过合作,游戏开发者可以探索如何将 AI 技术更好地融入游戏中,为玩家提供更加智能和有趣的游戏体验。

目前,谷歌已经开放了API,可以在Google AI Studio 和 Vertex AI开发平台中使用预览版的Gemini 2.0

本文素材来源谷歌,如有侵权请联系删除

END

AIGC开放社区
专注AIGC领域的专业社区,关注微软OpenAI、百度文心一言、讯飞星火等大语言模型(LLM)的发展和应用落地,聚焦LLM的市场研究和AIGC开发者生态,欢迎关注!
 最新文章