Google DeepMind 推出了最新的 AI 模型 Gemini 2.0早期版本,Google宣称这是专为迎接“智能代理时代”(Agentic Era)而设计。
Gemini 2.0 在多模态理解、复杂推理和工具集成方面实现了重大突破。
它可以处理和生成多种类型的输入输出,包括文本、图像、音频,以及调用外部工具。
也就是它不仅能接受多模态的输入还能输出多模态的内容,真正的实现了通用的能力。
这种能力允许开发者构建跨媒体类型的各种应用和硬件设备。
先看一段演示视频↓
这是基于Gemini 2.0 开发的Project Astra原型产品, 这是一个实验性的 AI 助手,利用 Gemini 2.0 的多模态能力,通过智能手机摄像头或者智能眼镜来解读周围环境,回答用户的问题。
它可以:
支持多语言对话,可以理解任何语言并使用任何语言回答。 支持实时的多模态任务,如导航、搜索和视觉识别。 增强的记忆功能,可记住用户偏好和历史对话。 支持任何模态的输入输出,并可使用外部工具辅助回答
通过这段演示我们可以看到Gemini 2.0在多模态能力上面有了突飞猛进的发展,尤其是视觉能力和实时语音能力。
在测试Google AI Studio中测试发现其语音能力非常强大,几乎是实时响应,延迟非常小。
Gemini 2.0 核心功能与特性
多模态能力
图像生成与理解:从文本描述生成高质量图像,并支持基于图像的多模态任务,如图像注释生成。 音频处理: 视频与代码: 支持多种输入与输出形式: 复杂推理:
例如它可以作为游戏助手实时分析游戏画面,提供策略建议和任务辅助。
工具集成与调用
支持调用多种工具和功能,包括: 实时互动 API:Multimodal Live API 支持实时音频、视频输入,结合多种工具处理动态任务,例如边导航边识别周边环境。
如何利用多模态Live API构建能够实时处理和理解文本、图像及音频等多种类型数据的应用
智能代理
基于Gemini 2.0 开发的原型产品Project Mariner
Project Mariner:作为Chrome浏览器的扩展,能够自动执行如在线购物等任务,提升用户的在线体验。
专注于浏览器中的人机交互,支持自动化操作,如表单填写和网页导航。 能够理解网页内容(如文本、图像和代码),并通过实验性 Chrome 扩展完成任务。 已在 WebVoyager 基准测试中实现了 83.5% 的任务成功率。
Gemini 2.0 Flash 已向开发者和早期用户开放,预计 2025 年初全面推出。
多模态处理能力:Gemini 2.0能够原生处理文本、图像、音频和视频等多种数据形式,实现更自然的人机交互。
高级推理与规划:具备多步骤推理和复杂任务规划能力,能够在有限的人类监督下完成复杂任务,体现出更高的自主性。
增强的自主代理能力:引入了AI代理和工具的使用,如Project Astra和Project Mariner,分别用于实时环境交互和自动网页浏览,标志着AI进入了智能代理时代。
在OpenAI 12天的连续马拉松直播过程中,作为对OpenAI的回应,Gemini 2.0的发布标志着AI技术竞争进入新阶段,将推动行业整体进步,同时推动明年AI全面进入应用阶段。
明年将是AI应用和AI硬件爆发之年...
____________
加入XiaoHu.ai 日报社群 每天获取最新的AI信息
____________
点赞,转发,关注关注关注!