Gemini2.0是“Agent时代”最强大的AI模型,这是Gemini2.0自己给自己做的定义。
起初我是有点质疑,但是!!当我看了一上午,慢慢的去了解它、与它接触,我又想起来Gemini2.0给自己下的定义,它就是目前“Agent时代”最强大的AI模型!
从去年12月份,Google陆续推出了Gemini1.0和1.5,这两个版本已经在多模态方向做出了很大的成就,可以理解文本、视频、图像、音频和代码。
今天详细给大家详细介绍下这个史诗级的模型。
官网能免费用,链接可以保存下。
gemini.google.com
选2.0Flash模型。
那么相比较1.0和1.5版本,2.0版本有什么进步呢?
1.速度更快: Gemini 2.0 的速度是上一代的2倍,这意味着它可以更快地生成文本、翻译语言或执行其他任务。
看完文章自己去体验下,用过的都说快。
2.性能更强: 在各种基准测试中,Gemini 2.0 都表现出了更强的性能,例如在代码生成和事实性回答方面。
3.多模态能力更强: 除了文本,Gemini 2.0 还可以处理图像、视频和音频等多模态数据,这意味着它可以更好地理解和生成各种形式的内容。
4.更强的原生工具调用能力: Gemini 2.0 可以直接调用 Google 搜索、代码执行等工具,从而提供更全面的信息和更强大的功能。
给大家看个更直观的1.5和2.0版本比较。
这是我随便找了个象棋残局的图,让Gemini1.5和2.0分别分析下局势。
Gemini1.5只能分析大局,也就是一眼看上去怎么样,它并没有真的看懂棋盘。
而Gemini2.0可以精确到每一颗棋子的位置。
官方演示
本部分将使用视频和文本的方式来给大家讲述,视频已使用SubCat为大家添加双语字幕,如果更习惯文本的话,可以忽略视频。
1、Flash 超强Agent新体验
·处理实时信息
测试人员用Gemini2.0来分析画面中的物体,Gemini以非常快的速度回答了这是什么,以及这是谁创作的,包括位置等信息都讲出来了。
精准,速度,专业。
·多语言
在使用过程中,可以随时无缝切换各种语言,哪怕你中英日法韩一种语言说一句也OK。
对于小语种的适配度也很高。
·Agent
可以帮我们做一个多步骤的事情,官方示例是让Gemini2.0去找一幅画,并且找到相关的商品加到购物车。
·跨域应用
官方演示了在玩策略类游戏的时候,Gemini2.0提供操作建议。
这有点牛啊,物理外挂。
·推理物理世界
理解3D空间环境和物体,应用于有Agent的机器人技术,可以给机器人在日常的物理环境中提供帮助。
2、Astra计划
·更好的对话:
现在能够用多种语言和混合语言进行对话,对方言和不常见的词汇有了更好的理解。
·新工具用途:
有了Gemini 2.0,Project Astra可以使用谷歌搜索、镜头和地图,使其作为日常生活中的助手。
·更好的记忆:
提高了Project Astra的记忆能力,它现在有长达10分钟的会话记忆能力,并且能够记住过去与它进行的更多对话,个性化适配变得更好了。
·改善延迟:
有了新的流媒体功能和原生音频理解能力,Agent可以理解语言,延迟和人类对话差不多。
3、Project Mariner
Project Mariner 是一个早期的研究原型,基于 Gemini 2.0 构建,它能够理解并推理浏览器屏幕上的信息,包括文本、代码、图片、表单等 web 元素。通过一个实验性的 Chrome 插件,Mariner 能够根据这些信息执行任务。
第六代 Trillium TPU
Gemini2.0并不是用英伟达的GPU训练的。
是用了谷歌开发的Trillium TPU训练的。
伴随着Gemini2.0的发布,Google Cloud 也推出了第六代TPU Trillium 正式上市。
特点给大家简单总结了一下
·Trillium TPU 是 AI Hypercomputer 的关键组成部分:
AI Hypercomputer 是一种突破性的超级计算机架构,它整合了优化的硬件、开放的软件、领先的机器学习框架和灵活的消费模式。Trillium TPU 是其硬件核心。
·AI Hypercomputer 提升了开放软件层:
为了配合 Trillium TPU 的全面上市,AI Hypercomputer 对其开放软件层进行了重要增强,包括优化 XLA 编译器以及 JAX、PyTorch 和 TensorFlow 等流行框架,以在大规模 AI 训练、调优和服务中实现领先的性价比。
·AI Hypercomputer 提高了效率:
通过使用海量的主机 DRAM(补充高带宽内存 HBM),实现了主机卸载等功能,从而提高了效率。
·AI Hypercomputer 具有强大的扩展能力:
AI Hypercomputer 在 Jupiter 网络结构中部署了超过 10 万个 Trillium 芯片,拥有每秒 13 Petabits 的对分带宽,能够将单个分布式训练作业扩展到数十万个加速器。
感谢你看到这里,也欢迎点击关注下方公众号并添加公众号小助手加入官方读者交流群,一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术,欢迎一起交流学习💗~