Google大模型Gemini，全球最强AI模型正式易主？

科技科技 2023-12-07 16:29 广东

作者：KID

编辑：苏子瞻
来源：科技最前线 (kejizqx)

12 月 6 日晚，Google 给近期稍显沉寂的 AI 模型战场扔下了一颗新的炸弹：号称多模态任务处理能力首次超越人类的 AI 模型，Gemini 1.0 正式发布。

在过去的一年里，大模型绝对是科技领域最热的话题之一。OpenAI的GPTs惊艳全世界，微软的Copilot更是先一步渗透进全线产品，因此Gemini一出，这一操作被市场视作是Google在AI大模型领域放出的大招。

具体是什么样重磅的AI模型和工具？一起来看看。

01
谷歌史上最强大模型Gemini

具体来说，此次谷歌一共带来了Gemini的三个版本：

Gemini Ultra：谷歌最大、最强模型，适用于高度复杂的任务
Gemini Pro：可扩展至各种任务的Gemini模型
Gemini Nano：适用于端侧设备的模型

Gemini发布后，外界最关心的是其对OpenAI的GPT4的挑战。从Google DeepMind产品副总裁EliCollins（伊莱·柯林斯）回答记者提问可以看出，团队一直在对 Gemini 模型进行严格的测试并评估其在各种任务中的性能。

从自然图像、音频和视频理解到数学推理，在被大型语言模型（LLM）研究和开发中广泛使用的 32 项学术基准中，Gemini Ultra 的性能有 30 项都超过了目前最先进的水平。

在多模态方面，GeminiUltra在新的MMMU基准测试中也获得了59.4%的SOTA分数。

这项基准测试是由跨不同领域的多模式任务组成，需要大模型进行一个深思熟虑的推理过程。

根据谷歌给出的图像基准测试结果来看，GeminiUltra在没有OCR系统的帮助下，表现优于之前最先进的模型。

02
惊艳全场的Gemini多模态大模型

和市面上现有大模型相比，Gemini从一开始就被创建为多模态的模型，这意味着它可以归纳并流畅地理解、操作以及组合不同类型的信息，包括文本、代码、音频、图像和视频。

比方说，当人类拿起画笔在一张纸上勾勒出一只鸭子，并为它涂上了蓝色。这次AI说道：“这可不是鸭子常见的颜色。”

三个空杯并排放在桌子上，一张蓝色纸团被塞进其中一个杯子里，在人类一番眼花缭乱的操作后，AI准确地猜出：“纸团在最左边的杯子里！”

做一个后仰躲避的慢动作，AI比四周同事都更快知道你在表演《黑客帝国》。

甚至它还能提炼出柑橘和指尖陀螺的共性，这两样的共同之处是都能让人放松。

给它一张手写的物理题，AI不仅能看懂，而且还可以辨别手写答案的对错，在此基础上，它还会对每一个细节步骤进行详解，着实是学生党的得力助手。

技术杀手锏

以往创建多模态大模型的方法，通常是为不同的模态训练单独的组件，然后将它们拼接在一起，大致模拟其中的一些功能。这样训练出来的模型虽然有时可以很好地执行某些任务（比如描述图像），但在面对更具概念性和复杂推理的情况下，就会出现表现不佳的结果。

相比较下的谷歌Gemini强调的原生多模态，是指从一开始就对不同的模态进行预训练，然后用额外的多模态数据对其进行微调，以此来进一步完善大模型的有效性。谷歌对此表示：这样的训练方法，有助于Gemini从头开始无缝地理解和推理各种输入，远远优于现有的多模态模型；而且它的功能在几乎每个领域都是最先进的。

具体到模型架构方面，Gemini基于增强的Transformer decoder打造，采用了高效attention机制（如Multi-QueryAttention），支持32k上下文长度。尽管没有透露Ultra和Pro版本的具体参数规模，但技术报告中提到，谷歌使用TPUv5e和TPUv4来训练Gemini。训练Gemini Ultra使用了跨多个数据中心的大量TPUv4。这意味着与谷歌此前的主力大模型PaLM-2相比，Gemini在规模上显著增大。此前，PaLM-2被曝参数规模为3400亿。

据悉，从今天开始，Bard 将使用 Gemini Pro 的微调版本来进行更高级的推理、规划和理解等。这是 Bard 自推出以来最大的升级。

Google的Pixel 8 Pro成为首款搭载 Gemini Nano 的智能手机，它支持录音应用中的“总结”等新功能，并在 Gboard 中推出“智能回复”功能，从 WhatsApp 开始，明年还将推出更多信息应用。

搜索、广告、Chrome和DuetAI等更多的产品和服务，也将注入Gemini的能力。Goole方透露，在搜索中试验Gemini，将享受更快的搜索生成体验（SGE），比如英语搜索延迟降低了 40%，同时在质量方面也有所提高。

从 12 月 13 日开始，开发者和企业客户可以通过 Google AI Studio 或 Google Cloud Vertex AI 中的 Gemini API 获取 Gemini Pro。

而就 Gemini Ultra 而言，尚处于大规模的信任和安全检查，包括由可信赖的外部团队进行红队测试，并在其被广泛使用前通过微调和人类反馈强化学习（RLHF）进一步完善模型。

OpenAI的GPTs惊艳全世界。

微软的Copilot更是先一步渗透进全线产品。

Gemini一出，号称谷歌迄今为止功能最强大、最通用的大模型。

那么在这一波后，全球最强AI模型是否正式易主？我们静待观察。

科技最前线

在这里看见未来！科技互联网头部帐号，深度解读科技产业。

最新文章

保时捷困境，国产新能源的豪车叙事

当内娱给百度网盘充起了会员

台积电断供！国产AI芯未来路在何方？

太疯狂！国产AI 20天狂烧3亿，新“掘金密码”曝光

AR，正逐步进入生产力工具时代

特斯拉创13年来单日最大涨幅！一夜涨了半个茅台

以AI之力应对AI引发的网络挑战——大模型还能这么用

顶流品牌纷纷押注，《和平精英》打响新时代跨界合作又一枪

让OpenAI o1成AI天花板的慢思考模式，360已提前两个月落地

李彦宏内部讲话曝光，谈大模型三大认知误区

资本连夜逃离英伟达

跨界联动？秘塔AI搜索有点意思

巨头即将入局？闺蜜机行业格局或面临“洗牌”？

DPU，扮演重要角色

Robotaxi的尽头是抢夺背后1100万个饭碗？

傲慢的李想

一副耳机，开启AI生产力新时代

大模型面临“饥荒”？三部曲解决高质量数据供给问题

神秘小蓝环，解锁NFC支付新魔法

大模型竞赛？我觉得海螺AI这次还真能赢

“党员”马斯克豪赌的FSD，真有那么神奇？

抖音做AI，真的有一手

电子书下载 | 利用 OpenUSD 和 NVIDlA Omniverse™ 开启物理精确模拟世界 AI 新时代

小米启动，特斯拉急了，谁在围剿国产新能源

AI能管天气？世界模型的一个超级实验

雷军：睡不着觉的痛苦，该轮到你们了

阿里妈妈LMA大模型技术来袭，AI电商迎来“iphone时刻”

能超越英伟达的只有英伟达

视频号创作者联盟 WeGet成立，专注行业交流，打造高品质内容

ChatGPT耗水费电，杨立昆痛批Sora注定失败，生成式成为原罪？

英伟达赢麻的当下，AI初创企业何去何从？

当AI遇上爽文，当套路遇上套路