作者:KID
来源:科技最前线 (kejizqx)
12 月 6 日晚,Google 给近期稍显沉寂的 AI 模型战场扔下了一颗新的炸弹:号称多模态任务处理能力首次超越人类的 AI 模型,Gemini 1.0 正式发布。
在过去的一年里,大模型绝对是科技领域最热的话题之一。OpenAI的GPTs惊艳全世界,微软的Copilot更是先一步渗透进全线产品,因此Gemini一出,这一操作被市场视作是Google在AI大模型领域放出的大招。
具体是什么样重磅的AI模型和工具?一起来看看。
01
谷歌史上最强大模型Gemini
具体来说,此次谷歌一共带来了Gemini的三个版本:
Gemini Ultra:谷歌最大、最强模型,适用于高度复杂的任务
Gemini Pro:可扩展至各种任务的Gemini模型
Gemini Nano:适用于端侧设备的模型
Gemini发布后,外界最关心的是其对OpenAI的GPT4的挑战。从Google DeepMind产品副总裁EliCollins(伊莱·柯林斯)回答记者提问可以看出,团队一直在对 Gemini 模型进行严格的测试并评估其在各种任务中的性能。
从自然图像、音频和视频理解到数学推理,在被大型语言模型(LLM)研究和开发中广泛使用的 32 项学术基准中,Gemini Ultra 的性能有 30 项都超过了目前最先进的水平。
在多模态方面,GeminiUltra在新的MMMU基准测试中也获得了59.4%的SOTA分数。
这项基准测试是由跨不同领域的多模式任务组成,需要大模型进行一个深思熟虑的推理过程。
根据谷歌给出的图像基准测试结果来看,GeminiUltra在没有OCR系统的帮助下,表现优于之前最先进的模型。
02
惊艳全场的Gemini多模态大模型
和市面上现有大模型相比,Gemini从一开始就被创建为多模态的模型,这意味着它可以归纳并流畅地理解、操作以及组合不同类型的信息,包括文本、代码、音频、图像和视频。
比方说,当人类拿起画笔在一张纸上勾勒出一只鸭子,并为它涂上了蓝色。这次AI说道:“这可不是鸭子常见的颜色。”
三个空杯并排放在桌子上,一张蓝色纸团被塞进其中一个杯子里,在人类一番眼花缭乱的操作后,AI准确地猜出:“纸团在最左边的杯子里!”
做一个后仰躲避的慢动作,AI比四周同事都更快知道你在表演《黑客帝国》。
甚至它还能提炼出柑橘和指尖陀螺的共性,这两样的共同之处是都能让人放松。
给它一张手写的物理题,AI不仅能看懂,而且还可以辨别手写答案的对错,在此基础上,它还会对每一个细节步骤进行详解,着实是学生党的得力助手。
03
技术杀手锏
以往创建多模态大模型的方法,通常是为不同的模态训练单独的组件,然后将它们拼接在一起,大致模拟其中的一些功能。这样训练出来的模型虽然有时可以很好地执行某些任务(比如描述图像),但在面对更具概念性和复杂推理的情况下,就会出现表现不佳的结果。
相比较下的谷歌Gemini强调的原生多模态,是指从一开始就对不同的模态进行预训练,然后用额外的多模态数据对其进行微调,以此来进一步完善大模型的有效性。谷歌对此表示:这样的训练方法,有助于Gemini从头开始无缝地理解和推理各种输入,远远优于现有的多模态模型;而且它的功能在几乎每个领域都是最先进的。
具体到模型架构方面,Gemini基于增强的Transformer decoder打造,采用了高效attention机制(如Multi-QueryAttention),支持32k上下文长度。尽管没有透露Ultra和Pro版本的具体参数规模,但技术报告中提到,谷歌使用TPUv5e和TPUv4来训练Gemini。训练Gemini Ultra使用了跨多个数据中心的大量TPUv4。这意味着与谷歌此前的主力大模型PaLM-2相比,Gemini在规模上显著增大。此前,PaLM-2被曝参数规模为3400亿。
据悉,从今天开始,Bard 将使用 Gemini Pro 的微调版本来进行更高级的推理、规划和理解等。这是 Bard 自推出以来最大的升级。
Google的Pixel 8 Pro成为首款搭载 Gemini Nano 的智能手机,它支持录音应用中的“总结”等新功能,并在 Gboard 中推出“智能回复”功能,从 WhatsApp 开始,明年还将推出更多信息应用。
搜索、广告、Chrome和DuetAI等更多的产品和服务,也将注入Gemini的能力。Goole方透露,在搜索中试验Gemini,将享受更快的搜索生成体验(SGE),比如英语搜索延迟降低了 40%,同时在质量方面也有所提高。
从 12 月 13 日开始,开发者和企业客户可以通过 Google AI Studio 或 Google Cloud Vertex AI 中的 Gemini API 获取 Gemini Pro。
而就 Gemini Ultra 而言,尚处于大规模的信任和安全检查,包括由可信赖的外部团队进行红队测试,并在其被广泛使用前通过微调和人类反馈强化学习(RLHF)进一步完善模型。
OpenAI的GPTs惊艳全世界。
微软的Copilot更是先一步渗透进全线产品。
Gemini一出,号称谷歌迄今为止功能最强大、最通用的大模型。
那么在这一波后,全球最强AI模型是否正式易主?我们静待观察。