刚刚,OpenAI与Mistral同时发布了各自最强小模型,针尖对麦芒

文摘   2024-07-19 00:22   中国香港  



OpenAI有盯着谷歌发布会发布新产品的“企业文化”,而这一点似乎正在被Mistral借鉴,OpenAI反倒成了被盯着的对象。



//


OpenAI最新小模型GPT-4o mini


据CNBC报道,OpenAI将于周四晚些时候(美国时间)推出一种新的人工智能模型“GPT-4o mini,这是这家人工智能初创公司为扩大其流行聊天机器人的使用范围而做出的最新努力。


该公司称新发布的这款模型是“目前功能最强大、性价比最高的小模型”,并计划稍后将图像、视频和音频功能集成到其中。



这款迷你 AI 模型是 GPT-4o 的一个分支,GPT-4o 是 OpenAI 迄今为止速度最快、功能最强大的模型,于 5 月在与高管的直播活动中推出。据该公司介绍,GPT-4o 中的 o 代表 omni,GPT-4o 改进了音频、视频和文本功能,能够以更快的速度和更高的质量处理 50 种不同的语言。


OpenAI 得到了 微软的支持,投资者对其的估值已超过 800 亿美元。该公司成立于 2015 年,面临着保持生成式人工智能市场领先地位的压力,同时它还在花费巨资购买处理器和基础设施来构建和训练其模型,以寻找赚钱的方法。


周四宣布的微型人工智能模型是 OpenAI 努力走在“多模态”前沿的一部分,即在一个工具 ChatGPT 中提供多种类型的人工智能生成媒体(如文本、图像、音频和视频)的能力。


去年,OpenAI 首席运营官布拉德·莱特卡普 (Brad Lightcap)告诉 CNBC:“世界是多模态的。如果你思考一下我们人类处理世界和与世界互动的方式,我们看事物、听事物、说事物——世界比文本大得多。所以对我们来说,如果只用文本和代码作为单一模态、作为单一界面来了解这些模型有多强大以及它们能做什么,那总是感觉不完整。”


该公司在一份新闻稿中表示,GPT-4o mini 将于周四晚些时候向 ChatGPT 免费用户以及 ChatGPT Plus 和 Team 订阅者开放,并将于下周向 ChatGPT Enterprise 用户开放。


Mistral Nemo要狙击OpenAI?


在上述消息发布后不久,Mistral 就针锋相对地发布了旗下最新最强的小模型 Mistral Nemo,似乎有备而来。


Mistral NeMo 是与 NVIDIA 合作构建的 12B 模型,提供高达 128k 个 token 的大型上下文窗口。其推理、世界知识和编码准确性在同类规模中处于领先地位。由于它依赖于标准架构,Mistral NeMo 易于使用,并且可以在任何使用 Mistral 7B 的系统中直接替代。


Mistral 已根据 Apache 2.0 许可发布了预训练的基础检查点和指令调整检查点,以促进研究人员和企业的采用。Mistral NeMo 经过量化感知训练,可实现 FP8 推理而不会造成任何性能损失。



下表比较了 Mistral NeMo 基础模型与两个最近开源的预训练模型 Gemma 2 9B 和 Llama 3 8B 的准确率。



大众的多语言模型


该模型专为全球多语言应用而设计。它经过函数调用训练,具有较大的上下文窗口,尤其擅长英语、法语、德语、西班牙语、意大利语、葡萄牙语、中文、日语、韩语、阿拉伯语和印地语。这是将前沿人工智能模型带给所有人的新的一步,适用于构成人类文化的所有语言。


图 1:Mistral NeMo 在多语言基准测试中的表现。


Tekken,更高效的标记器


Mistral NeMo 使用基于 Tiktoken 的新标记器 Tekken,该标记器已针对 100 多种语言进行训练,并且比以前的 Mistral 模型中使用的 SentencePiece 标记器更有效地压缩自然语言文本和源代码。具体而言,它在压缩源代码、中文、意大利语、法语、德语、西班牙语和俄语方面的效率提高了约 30%。它在压缩韩语和阿拉伯语方面的效率也分别提高了 2 倍和 3 倍。与 Llama 3 标记器相比,Tekken 在压缩大约 85% 的所有语言的文本方面表现更为出色。



图 2:Tekken压缩率。


指令微调


Mistral NeMO 经历了高级微调和调整阶段。与 Mistral 7B 相比,它在遵循精确指令、推理、处理多轮对话和生成代码方面表现得更好。



表 2:Mistral NeMo 指令调整模型准确率。使用 GPT4o 作为官方参考的评判标准进行评估。


基础模型和指导模型的权重均托管在 HuggingFace 上。开发者现在可以使用 mistral-inference 试用 Mistral NeMo,并使用 mistral-finetune 对其进行调整。Mistral NeMo 在 La Plateforme 上以 的名称公开open-mistral-nemo-2407。此模型也作为 NVIDIA NIM 推理微服务打包在容器中,可从ai.nvidia.com获得。


值得一提的是,Mistral 近期正在密集发布新模型。三天前,Mistral 分别发布了一个专为数学推理和科学发现而设计的特定 7B 模型 Mathstral,以及一种专门用于代码生成的 Mamba2 语言模型 Codestral Mamba。


END.


延伸阅读


大语言模型专题 | 计算机视觉专题

AI模型更新 | AI技术博客 | AI深度报告



猜想笔记
探索AI边界
 最新文章