刚刚，OpenAI与Mistral同时发布了各自最强小模型，针尖对麦芒

文摘 2024-07-19 00:22 中国香港

OpenAI有盯着谷歌发布会发布新产品的“企业文化”，而这一点似乎正在被Mistral借鉴，OpenAI反倒成了被盯着的对象。

OpenAI最新小模型GPT-4o mini

据CNBC报道，OpenAI将于周四晚些时候（美国时间）推出一种新的人工智能模型“GPT-4o mini”，这是这家人工智能初创公司为扩大其流行聊天机器人的使用范围而做出的最新努力。

该公司称新发布的这款模型是“目前功能最强大、性价比最高的小模型”，并计划稍后将图像、视频和音频功能集成到其中。

这款迷你 AI 模型是 GPT-4o 的一个分支，GPT-4o 是 OpenAI 迄今为止速度最快、功能最强大的模型，于 5 月在与高管的直播活动中推出。据该公司介绍，GPT-4o 中的 o 代表 omni，GPT-4o 改进了音频、视频和文本功能，能够以更快的速度和更高的质量处理 50 种不同的语言。

OpenAI 得到了微软的支持，投资者对其的估值已超过 800 亿美元。该公司成立于 2015 年，面临着保持生成式人工智能市场领先地位的压力，同时它还在花费巨资购买处理器和基础设施来构建和训练其模型，以寻找赚钱的方法。

周四宣布的微型人工智能模型是 OpenAI 努力走在“多模态”前沿的一部分，即在一个工具 ChatGPT 中提供多种类型的人工智能生成媒体（如文本、图像、音频和视频）的能力。

去年，OpenAI 首席运营官布拉德·莱特卡普 (Brad Lightcap)告诉 CNBC：“世界是多模态的。如果你思考一下我们人类处理世界和与世界互动的方式，我们看事物、听事物、说事物——世界比文本大得多。所以对我们来说，如果只用文本和代码作为单一模态、作为单一界面来了解这些模型有多强大以及它们能做什么，那总是感觉不完整。”

该公司在一份新闻稿中表示，GPT-4o mini 将于周四晚些时候向 ChatGPT 免费用户以及 ChatGPT Plus 和 Team 订阅者开放，并将于下周向 ChatGPT Enterprise 用户开放。

Mistral Nemo要狙击OpenAI？

在上述消息发布后不久，Mistral 就针锋相对地发布了旗下最新最强的小模型 Mistral Nemo，似乎有备而来。

Mistral NeMo 是与 NVIDIA 合作构建的 12B 模型，提供高达 128k 个 token 的大型上下文窗口。其推理、世界知识和编码准确性在同类规模中处于领先地位。由于它依赖于标准架构，Mistral NeMo 易于使用，并且可以在任何使用 Mistral 7B 的系统中直接替代。

Mistral 已根据 Apache 2.0 许可发布了预训练的基础检查点和指令调整检查点，以促进研究人员和企业的采用。Mistral NeMo 经过量化感知训练，可实现 FP8 推理而不会造成任何性能损失。

下表比较了 Mistral NeMo 基础模型与两个最近开源的预训练模型 Gemma 2 9B 和 Llama 3 8B 的准确率。

大众的多语言模型

该模型专为全球多语言应用而设计。它经过函数调用训练，具有较大的上下文窗口，尤其擅长英语、法语、德语、西班牙语、意大利语、葡萄牙语、中文、日语、韩语、阿拉伯语和印地语。这是将前沿人工智能模型带给所有人的新的一步，适用于构成人类文化的所有语言。

图 1：Mistral NeMo 在多语言基准测试中的表现。

Tekken，更高效的标记器

Mistral NeMo 使用基于 Tiktoken 的新标记器 Tekken，该标记器已针对 100 多种语言进行训练，并且比以前的 Mistral 模型中使用的 SentencePiece 标记器更有效地压缩自然语言文本和源代码。具体而言，它在压缩源代码、中文、意大利语、法语、德语、西班牙语和俄语方面的效率提高了约 30%。它在压缩韩语和阿拉伯语方面的效率也分别提高了 2 倍和 3 倍。与 Llama 3 标记器相比，Tekken 在压缩大约 85% 的所有语言的文本方面表现更为出色。

图 2：Tekken压缩率。

指令微调

Mistral NeMO 经历了高级微调和调整阶段。与 Mistral 7B 相比，它在遵循精确指令、推理、处理多轮对话和生成代码方面表现得更好。

表 2：Mistral NeMo 指令调整模型准确率。使用 GPT4o 作为官方参考的评判标准进行评估。

基础模型和指导模型的权重均托管在 HuggingFace 上。开发者现在可以使用 mistral-inference 试用 Mistral NeMo，并使用 mistral-finetune 对其进行调整。Mistral NeMo 在 La Plateforme 上以的名称公开open-mistral-nemo-2407。此模型也作为 NVIDIA NIM 推理微服务打包在容器中，可从ai.nvidia.com获得。

值得一提的是，Mistral 近期正在密集发布新模型。三天前，Mistral 分别发布了一个专为数学推理和科学发现而设计的特定 7B 模型 Mathstral，以及一种专门用于代码生成的 Mamba2 语言模型 Codestral Mamba。

END.

延伸阅读

大语言模型专题 | 计算机视觉专题

AI模型更新 | AI技术博客 | AI深度报告

http://mp.weixin.qq.com/s?__biz=MzIxNTY4NzIyNw==&mid=2247486635&idx=1&sn=3f67e5d56d97719410b620373c26858e

猜想笔记

探索AI边界

最新文章

Runway CEO：AI时代终结，真正的新媒体诞生

Kimi投放1亿、豆包投放2亿，国产AI在投流上杀疯了

a16z确认拥有2万块H100 GPU，为初创公司提供低价算力换取股权

OpenAI计划于12月发布新模型Orion，你需要了解五个背景信息

Anthropic教会大模型以人类的方式使用电脑，RPA不存在了？

萨姆·奥特曼联合创立的加密货币“世界币”重大发布

红杉资本最新发布：o1模型如何推动生成式AI进入推理竞赛？

字节跳动悄悄发布第二代机器人大模型GR-2，初步具备世界模型能力

豆包“王炸”：字节跳动一天发布两款视频生成大模型

一文收藏最全面的大模型技术图表

被称为第一个杀手级应用的Cursor，到底比Github Copilot强在哪里？

大模型会是一场泡沫吗？

贾扬清团队发文阐述关于H100 GPU的一切

《时代》周刊评选2024年AI影响力100人，梁汝波、王小川入选领导者

红杉资本熔炉时刻第9集：50岁成立ServiceNow，到避免1500亿美元的错误

超10万钉钉低代码应用完成AI化

累计融资近10亿元，清华系AI公司「无问芯穹」要做大模型时代首选的“算力运营商”

23名员工，8000张H100，融资4.65亿美元，发布1亿Tokens上下文大模型

传米哈游联合创始人蔡浩宇创立AGI公司Anuttacon，两位大佬已加入

夸克发布全新PC端，系统级全场景AI能力升级AI电脑

英伟达撕下了大模型长文本的遮羞布

为企业定制大模型，AI21 Labs估值达14亿美元，英伟达也投资了

A16z发布Top100生成式AI产品排行榜：字节跳动6款上榜

原腾讯机器人实验室1号员工创业，投身具身智能，2024年完成商业化

FLUX挑战Midjourney文生图王者地位，网友已经玩疯了

福布斯发布Cloud 100云计算榜单：平均市值82亿美元

日本公司Sakana AI发布“AI科学家”，自动撰写论文一篇15美元

特斯拉Dojo：埃隆·马斯克打造人工智能超级计算机的大计划

钢铁、服务器和电力：赢得下一阶段AI竞赛的条件

格雷格·布洛克曼是如何加入OpenAI的？

阿里云推出首个域名AI大模型应用

华为云初创生态出品大模型报告：2024年中国AI大模型场景探索及产业应用

OpenAI再次流失三位高管，萨姆·奥特曼回归不到一年最大的成就是拆家？

火山引擎119页生成式AI商业落地白皮书：给CXO的AI转型战术指南

硅谷大模型洗牌，大厂正在批量收购AI公司CEO

Stable Diffusion作者团队成立AI公司“黑森林实验室”，已获a16z领投3100万美元融资

前Stability AI CEO成立的去中心化新公司SchellingAI：如何思考民主化AI

苹果发布Apple Intelligence技术报告：没有选英伟达，在8192块TPU上训练【全文翻译】

“Salesforce之死”：为什么AI将改变下一代销售技术？

AI时代的“四大家族”：谷歌、OpenAI、Meta与斯坦福大学

Anthropic表明对SB 1047 AI监管法案立场：如果修改就支持

Coatue发布具身智能报告：通用机器人不会有ChatGPT时刻

如何使用 Llama 3.1 405B 创建合成数据？

OpenAI加入AI搜索大战！正式内测SearchGPT，下周向Plus订阅用户推出

Llama 3.1论文精读：为什么模型参数是4050亿？

Mistral发布旗舰模型Mistral Large 2：1230亿参数，代码生成、数学和推理能力显著增强

刚刚，Meta 发布全球最大开源模型Llama 3.1 405B，15项测试拿了7个第一

xAI的10万卡H100超级集群上线，马斯克亲自在工厂接光纤

苹果没有发布7B小模型，而是发布了开源数据集测试平台DCLM

刚刚，OpenAI与Mistral同时发布了各自最强小模型，针尖对麦芒

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉