为企业定制大模型，AI21 Labs估值达14亿美元，英伟达也投资了

文摘 2024-08-23 12:44 北京

昨天，AI21 Labs发布了Jamba 1.5 系列开放模型，号称最强大、最高效的长上下文模型。

Jamba是第一个基于Mamba架构的生产级模型。Mamba是由卡内基梅隆大学和普林斯顿大学的研究人员提出的新架构，被视为Transformer架构的有力挑战者。

AI21 Labs 是谁？

AI21 Labs 由人工智能先驱 Amnon Shashua 教授（Mobileye 创始人兼首席执行官）、Yoav Shoham 教授（斯坦福大学名誉教授、前谷歌首席科学家）和 Ori Goshen（CrowdX 创始人）于 2017 年创立，目标是打造成为人类思想伙伴的人工智能系统。

2023年8月，AI21 Labs宣布完成 1.55 亿美元的 C 轮融资，投资者包括 Walden Catalyst、Pitango、SCB10X、b2venture、Samsung Next 和 Amnon Shashua 教授，Google 和 NVIDIA 也参与其中。

新一轮融资使该公司的融资总额达到 2.83 亿美元，估值达 14 亿美元。

2023年11月22日，AI21 Labs又宣布C轮融资完成2.08 亿美元的超额认购，总融资额从 2.83 亿美元增至 3.36 亿美元。这一轮的投资方包括英特尔资本、康卡斯特风险投资公司、Ahren Innovation Capital等。

从投资者可以看出，AI21 Labs主要吸引的是产业资本。这也符合AI21 Labs的市场定位，就是面向特定企业客户开发定制模型，帮助企业设计自己的生成式 AI 应用程序。

AI21 联合首席执行官兼联合创始人 Ori Goshen表示：“一刀切的政策并不适合所有人，因为企业正在寻找能够理解其特定需求的独特合作伙伴。大规模部署人工智能需要深入了解能够提供更好价值和影响的高性能语言模型。我们的方法是有目的地设计人工智能，使其比从头开始构建效率更高，而且更具成本效益。”

Jamba 1.0：第一个基于 Mamba 的生产级模型

2024 年 3 月 28 日，AI21 Labs宣布推出 Jamba，这是世界上第一个基于 Mamba 的生产级模型。

通过利用传统 Transformer 架构的元素增强Mamba结构化状态空间模型 (SSM) 技术，Jamba 弥补了纯 SSM 模型的固有局限性。它提供 256K 上下文窗口，已经展示了吞吐量和效率的显著提升——这只是这种创新混合架构所能实现的开始。值得注意的是，Jamba 在各种基准测试中都优于或匹敌同规模的其他最先进模型。

主要特点

第一个基于新颖的 SSM-Transformer 混合架构构建的生产级 Mamba 模型
与 Mixtral 8x7B 相比，长上下文的吞吐量提高了 3 倍
民主化访问大规模 256K 上下文窗口
同类模型中唯一一款能够在单个 GPU 上容纳高达 140K 上下文的模型
在 Apache 2.0 下以开放权重发布
已在Hugging Face上提供，即将在NVIDIA API 目录中推出

Jamba 的发布标志着 LLM 创新的两个重要里程碑：成功地将 Mamba 与 Transformer 架构结合起来，并将混合 SSM-Transformer 模型推进到生产级的规模和质量。

‍

到目前为止，LLM 主要建立在传统的 Transformer 架构上。虽然这种架构无疑非常强大，但它存在两个主要缺点：

内存占用大：Transformer 的内存占用随上下文长度而变化。这使得在没有大量硬件资源的情况下运行长上下文窗口或大量并行批次变得具有挑战性，从而限制了广泛的实验和部署机会
随着上下文的增长，推理速度变慢：Transformer 的注意力机制随着序列长度呈二次方增长，并降低了吞吐量，因为每个 token 都依赖于它之前的整个序列——将长上下文用例置于高效生产的范围之外

Mamba 由卡内基梅隆大学和普林斯顿大学的研究人员提出，它解决了这些缺点，为语言模型开发开辟了新的可能性。然而，由于不关注整个上下文，这种架构很难达到现有最佳模型的输出质量，尤其是在与回忆相关的任务上。

‍

为了充分利用 Mamba 和 Transformer 架构的优势，AI21 Labs开发了相应的联合注意力和 Mamba (Jamba) 架构。Jamba 由 Transformer、Mamba 和混合专家 (MoE) 层组成，可同时优化内存、吞吐量和性能。

Jamba 的 MoE 层允许它在推理时仅利用其可用的 52B 参数中的 12B，并且其混合结构使得这 12B 活动参数比同等大小的仅 Transformer 模型更高效。

‍

虽然有些人尝试过扩展 Mamba，但没有人将其扩展到 3B 参数之外。Jamba 是同类中第一个达到生产级规模的混合架构。

要成功扩展 Jamba 的混合结构，需要进行几项核心架构创新。

‍

如下图所示，AI21 的 Jamba 架构采用块层方法，使 Jamba 能够成功整合两种架构。每个 Jamba 块包含一个注意力层或一个 Mamba 层，后面跟着一个多层感知器 (MLP)，总比例为每八层中有一个 Transformer 层。

第二个特点是利用 MoE 来增加模型参数的总数，同时精简推理时使用的活动参数数量，从而提高模型容量，而无需相应增加计算要求。为了在单个 80GB GPU 上最大限度地提高模型的质量和吞吐量，我们优化了使用的 MoE 层和专家的数量，为常见的推理工作负载留出了足够的内存。

根据初步评估，Jamba 在吞吐量和效率等关键指标方面表现出色。

在长上下文中提供 3 倍的吞吐量，使其成为比 Mixtral 8x7B 等同等大小的基于 Transformer 的模型更高效的模型。

‍Jamba可以在单个 GPU 上容纳 140K 上下文，与目前其他类似规模的开源模型相比，它为部署和实验提供了更多的机会。

Jamba 1.5：最强大、最高效的长上下文模型

昨天，AI21 Labs 推出模型更新——Jamba 1.5 系列开放模型：Jamba 1.5 Mini和Jamba 1.5 Large。

这些模型基于新颖的 SSM-Transformer 架构构建，具有出色的长上下文处理能力、速度和质量 - 超越了同尺寸级别的竞争对手，并标志着非 Transformer 模型首次成功扩展到市场领先模型的质量和强度。

市面上的通用模型很强大，比如GPT-4o，但往往与企业的落地之间有一个的gap。AI21 Labs通过为企业定制模型来解决，这些模型更加考虑到大型企业最关心的关键指标：资源效率、质量、速度和实际解决关键任务的能力：

‍

长上下文处理：Jamba 1.5 型号拥有市场上最长的 256K 有效上下文窗口，可以提高关键企业应用程序的质量，例如长文档摘要和分析，以及代理和 RAG 工作流程
速度：在长上下文中速度最高可提高 2.5 倍，在同等大小的所有上下文长度中速度最快
质量：Jamba 1.5 Mini 是同尺寸级别中最坚固的开放式型号，在 Arena Hard 基准测试中得分为 46.1，超过 Mixtral 8x22B 和 Command-R+ 等大型型号。Jamba 1.5 Large 得分为 65.4，超过 Llama 3.1 70B 和 405B
多语言：除英语外，该型号还支持西班牙语、法语、葡萄牙语、意大利语、荷兰语、德语、阿拉伯语和希伯来语
开发人员就绪：Jamba 原生支持结构化 JSON 输出、函数调用、摘要文档对象和生成引文
向建设者开放：两种模型均可在Hugging Face上立即下载（并且即将在领先框架 LangChain 和 LlamaIndex 上推出）
随处部署：除 AI21 Studio 外，这些模型还可在云合作伙伴 Google Cloud Vertex AI、Microsoft Azure 和 NVIDIA NIM 上使用，并且即将在 Amazon Bedrock、Databricks Marketplace、Snowflake Cortex、Together.AI 以及私有本地和 VPC 部署上使用

资源高效的混合架构

Jamba 1.5 Large 和 Mini 采用新颖的 SSM-Transformer Jamba 架构，将 Transformer 的卓越品质与 Mamba 的突破性效率融为一体。

因此，这些模型的内存占用比竞争对手更低，允许客户使用 Jamba 1.5 Mini 在单个 GPU 上处理长达 140K 个 token 的上下文。与基于 Transformer 的模型相比，同样的优势还使得对长上下文的微调更容易、更方便。得益于这种效率优化的架构，我们的模型可以提供顶级质量和速度，而无需大幅增加成本。

与其大小类别中的所有模型一样，Jamba 1.5 Large 无法在 8 个 GPU 的单个节点上以全精度 (FP32) 或半精度 (FP16/BF16) 加载。由于对当前可用的量化技术不满意，AI21 开发了ExpertsInt8，这是一种专为 MoE 模型量身定制的新型量化技术。

使用 ExpertsInt8，仅量化属于 MoE（或 MLP）层的权重，对于许多 MoE 模型而言，这些权重占模型权重的 85% 以上。在 AI21 的实现中，将这些权重量化并以 8 位精度格式 INT8 保存，并在运行时直接在 MoE GPU 内核中对其进行反量化。

该技术有四个优点：速度快，量化只需几分钟；它不依赖于校准，校准有时是一个不稳定的过程，通常需要几个小时或几天；它仍然可以使用 BF16 来保存大型激活；而且重要的是，它允许 Jamba 1.5 Large 安装在单个 8 GPU 节点上，同时利用其 256K 的完整上下文长度。在实验中，ExpertsInt8 被证明是所有 vLLM 量化技术中 MoE 模型延迟最低的，而且质量没有损失。

‍

真正传递信息的长篇背景

Jamba 1.5 模型提供的 256K 上下文窗口不仅是开放模型中最长的，而且也是唯一在RULER 基准测试中支持这一说法的模型。

虽然大多数其他型号都声称具有长上下文窗口，但无法在其上下文窗口的上限维持相同的性能质量，但 Jamba 1.5 系列在其 256K 上下文窗口的整个跨度内都保持其长上下文处理。

对于几乎所有企业级 GenAI 应用来说，能够有效处理长上下文的模型都至关重要。除了彻底而准确地总结和分析长文档之外，长上下文模型还可以显著提高 RAG 和代理工作流的质量，并降低其成本，因为无需进行连续分块和重复检索。

虽然有时人们声称 RAG 是长上下文的替代品，但成功的企业 AI 系统需要两者。通过将长上下文与 RAG 配对，长上下文模型可以提高 RAG 大规模检索阶段的质量和成本效益。

市场上最快的

对于企业感兴趣的用例，例如客户支持代理助理和聊天机器人，快速周转至关重要。即使使用请求和批次大小增加，模型也需要能够跟上运营规模。

两种 Jamba 1.5 型号都比同等规模的竞争对手速度更快，在长上下文中的推理速度最高可提高 2.5 倍，在客户自己的环境中部署时，可在高利用率下为客户带来成本、质量和速度方面的显著提升。

Jamba 1.5 Mini 和 Jamba 1.5 Large 在 Artificial Analysis 运行的测试中表现出了出色的速度和吞吐量结果，如下图所示，Jamba 1.5 Mini 在 10K 环境中排名最快。

全面卓越的品质

根据 Arena Hard 基准测试，Jamba 1.5 Mini 成为同尺寸级别中最强大的型号，超越了竞争对手 Claude 3 Haiku、Mixtral 8x22B 和 Command-R+。Jamba 1.5 Large 同样超越了 Claude 3 Opus、Llama 3.1 70B 和 Llama 3.1 405B 等领先型号，在同尺寸级别中具有出色的性价比。

END.

延伸阅读

大语言模型专题 | 计算机视觉专题

AI模型更新 | AI技术博客 | AI深度报告

http://mp.weixin.qq.com/s?__biz=MzIxNTY4NzIyNw==&mid=2247487639&idx=1&sn=0a94921b1f73e48e119fae01f0a47434

猜想笔记

探索AI边界

最新文章

Runway CEO：AI时代终结，真正的新媒体诞生

Kimi投放1亿、豆包投放2亿，国产AI在投流上杀疯了

a16z确认拥有2万块H100 GPU，为初创公司提供低价算力换取股权

OpenAI计划于12月发布新模型Orion，你需要了解五个背景信息

Anthropic教会大模型以人类的方式使用电脑，RPA不存在了？

萨姆·奥特曼联合创立的加密货币“世界币”重大发布

红杉资本最新发布：o1模型如何推动生成式AI进入推理竞赛？

字节跳动悄悄发布第二代机器人大模型GR-2，初步具备世界模型能力

豆包“王炸”：字节跳动一天发布两款视频生成大模型

一文收藏最全面的大模型技术图表

被称为第一个杀手级应用的Cursor，到底比Github Copilot强在哪里？

大模型会是一场泡沫吗？

贾扬清团队发文阐述关于H100 GPU的一切

《时代》周刊评选2024年AI影响力100人，梁汝波、王小川入选领导者

红杉资本熔炉时刻第9集：50岁成立ServiceNow，到避免1500亿美元的错误

超10万钉钉低代码应用完成AI化

累计融资近10亿元，清华系AI公司「无问芯穹」要做大模型时代首选的“算力运营商”

23名员工，8000张H100，融资4.65亿美元，发布1亿Tokens上下文大模型

传米哈游联合创始人蔡浩宇创立AGI公司Anuttacon，两位大佬已加入

夸克发布全新PC端，系统级全场景AI能力升级AI电脑

英伟达撕下了大模型长文本的遮羞布

为企业定制大模型，AI21 Labs估值达14亿美元，英伟达也投资了

A16z发布Top100生成式AI产品排行榜：字节跳动6款上榜

原腾讯机器人实验室1号员工创业，投身具身智能，2024年完成商业化

FLUX挑战Midjourney文生图王者地位，网友已经玩疯了

福布斯发布Cloud 100云计算榜单：平均市值82亿美元

日本公司Sakana AI发布“AI科学家”，自动撰写论文一篇15美元

特斯拉Dojo：埃隆·马斯克打造人工智能超级计算机的大计划

钢铁、服务器和电力：赢得下一阶段AI竞赛的条件

格雷格·布洛克曼是如何加入OpenAI的？

阿里云推出首个域名AI大模型应用

华为云初创生态出品大模型报告：2024年中国AI大模型场景探索及产业应用

OpenAI再次流失三位高管，萨姆·奥特曼回归不到一年最大的成就是拆家？

火山引擎119页生成式AI商业落地白皮书：给CXO的AI转型战术指南

硅谷大模型洗牌，大厂正在批量收购AI公司CEO

Stable Diffusion作者团队成立AI公司“黑森林实验室”，已获a16z领投3100万美元融资

前Stability AI CEO成立的去中心化新公司SchellingAI：如何思考民主化AI

苹果发布Apple Intelligence技术报告：没有选英伟达，在8192块TPU上训练【全文翻译】

“Salesforce之死”：为什么AI将改变下一代销售技术？

AI时代的“四大家族”：谷歌、OpenAI、Meta与斯坦福大学

Anthropic表明对SB 1047 AI监管法案立场：如果修改就支持

Coatue发布具身智能报告：通用机器人不会有ChatGPT时刻

如何使用 Llama 3.1 405B 创建合成数据？

OpenAI加入AI搜索大战！正式内测SearchGPT，下周向Plus订阅用户推出

Llama 3.1论文精读：为什么模型参数是4050亿？

Mistral发布旗舰模型Mistral Large 2：1230亿参数，代码生成、数学和推理能力显著增强

刚刚，Meta 发布全球最大开源模型Llama 3.1 405B，15项测试拿了7个第一

xAI的10万卡H100超级集群上线，马斯克亲自在工厂接光纤

苹果没有发布7B小模型，而是发布了开源数据集测试平台DCLM

刚刚，OpenAI与Mistral同时发布了各自最强小模型，针尖对麦芒

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉