英伟达发布了一个大模型长文本的评估基准RULER,测评了不同大模型长文本的能力,结果可能会让你意外。
//
今天,长文本已经成为了大模型的基础能力的标配。随着 Claude 2.1 的发布,Anthropic 从 100K 跃升至 200K,而随着 Gemini 1.5 的发布,Google 从 32K 跃升至 2M。
但这些数字必须仔细分析。大模型真如他们自己选选的那般“长”文本吗?
今年6月,英伟达发布了一个大模型长文本的评估基准 RULER,AI21 Labs 的 Jamba 模型力压群雄,是表现最好的长文本模型。
AI21 Labs 联合 CEO Yoav Shoham 发文介绍了关于大模型长文本背后隐秘的技术细节。核心问题包括:
拥有较长的上下文窗口是否意味着模型实际上可以用它做一些有用的事情?
您能否提供具有可接受延迟和单位经济性的长上下文模型?
在如今这种 RAGish 日子里,长篇背景还有那么重要吗?
本文将在下面逐一讨论这些问题。
大海捞针已经过时,英伟达提出衡量长文本的新标准
模型不会因较长的上下文而受阻,但这并不意味着它能利用它做一些有用的事情。与评估 LLM 的一般情况一样,评估它是否能做一些有用的事情并不是一件容易的事。常见的大海捞针 (NIAH) 基准测试,即提示模型从非常长的提示中检索隐藏的信息位,可以捕获一些有价值的东西,但实际上并没有告诉你很多关于现实世界应用的信息。
英伟达(AI Labs 的投资方之一)最近发布了一个新的基准RULER,这在这方面做出了值得欢迎的贡献。它评估了四类复杂且多步骤的推理任务(检索、多跳跟踪、聚合和问答)中的长上下文模型,更接近捕捉现实世界的应用程序。
除了更加全面之外,该基准的另一个重要贡献是设立了“及格分数”,使我们能够区分声称的长度和所谓的“有效长度”,后者定义为模型在 RULER 上取得至少 85% 分数的最大窗口长度。
原始数据,论文地址:https://arxiv.org/pdf/2404.06654
上表显示了各种模型的声称上下文长度和实际上下文长度之间的差距。我们赞扬所有将两者相符的模型构建者。Jamba 属于这个“广告真实性”荣誉榜单,它提供的上下文比大多数模型都长(实际上,比所有模型都长,Gemini 1.5 Pro 可能除外),并且与同尺寸级别的其他模型相比,它的上下文窗口是迄今为止最长的。下面将详细介绍。
为了获得完整的图像,这里是完整的概述,其中列出了不同模型根据 RULER 基准标准 85% 的通过率通过的各种上下文长度。
为什么声明的上下文长度和有效的上下文长度并不总是匹配?
声称的上下文长度与实际上下文长度存在差异的一个根本原因是模型构建者诱导模型接受长上下文的方式。Transformer 架构的内存占用迫使人们采用诸如稀疏注意力或滑动窗口(以及许多其他解决方案)等解决方案,以便利用越来越长的上下文。这些技巧的副作用是损害答案质量。
在构建 Jamba 时,AI21 Labs 采用了不同的方法。卡内基梅隆大学和普林斯顿大学的研究人员于 2023 年 12 月发布了新颖的Mamba 架构,提供了扩展到理论上无限上下文窗口的可能性。AI21 Labs 的团队抓住了这个机会,几个月后就发布了世界上第一个基于 Mamba 的生产级模型。为了弥补 SSM 架构的局限性,它增加了一些Transformer 层。
这在其白皮书中有详细描述:https://arxiv.org/pdf/2403.19887
控制延迟、服务成本和内存需求
即使你以某种方式确保模型输出高质量的答案,但如果花费太长时间并花费大量金钱来生成该答案,那么该模型就没有用处。
该图表还包含了上述评估的模型的当前成本和延迟。
Jamba 性能优异的原因再次在于其混合 SSM-Transformer 架构的近乎线性的复杂性。它使我们能够保持 Transformer 的卓越品质,而不会遭受纯 Transformer 设计的复杂性。
也许可视化有效上下文窗口与模型的服务成本的最佳方式是下图。
图表说明了一切。Jamba 提供了最长的上下文窗口,而成本仅为其他几款具有同等长度的产品的一小部分。
延迟的另一面是吞吐量,下面是不同模型的吞吐量与上下文窗口长度的比较。Jamba 在长于 64K 的上下文窗口上显示出吞吐量的显著提升,凸显了该模型以最高效率处理长上下文用例的内在能力。
长上下文和RAG不是非此即彼
有时人们会听到有人说 RAG 消除了对长上下文的需求——只需检索信息,就不需要长上下文。但事实并非如此;相反,两者相辅相成。在构建将两者配对的 AI 系统时,长上下文模型提高了 RAG 检索阶段的质量,而 RAG 为扩展这种高质量的长上下文处理提供了蓝图。
这种长上下文 + RAG 未来的好处在企业应用中随处可见,从高级搜索到信息综合等等。例如:
客户支持:公司可以使用 Jamba-Instruct 和 AI21 的 RAG Engine 为其客户支持代理构建问答工具。借助 Jamba-Instruct 的 256K 上下文窗口,RAG Engine 将能够从数百万个知识库文档中检索更多片段,从而生成与其上下文一致且更准确的答案。
财务文件摘要:投资公司可以为其分析师构建一个摘要工具,使 RAG 引擎能够从公司内部记录和报告数据库中检索完整文档而不是孤立的块,从而生成更可靠、更准确的关键点摘要。
这些只是一些例子,说明公司可以开始思考长上下文如何能够加强 RAG 管道,其中长上下文模型可以增强检索阶段以产生更可靠的输出,而 RAG 则可以扩展这一过程。
正如利用 Mamba 和 Transformer 架构的优势构建了新颖的 Jamba 架构一样,最好、最强大的 AI 系统也将通过利用多个组件的优势来构建,从而为每个客户定制一个高度专业化的系统。
END.
延伸阅读