首页时事民生政务教育文化科技财富体娱健康情感

旅行百科职场楼市企业乐活学术汽车时尚创业美食幽默美体文摘

7B新王登基！Zamba 2推理效率比Llama 3提升20%，内存用量更少

文摘 2024-10-28 07:02 上海

点击下方卡片，关注“AI生成未来”

>>回复“GAI”，免费获取最新生成式AI相关行业报告和资料！

转载自：新智元

如有侵权，联系删稿

【导读】Zamba2-7B是一款小型语言模型，在保持输出质量的同时，通过创新架构实现了比同类模型更快的推理速度和更低的内存占用，在图像描述等任务上表现出色，能在各种边缘设备和消费级GPU上高效运行。

除了不断增加语言模型的尺寸来提升性能外，小语言模型（SLM）赛道也是越来越卷，研究人员在保证输出质量尽量不变的情况下，不断降低模型尺寸，减少内存占用量，提升推理效率，从而能够在各种边缘计算设备和消费级GPU上部署使用。

最近，Zyphra发布Zamba2-7B模型，在质量和性能上都优于Mistral、Google的Gemma和Meta的Llama3系列同尺寸小语言模型；在推理效率上，与 Llama3-8B 等模型相比，第一个token的时间缩短了 25%，每秒token数量提高了 20%，并且内存使用量显着减少。

Instruct下载链接：https://huggingface.co/Zyphra/Zamba2-7B-Instruct

base下载链接：https://huggingface.co/Zyphra/Zamba2-7B

相对于上一代Zamba1-7B，新模型在架构上的改进包括：

1. 把Mamba1块已替换为Mamba2块；

2. 把单个共享注意力块增加为两个共享注意力块，在整个网络中以 ABAB 模式交错排列，增强了网络对信息的处理能力；

3. 为每个共享的多层感知机（MLP）模块应用了一个LoRA投影器，可以让网络在每次调用共享层时，针对不同层次专门化（specialize）MLP模块以适应不同层次的数据处理，从而提高网络的性能和效率。

模型质量

Zamba2在标准语言建模评估集上表现非常出色，考虑到延迟和生成速度，其在小语言模型（≤8B）中，在质量和性能上都处于领先地位，主要原因如下：

1. 新型共享注意力架构可以让更多的参数分配到Mamba2智能体的骨干网络中，从而让共享的Transformer模块就能够保留注意力计算中丰富的跨序列依赖性；新架构通过优化参数分配，使得智能体在处理图像描述等任务时，能够更好地理解和利用数据中的复杂关系。

2. 预训练数据集达到了3万亿个token的规模，混合了Zyda数据和公开可用的数据，经过了严格的过滤和去重处理，确保了数据的高质量，在与现有的顶级开源预训练数据集的比较中，数据处理也达到了最先进的水平。

3. 模型中还有一个特别的「退火」（annealing）预训练阶段，在处理100B个高质量token的过程中快速降低学习率，其中退火数据集是精心策划和从多个高质量来源整理而来的，以确保质量。智能体在这个阶段通过处理大量高质量的数据，能够更快地学习和适应，从而提高其在图像描述等任务上的表现。

由于我们的预训练和退火数据集的卓越质量，Zamba2-7B智能体在每个训练token上的表现非常出色，轻松超越了竞争对手模型的性能曲线。

Zamba2-7B智能体利用并扩展了初代的Zamba混合SSM-注意力架构，核心的Zamba架构由Mamba层构成的骨干网络与一个或多个共享注意力层交错组成（Zamba1有一个共享注意力层，Zamba2有两个），注意力机制的权重共享，以最小化模型的参数成本。

研究人员发现，将输入的原始模型嵌入与这个注意力块进行连接可以提高性能，很可能是因为可以更好地保持了信息在网络深度上的传递。

Zamba2架构还对共享的MLP应用了LoRA投影矩阵，以在每个模块中获得一些额外的表达能力，并允许每个共享模块稍微专门化，以适应其独特的位置，同时保持额外的参数开销很小。

类似于在智能体的「大脑」中添加了一种特殊的「眼镜」，使其能够更清晰地看到每个数据点的独特之处，同时保持整体的简洁和高效。

通过这种方式，Zamba2-7B智能体在处理图像描述等任务时，能够更加精准地理解和生成内容。

Zamba2-7B 推理性能

模型实现了最先进的推理效率，包括延迟、吞吐量和内存使用，主要原因如下：

1. Mamba2模块的效率极高，其吞吐量大约是同等参数Transformer模块的4倍，也就意味着Mamba2模块在处理数据时更快，能够更迅速地完成图像描述等智能体任务。

2. Mamba模块只需要存储较小的隐藏状态，并且不需要KV缓存，所以只需要为共享注意力模块的调用存储KV状态，就好像智能体在记忆信息时，不需要记住每一个细节，而是只记住最关键的部分，既节省了空间，也提高了效率。

3. 选择的模型尺寸非常适合在现代硬件上进行并行处理（例如，GPU上的多个流式多处理器，CPU上的多个核心），像是在工厂里使用多条生产线同时工作，可以大大提高生产速度和效率。

这些设计使得该智能体在处理图像描述等任务时，不仅速度快，而且资源消耗少，为用户提供了高效且流畅的体验。

训练消耗

使用基于Megatron-LM开发的内部训练框架，在128个H100 GPU上进行了训练了大约50天，表明即使在70亿参数的规模上，前沿技术仍然是可及且可以超越的，即使是小团队和适度预算也能实现。

Zamba2-7B智能体的开源许可证允许研究人员、开发者和公司使用。

Zamba1架构

今年5月，Zamba发布，开创性地结合了Mamba骨干网络和单一共享注意力模块的独特架构，以最小的参数成本，保持了注意力机制的优势，实现了比同类的Transformer模型更高的推理效率，并且在生成长序列时所需的内存量也大大减少。

论文链接：https://arxiv.org/pdf/2405.16712

Zamba的预训练分为两个阶段：

1. 基于现有的网络数据集预训练；

2. 退火阶段包括在高质量的指导性和合成数据集上对模型进行退火处理，其特点是学习率快速衰减。

Zamba智能体的架构设计上，由一系列标准的Mamba模块构成骨干网络，并与一个共享的注意力和多层感知机（MLP）模块相连，其中共享模块每6个Mamba模块重复一次，但参数是共享的，使得Mamba能够在相同的内存成本下利用更多的浮点运算（FLOPs）来提升性能。

输入的嵌入始终与残差流一起连接到共享注意力模块，为模型提供了一个额外的路径来记住输入信息；在模块处理完毕后，用一个可学习的线性投影将输出映射回残差流。

在推理和生成效率方面，Zamba智能体表现出色，虽然参数共享机制导致每个参数使用的FLOPs更多，但Zamba智能体的前向传递速度明显快于7B规模的竞品模型，随着序列长度的增加，优势更加明显。

由于Zamba智能体的SSM骨干网络，Mamba所需的KV缓存内存比其他类似规模的模型减少了很多，从而使Zamba智能体能够更有效地生成内容，并在单个设备上实现更长的上下文。

参考资料：

https://www.zyphra.com/post/zamba2-7b

致谢

如果您觉得这篇文章对你有帮助或启发，请不吝点赞、在看、转发，让更多人受益。同时，欢迎给个星标⭐，以便第一时间收到我的最新推送。每一个互动都是对我最大的鼓励。让我们携手并进，共同探索未知，见证一个充满希望和伟大的未来！

喜欢的话，请点个赞👍和关注吧～

http://mp.weixin.qq.com/s?__biz=Mzg3Njk3NDkyNQ==&mid=2247510162&idx=2&sn=447d8abba7c44f43370dcf9194fcb9b3

领先的AIGC和具身智能、大模型技术交流社区，关注LLM、CV、深度学习、生成式等AI领域前沿技术

最新文章

首次超越扩散模型和非自回归Transformer模型！字节开源RAR：自回归生成最新SOTA！

Ollama v0.4 可运行 Llama 3.2 Vision 啦

掌管OpenAI安全的那个人离职了，离职信曝光

你的LoRA需要更新了！科大讯飞等提出MiLoRA：新颖且高效的LoRA变体

LLM之数据的重要性

智能体首次达到Kaggle Grandmaster水平，华为用结构化推理补齐思维链短板

谷歌&Mistral AI发布TIPS：具有空间意识的文本-图像预训练（适配各种计算机视觉任务）

vLLM这一年的新特性以及后续规划（总结版!）

免费可商用！腾讯混元大语言模型和3D模型正式开源！

FGM：刷新流匹配模型单步文本到图像生成纪录！(浙大&卡内基梅隆&北大&西湖大学)

ROSCon首次落子中国内地！享誉全球的机器人精英盛会马上开始了

ECCV'24 | SAM4MLLM：多模态大语言模型和SAM强强联合

英伟达&斯坦福大学发布GRS：从真实世界观测中生成机器人仿真任务

告别庞然大物,拥抱小巧精悍！面向移动和边缘设备的小语言模型综述

满血版o1倒计时！奥特曼完整专访流出：o系列疯狂迭代，马上起飞

突破个性化图像生成局限！MagicTailor：组件可控个性化图像生成创新框架！

NeurIPS`24震撼发布:Diff-eRank大模型评估新指标，精准衡量LLM去噪！

三年前的AI设计芯片造假？谷歌深陷学术不端丑闻，吹哨人被开除!

清华大学最新！2万字长文全面解读多模态生成式AI的前世今生！

大模型推理优化技术-KV Cache量化理论到实战

2024 AI年度报告发布，附十大预测：人形机器人热度下降

2024年大模型LLM还有哪些可研究的方向？听听大佬怎么说

红外图像合成技术综述

谷歌Agent首次发现真实世界代码漏洞！抢救全球数亿设备，或挽回数十亿美元损失？

港理工&OPPO&Stability AI联合发布一致且高效的3D场景编辑方法——SyncNoise

突发！OpenAI正式发布ChatGPT网络搜索，彻底颠覆谷歌！

登上生图排行榜第一的red_panda，是家创业公司，不是国产模型

定制化视频生成新模范！零样本主体驱动，精确运动控制！复旦&阿里等发布DreamVideo-2

基于Gemini！Waymo提出端到端自动驾驶多模态模型EMMA！

苹果最强芯M4 Max首发！官方定位可开发大模型

无需昂贵标注！大幅提升SDXL和SD3-Medium效果！文生图偏好优化新宠来了 | TUM&Snap

从文本RAG到多模态RAG！LMU | 构建多模态RAG系统的最佳配置

AI「长脑子」了？LLM惊现「人类脑叶」结构并有数学代码分区，MIT大牛新作震惊学界！

4B和34B精度相当？xGen-MM-Vid (BLIP-3-Video)：你只需32个tokens来表示一个视频

VILA-U：统一多模态理解与生成模型！多模态任务新架构！

神秘模型“小熊猫”一夜刷屏：排名超Flux、Midjourney，网友：一看就中国的

教机器人"倒水"是融入生活的第一步！AR收集和生成演示(ARCADE)框架发布

NeurIPS`24 | 防御对抗性提示攻击!AdvUnlearn让图片生成风险骤降

大模型引领6G革命！最新综述探索「未来通信方式」：九大方向

颜水成团队新作:AI手机迎来重大技术进展！Meissonic:让移动成像技术飞跃

7B新王登基！Zamba 2推理效率比Llama 3提升20%，内存用量更少

初探大模型压缩

首篇！全面解读高效Segment Anything模型变体：各种图像分割加速策略和核心技术展示

一文读懂：从RAG到多模态RAG

大模型生成RPG游戏，情节角色全自定义！谷歌出品，一作上海交大

图像编辑多任务一网打尽！PromptFix，新型扩散模型&大规模视觉指令数据集（罗切斯特大学&微软）

训练扩散模型比你想象的更简单！谢赛宁老师：Representation matters！

与OpenAI o1技术理念相似，TDPO-R算法有效缓解奖励过优化问题

灵活精确可控编辑！Dice:首个离散扩散模型精确反演方法！

大模型面经—RAG工程实践经验总结

分类

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉