Zamba2-mini是Zyphra公司近期推出的最新款语言模型,它专为设备端应用设计。
该模型在SOTA评估基准测试中表现卓越,并且具有出色的推理效率。
Zamba2-mini参数量仅有12亿,却能在性能上媲美参数量达70亿的Llama2模型,实现了在保持同等性能的同时,参数量减少七倍的目标。
Zamba2-mini模型在4位量化的情况下,内存占用小于700MB,这一特性使其在资源受限的设备上运行时表现出色。
与同类规模甚至更大规模的模型相比,如Gemma-2B(谷歌)、SmolLM-1.7B(HuggingFace)、OpenELM-1.1B(苹果)、StableLM-1.6B(StabilityAI)和Phi-1.5(微软),Zamba2-mini不仅在SOTA评估基准测试中取得了最佳成绩,还在推理效率方面领先。
具体来说,Zamba2-mini的时间至首个令牌输出速度比Phi3-3.8B快两倍,内存开销降低了27%,生成延迟也减少了1.29倍。
Zamba2-mini的设计目标是在保证模型质量的同时,降低其推理计算量和内存需求。
该模型通过使用共享的变压器块,能够在不牺牲序列间依赖关系的情况下,将更多参数分配给Mamba2主干网络。
此外,Zamba2-mini的预训练数据集包含3万亿个标记,这些数据来自Zyda和其他公开可用的数据集,并经过严格筛选和去重处理,以确保数据质量。
为了进一步提升模型性能,Zamba2-mini采用了一个单独的“退火”预训练阶段,在此期间,学习率会在1000亿个高质量标记上逐渐衰减。
这种策略有助于模型更加稳定地收敛到最优解。
此外,Zamba2-mini还引入了旋转位置嵌入技术,这略微提高了模型在共享注意力层上的表现。
在架构方面,Zamba2-mini继承并扩展了Zamba系列的混合SSM-Attention架构。
其核心由交错排列的Mamba层和一个或多个共享注意力层组成,其中Zamba2采用了两个共享注意力层。
共享注意力层的权重被共享,以减少模型的参数成本。
在Zamba2-mini中,Mamba1块已经被更新为更高效的Mamba2块,并且LoRA投影矩阵被应用于共享注意力层和MLP块,使得网络能够在深度上对共享层进行专门化调整,同时保持额外参数开销较小。
此外,Zamba2-mini还利用了LoRA来增强共享注意力层的表达能力,并且只使用了一个共享层,而非像Zamba2-2.7B那样采用交替方案。
Zamba2-1.2B模型是在大约3万亿个标记的数据集上进行了预训练,并在1000亿个高质量标记上进行了退火训练。
该模型将开源发布,遵循Apache 2.0许可协议,供研究人员、开发者和企业使用。
Zamba2-mini的HuggingFace集成版本已经上线,同时提供纯PyTorch实现版本供下载。
直达链接:https://huggingface.co/Zyphra/Zamba2-1.2B
关注我们:即可加入【AI交流群】,免费领取【AI大礼包】