Zyphra公司近日发布了Zamba2-mini 1.2B,一款专为设备端应用程序设计的尖端小语言模型。
这款端侧开源AI模型共有12亿参数,并且在4bit量化下内存占用低于700MB。被称为端侧SOTA(state-of-the-art)小语言模型的Zamba2-mini,虽然尺寸不大,但其性能却媲美诸如谷歌的Gemma-2B、Huggingface的SmolLM-1.7B、苹果的OpenELM-1.1B以及微软的Phi-1.5等更大规模的模型。
1
小身材,大能量:挑战更大模型的性能
Zamba2-mini的发布引起了广泛关注,原因在于它成功将高效性能与低内存占用结合。
这款“小钢炮”级别的模型在推理任务中的表现令人惊叹。与谷歌的Gemma-2B、Huggingface的SmolLM-1.7B、苹果的OpenELM-1.1B以及微软的Phi-1.5等更大规模模型相比,Zamba2-mini并不逊色。它不仅首次令牌时间快了一倍,还能在内存占用上减少27%。
这一性能得益于其高度优化的架构设计。Zamba2-mini结合了Transformer和递归神经网络(RNN)的元素,既保留了大型密集变压器的高质量输出,又维持了较小模型的计算和内存效率。这种高效性使得Zamba2-mini特别适合资源有限但对高性能有需求的设备端AI应用。
2
优化架构:效率与质量的完美平衡
Zamba2-mini 1.2B的卓越表现归功于其高度优化的架构设计。该模型结合了不同神经网络设计的优点,既能保持大型密集变压器的高质量输出,又能以更小模型的计算和内存效率运行。
与前代Zamba1相比,Zamba2-mini引入了两个共享注意力层(attention layers),增强了模型在不同深度上保持信息的能力,从而进一步提高了整体性能。此外,模型在共享注意力层中引入了旋转位置嵌入,进一步提升了其运算效率。
3
庞大数据集与精心预训练:卓越性能的基础
Zamba2-mini是在一个包含三万亿个tokens的庞大数据集上进行预训练的。
这些数据来自Zyda和其他公开来源,经过了严格的过滤和重复处理,以确保最高质量的训练数据。
在annealing阶段,模型还在1000亿个极高质量的tokens上进行了专门训练。这一精心设计和处理的数据集为Zamba2-mini提供了卓越的性能基础,使其在各种推理任务中表现出色。
4
开源许可:推动行业创新的动力
Zyphra已承诺将Zamba2-mini作为Apache 2.0许可下的开源模型。此举旨在推广先进的AI技术,促进整个行业的创新和发展。
通过提供Zamba2-mini的开源模型权重,Zyphra使开发人员和研究人员可以在他们的项目中自由使用这一模型,推动高效语言模型的进一步研究和开发。
Zamba2-mini的出现对当前AI发展的方向提出了新的思考。在过去,AI模型的发展常常陷入“越大越好”的误区,追求高参数量和复杂结构,往往忽略了实际应用中的资源消耗和效率问题。Zamba2-mini以其“小身材”展示了“大能力”,证明了高效和高性能不一定依赖于庞大的参数和复杂的架构。
Zamba2-mini这样的高效小模型不仅降低了硬件的要求,还能在更多场景中灵活部署,带来更好的用户体验和商业价值。
从未来发展的角度来看,设备端AI将越来越多地应用于物联网、移动设备和边缘计算,这些场景都对AI模型的资源消耗提出了更高要求。