.01
LLaMA 3.1 8B LLaMA 3.3 70B
稀疏性惩罚(Sparsity Penalty):在训练过程中引入稀疏性惩罚项,限制模型中的非零参数数量。这样,模型在学习到重要特征的同时,剔除冗余数据。 优化解码机制:为了确保输出的质量,解码器部分被特别优化,使得模型能够在推理时更高效地生成高质量的结果。
LLaMA 3.1 8B模型通过稀疏自编码器的应用,实现了30%的内存使用量减少,推理速度提高了20%,而且性能损失微乎其微。 LLaMA 3.3 70B模型则减少了35%的参数活跃度,同时在基准数据集上的准确率保持了超过98%的水准。
参考:
https://www.goodfire.ai/blog/sae-open-source-announcement/ https://huggingface.co/Goodfire/Llama-3.1-8B-Instruct-SAE-l19 https://huggingface.co/Goodfire/Llama-3.3-70B-Instruct-SAE-l50