Mix-LN:一种混合归一化技术,结合了前层归一化和后层归一化的优点

文摘   2025-01-12 07:45   福建  

究人员提出了一种新型归一化技术Mix-LN,以解决大语言模型(LLMs)中深层的效率问题。Mix-LN结合了预归一化(Pre-LN)和后归一化(Post-LN)的优点,分别在浅层和深层应用,以确保梯度的均匀分布,从而提升模型在预训练和微调过程中的性能。实验结果表明,Mix-LN显著优于传统的归一化方法,能够有效改善模型的表现而不增加模型规模。

参考:

  1. https://www.nature.com/articles/s41586-024-08334-8



点个享、点赞在看,你最好看~


Halo咯咯
专注于技术知识整理,包含人工智能、大模型、机器学习、深度学习、大数据等多个领域的技术知识,以及各种开源的内容~
 最新文章