研究人员提出了一种新型归一化技术Mix-LN,以解决大语言模型(LLMs)中深层的效率问题。Mix-LN结合了预归一化(Pre-LN)和后归一化(Post-LN)的优点,分别在浅层和深层应用,以确保梯度的均匀分布,从而提升模型在预训练和微调过程中的性能。实验结果表明,Mix-LN显著优于传统的归一化方法,能够有效改善模型的表现而不增加模型规模。
参考:
https://www.nature.com/articles/s41586-024-08334-8
点个分享、点赞与在看,你最好看~
研究人员提出了一种新型归一化技术Mix-LN,以解决大语言模型(LLMs)中深层的效率问题。Mix-LN结合了预归一化(Pre-LN)和后归一化(Post-LN)的优点,分别在浅层和深层应用,以确保梯度的均匀分布,从而提升模型在预训练和微调过程中的性能。实验结果表明,Mix-LN显著优于传统的归一化方法,能够有效改善模型的表现而不增加模型规模。
参考:
点个分享、点赞与在看,你最好看~