AnchorAttention有效地缓解了在大模型训练中,采用BFloat16精度的RoPE时,可能会遇到的数值稳定性的问题;确保了在长上下文场景下,模型也能够稳定且高效地训练。如下所示:
参考文献:
[1] 代码repo:https://github.com/haonan3/AnchorContext
[2] 论文:https://arxiv.org/abs/2411.13476
欢迎大家支持我的知识星球(NLP工程化):Dify源码剖析及答疑,Dify对话系统源码,电子书籍报告下载,公众号所有付费资料。如果微信群二维码过期,可加个人微信(buxingtianxia21)进群。
NLP工程化知识星球
NLP工程化分享群