关于MOE模型的综述。可以看看基本发展以及建模方法,MoE作为一种有效的方法,可以在不显著增加计算开销的情况下扩展模型容量,MoE模型由多个专家网络和一个门控网络组成,门控网络负责将输入分配给适当的专家网络进行处理。
最近的工作 《A Survey on Mixture of Experts》(https://arxiv.org/abs/2407.06204) 可以看看,这个工作是个梳理,提出了一种新的MoE分类法,将MoE的进展分为算法、系统和应用三个方面,并概述了各种MoE模型的核心设计,包括算法和系统方面,以及开源实现、超参数配置和实证评估的集合,并介绍了MoE在自然语言处理、计算机视觉、推荐系统和多模态环境中的实际应用。
有几个点可以重点看看:
1、近年来几种代表性的专家混合(MoE)模型的按时间顺序的概览
时间线主要是根据模型的发布日期来构建的。位于箭头上方的MoE模型是开源的,而箭头下方的模型是专有和封闭源代码的。
来自不同领域的MoE模型用不同的颜色标记:自然语言处理(NLP)用绿色表示,计算机视觉用黄色表示,多模态用粉红色表示,推荐系统(RecSys)用青色表示。
2、基于Transformer模型中的MoE层示意
对于每个输入X,线性-softmax门控将选择所有专家,即(a) 密集MoE,或选择顶部的k个专家,即(b) 稀疏MoE,以执行条件计算。专家层返回所选专家的输出乘以门值(门控函数输出的softmax)。
3、MOE的整体分类体系
该工作对MOE的整体技术做了整体分类,如下:
4、MoE模型中使用的各种门控功能示意
包括(a) 使用top-1门控的稀疏MoE,(b)BASE层,(c)分组领域映射和随机门控的组合 ,(d)专家选择门控,(e)注意力路由器,以及(f)带有专家合并的软MoE。
5、开源MoE系统框架
在研发侧,可以看当前一些开源的MOE系统框架。
关于互联网持续学习圈