大模型MOE框架发展系统总结

文摘   2024-07-11 18:07   上海  

关于MOE模型的综述。可以看看基本发展以及建模方法,MoE作为一种有效的方法,可以在不显著增加计算开销的情况下扩展模型容量,MoE模型由多个专家网络和一个门控网络组成,门控网络负责将输入分配给适当的专家网络进行处理。

最近的工作 《A Survey on Mixture of Experts》(https://arxiv.org/abs/2407.06204) 可以看看,这个工作是个梳理,提出了一种新的MoE分类法,将MoE的进展分为算法、系统和应用三个方面,并概述了各种MoE模型的核心设计,包括算法和系统方面,以及开源实现、超参数配置和实证评估的集合,并介绍了MoE在自然语言处理、计算机视觉、推荐系统和多模态环境中的实际应用

有几个点可以重点看看:

1、近年来几种代表性的专家混合(MoE)模型的按时间顺序的概览

时间线主要是根据模型的发布日期来构建的。位于箭头上方的MoE模型是开源的,而箭头下方的模型是专有和封闭源代码的。

来自不同领域的MoE模型用不同的颜色标记:自然语言处理(NLP)用绿色表示,计算机视觉用黄色表示,多模态用粉红色表示,推荐系统(RecSys)用青色表示。

2、基于Transformer模型中的MoE层示意

对于每个输入X,线性-softmax门控将选择所有专家,即(a) 密集MoE,或选择顶部的k个专家,即(b) 稀疏MoE,以执行条件计算。专家层返回所选专家的输出乘以门值(门控函数输出的softmax)。

3、MOE的整体分类体系

该工作对MOE的整体技术做了整体分类,如下:

4、MoE模型中使用的各种门控功能示意

包括(a) 使用top-1门控的稀疏MoE,(b)BASE层,(c)分组领域映射和随机门控的组合 ,(d)专家选择门控,(e)注意力路由器,以及(f)带有专家合并的软MoE。

5、开源MoE系统框架

在研发侧,可以看当前一些开源的MOE系统框架。

进交流群请添加小助手微信



关于互联网持续学习圈


互联网持续学习圈是由清华大学计算机系校友、前阿里和微软算法工程师创办。汇聚互联网精英、985高校及海外硕博、自主创业者等,是持续学习者的专属圈。专注互联网资讯、科研、求职等。器识其先,文艺其从,陪你进化二十年。


互联网持续学习圈
清华大学计算机系校友、前微软、阿里高级算法工程师创办。汇聚互联网精英、985高校及海外硕博、自主创业者,持续学习者的专属圈。专注互联网资讯、科研、求职等。器识其先,文艺其从,陪你进化二十年。
 最新文章