2024即插即用多头注意力模块MOH，涨点起飞起飞了！

文摘 2024-12-31 17:20 中国香港

论文介绍

题目：Multi-Head Attention as Mixture-of-Head Attention

论文地址：https://arxiv.org/pdf/2410.11842

QQ深度学习交流群：994264161

扫描下方二维码，加入深度学习论文指南星球！

加入即可获得，模块缝合、制作、写作技巧，学会“结构”创新、“创新点”创新，从三区到顶会，小论文大论文，毕业一站式服务

创新点

引入Mixture-of-Head Attention (MoH)
该论文提出了一种新的多头注意力机制，称为Mixture-of-Head Attention (MoH)，将注意力头视为Mixture-of-Experts (MoE)框架中的专家。通过这种机制，每个token可以动态选择最相关的注意力头，从而提高推理效率，同时保持甚至超越原始多头注意力的性能。
动态路由机制
MoH通过动态路由机制实现了每个token选择适当的注意力头，从而减少冗余头的激活。这种设计在不增加参数数量的情况下提升了模型性能和推理效率。
加权求和替代标准求和
在传统多头注意力中，输出是所有头的简单求和，而MoH引入了加权求和机制，为注意力机制带来了更大的灵活性和性能潜力。
共享头和两阶段路由策略
论文中提出了共享头的概念，用于捕获跨上下文的通用知识。同时设计了两阶段路由策略，在共享头和动态路由头之间平衡权重，从而进一步优化模型性能。
支持预训练模型的迁移和改进
MoH能够将现有的预训练多头注意力模型（如LLaMA3-8B）继续微调为MoH模型。例如，MoH-LLaMA3-8B在14个基准测试上的平均准确率提高了2.4%，仅激活了75%的注意力头。
广泛的实验验证
论文通过在图像分类（ViT）、类条件图像生成（DiT）和大语言模型（LLMs）等多个模型框架中的实验验证了MoH的有效性，表现出优于传统多头注意力的性能，且只需激活50%-90%的注意力头。

方法

整体架构

这篇论文提出的模型结构是基于Mixture-of-Head Attention (MoH) 的架构，它将传统的多头注意力机制与Mixture-of-Experts (MoE) 框架结合。具体而言，MoH使用一个路由器为每个token动态选择Top-K的注意力头，并通过加权求和代替标准求和来生成输出。此外，模型中引入了共享头（捕获通用知识）和两阶段路由策略（在共享头与动态路由头之间平衡权重），从而在不增加参数数量的情况下实现高效的推理和卓越的性能，适用于图像分类、生成和语言建模等多种任务。

多头注意力作为专家（Heads as Experts）：
在MoH中，将传统多头注意力中的注意力头视为“专家”，并通过路由器动态激活每个token的Top-K头，从而选择最相关的头参与计算。
动态路由器（Dynamic Router）：
MoH通过一个动态路由器，根据输入token的特性为每个token分配路由分数，仅激活相关的注意力头以提高推理效率。
共享头（Shared Heads）和路由头（Routed Heads）：
模型中的一部分注意力头被设定为共享头，用于捕获通用知识（例如语言中的语法规则），这些共享头始终被激活。其余头作为路由头，根据动态路由器的分数动态激活。
两阶段路由策略（Two-Stage Routing Strategy）：
设计了一种两阶段路由策略，以动态平衡共享头和路由头的权重，使得模型能够更高效地利用注意力资源。
加权求和（Weighted Summation）：
替代传统多头注意力的简单求和方式，MoH对激活的头进行加权求和，从而增加了注意力机制的灵活性和性能潜力。
整体结构可扩展性：
MoH结构在多个模型框架中得到验证，包括Vision Transformers (ViT) 用于图像分类、Diffusion Transformers (DiT) 用于图像生成，以及大语言模型 (LLMs) 用于语言任务。其核心特点是在不增加模型参数数量的情况下，通过动态头选择和共享知识捕获实现性能提升。

即插即用模块作用

MOH 作为一个即插即用模块：

图像分类任务
在基于Transformer的视觉模型（如Vision Transformers, ViT）中，MOH可以直接替代传统的多头注意力模块，用于图像分类任务。通过减少冗余头的激活和动态选择相关注意力头，MOH能够提升计算效率，同时保持甚至超越原始模型的分类性能。
类条件图像生成任务
在扩散模型（如DiT, Diffusion models with Transformers）中，MOH可以用来优化图像生成任务中的注意力机制。通过动态路由机制，MOH能够更高效地捕捉像素级别的细粒度关系，从而提高生成质量并减少计算资源消耗。
自然语言处理任务（NLP）
在大语言模型（LLMs，如LLaMA）中，MOH可以优化模型的注意力计算效率和性能，特别适合需要处理长文本、复杂上下文或多样化任务的语言建模场景。例如，MOH在文本分类、问答、逻辑推理等任务中都显示出优异的表现。
迁移学习与模型微调
MOH可以无缝集成到已有的预训练模型中，通过继续微调的方式替代传统多头注意力结构。例如，它可以提升预训练模型在少量数据上的迁移学习性能，同时减少激活的注意力头以提高效率。

消融实验结果

单独加入共享头显著提升了模型的准确率（如图像分类任务中的Top-1准确率从75.6%提升至78.3%）。
再加入两阶段路由后，进一步提升模型性能，表现最佳（准确率达78.6%）。
说明共享头有效捕获了通用知识，而两阶段路由策略动态优化了共享头和路由头之间的权重平衡

在共享头比例范围从13.9%到74.0%内，模型的性能基本保持稳定（准确率在78.4%到78.6%之间）。
这表明共享头比例只要不过高或过低，对模型性能的影响有限，同时共享头起到了“Soft MoE”的作用

即插即用模块

import torch
import torch.nn as nn
import torch.nn.functional as F
from torch.jit import Final
from timm.layers import use_fused_attn

# 论文: Multi-Head Attention as Mixture-of-Head Attention

# 论文地址：https://arxiv.org/pdf/2410.11842


class MoHAttention(nn.Module):
    fused_attn: Final[bool]
    LOAD_BALANCING_LOSSES = []

    def __init__(
            self,
            dim,
            num_heads=8,
            qkv_bias=False,
            qk_norm=False,
            attn_drop=0.,
            proj_drop=0.,
            norm_layer=nn.LayerNorm,
            shared_head=0,
            routed_head=0,
            head_dim=None,
    ):
        super().__init__()
        # assert dim % num_heads == 0, 'dim should be divisible by num_heads'
        self.num_heads = num_heads
        
        if head_dim is None:
            self.head_dim = dim // num_heads
        else:
            self.head_dim = head_dim
        
        self.scale = self.head_dim ** -0.5
        self.fused_attn = use_fused_attn()

        self.qkv = nn.Linear(dim, (self.head_dim * self.num_heads) * 3, bias=qkv_bias)
        
        self.q_norm = norm_layer(self.head_dim) if qk_norm else nn.Identity()
        self.k_norm = norm_layer(self.head_dim) if qk_norm else nn.Identity()
        self.attn_drop = nn.Dropout(attn_drop)
        self.proj = nn.Linear(self.head_dim * self.num_heads, dim)
        
        self.proj_drop = nn.Dropout(proj_drop)

        self.shared_head = shared_head
        self.routed_head = routed_head
        
        if self.routed_head > 0:
            self.wg = torch.nn.Linear(dim, num_heads - shared_head, bias=False)
            if self.shared_head > 0:
                self.wg_0 = torch.nn.Linear(dim, 2, bias=False)

        if self.shared_head > 1:
            self.wg_1 = torch.nn.Linear(dim, shared_head, bias=False)

    def forward(self, x):
        B, N, C = x.shape

        _x = x.reshape(B * N, C)
        
        if self.routed_head > 0:
            logits = self.wg(_x)
            gates = F.softmax(logits, dim=1)

            num_tokens, num_experts = gates.shape
            _, indices = torch.topk(gates, k=self.routed_head, dim=1)
            mask = F.one_hot(indices, num_classes=num_experts).sum(dim=1)

            if self.training:
                me = gates.mean(dim=0)
                ce = mask.float().mean(dim=0)
                l_aux = torch.mean(me * ce) * num_experts * num_experts

                MoHAttention.LOAD_BALANCING_LOSSES.append(l_aux)

            routed_head_gates = gates * mask
            denom_s = torch.sum(routed_head_gates, dim=1, keepdim=True)
            denom_s = torch.clamp(denom_s, min=torch.finfo(denom_s.dtype).eps)
            routed_head_gates /= denom_s
            routed_head_gates = routed_head_gates.reshape(B, N, -1) * self.routed_head

        qkv = self.qkv(x).reshape(B, N, 3, self.num_heads, self.head_dim).permute(2, 0, 3, 1, 4)
        q, k, v = qkv.unbind(0)
        q, k = self.q_norm(q), self.k_norm(k)

        if self.fused_attn:
            x = F.scaled_dot_product_attention(
                q, k, v,
                dropout_p=self.attn_drop.p if self.training else 0.,
            )
        else:
            q = q * self.scale
            attn = q @ k.transpose(-2, -1)
            attn = attn.softmax(dim=-1)
            attn = self.attn_drop(attn)
            x = attn @ v
        
        if self.routed_head > 0:
            x = x.transpose(1, 2)

            if self.shared_head > 0:
                shared_head_weight = self.wg_1(_x)
                shared_head_gates = F.softmax(shared_head_weight, dim=1).reshape(B, N, -1) * self.shared_head

                weight_0 = self.wg_0(_x)
                weight_0 = F.softmax(weight_0, dim=1).reshape(B, N, 2) * 2
        
                shared_head_gates = torch.einsum("bn,bne->bne", weight_0[:,:,0], shared_head_gates)
                routed_head_gates = torch.einsum("bn,bne->bne", weight_0[:,:,1], routed_head_gates)
                
                masked_gates = torch.cat([shared_head_gates, routed_head_gates], dim=2)
            else:
                masked_gates = routed_head_gates

            x = torch.einsum("bne,bned->bned", masked_gates, x)
            x = x.reshape(B, N, self.head_dim * self.num_heads)
        else:
            shared_head_weight = self.wg_1(_x)
            masked_gates = F.softmax(shared_head_weight, dim=1).reshape(B, N, -1) * self.shared_head
            x = x.transpose(1, 2)

            x = torch.einsum("bne,bned->bned", masked_gates, x)
            x = x.reshape(B, N, self.head_dim * self.num_heads)

        x = self.proj(x)
        x = self.proj_drop(x)
        return x
    
def main():

    batch_size = 2
    num_tokens = 16
    embed_dim = 64

    input = torch.rand(batch_size, num_tokens, embed_dim)

    num_heads = 4
    attn_layer = MoHAttention(
        dim=embed_dim,
        num_heads=num_heads,
        qkv_bias=True,
        qk_norm=True,
        attn_drop=0.1,
        proj_drop=0.1,
        shared_head=2,
        routed_head=2,
        head_dim=16
    )


    attn_layer.train()

    output = attn_layer(input)

    print(input.size())
    print(output.size())

if __name__ == "__main__":    main()

便捷下载方式

浏览打开网址:https://github.com/ai-dawang/PlugNPlay-Modules

更多分析可见原文

ai缝合大王

聚焦AI前沿，分享相关技术、论文，研究生自救指南

最新文章

（IEEE 2024）双池化时序注意力模块DPTAM，即插即用，即用即涨点

CVPR DCNv2：即插即用的几何变形建模神器，提升目标检测与分割精度

CVPR | DAT：高效灵活的可变形注意力Transformer，为视觉任务带来新突破

即插即用CSRA残差注意力机制，涨点起飞起飞了！

即插即用Crossformer，涨点起飞起飞了！

ICLR 即插即用MobileViTAttention，结合卷积的局部特征提取能力和Transformer的全局特征建模能力

即插即用多分辨率重叠注意力模块MOA，涨点起飞起飞了！

NeurIPS CoAtNet：结合卷积与注意力的高效视觉网络，全面提升图像处理性能

突破计算瓶颈：GFNet在图像分类、目标检测与语义分割中的高效创新应用

2024即插即用多头注意力模块MOH，涨点起飞起飞了！

即插即用Vision Permutator，涨点起飞起飞了！

即插即用简化自注意力机制SSAN，涨点起飞起飞了！

无注意力Transformer模块AFT，涨点起飞起飞了！

即插即用极化自注意力模块PSAN，涨点起飞起飞了！

高效金字塔压缩注意力模块EPSA，涨点起飞起飞了！

分割注意力模块S2Attention，涨点起飞起飞了！

即插即用外部注意力机制EA，涨点起飞起飞了！

即插即用高效通道注意力机制ECA，涨点起飞起飞了！

（ACCV 2024）局部重要性驱动注意力机制LIA，涨点起飞起飞了！

30+文件覆盖，深度学习论文速通

《Neural Networks 2024》自适应细粒度通道注意力机制FCA，涨点起飞起飞了！

（ESWA 2024）高低频注意力机制FCHilo，即插即用涨点启动！

混合自适应注意力模块HAAM，涨点起飞起飞了！

2024 Mamba空间状态增强模块RSSG，涨点起飞起飞了！

即插即用超轻量级子空间注意力模块ULSAM，涨点起飞起飞了！

（CVPR 2024）频域自适应空洞卷积FADC，即插即用涨点启动！

2024即插即用Efficient Non-Local Transformer Block，涨点起飞起飞了！

NeurIPS 条件卷积模块CondConv，涨点起飞起飞了！

即插即用DO-Conv模块，涨点起飞起飞了

ACM 即插即用TSConformerBlock 模块，涨点启动！

（ECCV 2022）即插即用门控通道注意力机制NAF，涨点起飞起飞了！

多尺度特征融合模块TIF，涨点涨爆了！

创新思维发一区，论文速通指南创新更新中

2024即插即用时空交互注意力机制TIAM，涨点涨爆了！

2024即插即用移位窗口注意力机制SWA，涨点起飞！

(IEEE TIP)即插即用多尺度特征提取模块MSB，涨点起飞！

2024多级卷积模块MCM，涨点起飞起飞了

（IEEE 2024）即插即用局部金字塔注意力模块LPA，涨点涨爆了

即插即用半小波注意力模块HWAB，涨点涨爆了

2024即插即用轻量化自适应提取模块LAE，涨点起飞起飞了

深度学习论文速通指南，发论文很难吗？

2024即插即用分层特征融合模块HFF，涨点起飞起飞了

(IEEE 2024)即插即用特征增强模块FEM，涨点起飞

2024频域多尺度选择模块FMS，即插即用，涨点启动！

即插即用多尺度特征融合模块GAB，涨点起飞起飞了

(AAAI 2024) 即插即用时空动态特征提取和优化的轻量型注意力模块GAU，涨点涨爆了

即插即用多重注意力特征融合模块EFF，涨点启动！

即插即用频域增强通道注意力机制EFCAttention，涨点启动!

即插即用特征注意力融合模块FFA，涨点起飞起飞了

2024即插即用CLEEGN模块：自动化EEG去伪影与重建，涨点起飞

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉