即插即用多模态条件注意力模块TabAttention，即用即涨点

文摘 2025-01-19 17:20 上海

论文介绍

题目：TabAttention: Learning Attention Conditionally on Tabular Data

论文地址：https://arxiv.org/pdf/2310.18129

QQ深度学习交流群：994264161

扫描下方二维码，加入深度学习论文指南星球！

加入即可获得，模块缝合、制作、写作技巧，学会“结构”创新、“创新点”创新，从三区到顶会，小论文大论文，毕业一站式服务

创新点

提出TabAttention模块：

设计了一种新的注意力模块TabAttention，它通过结合表格数据条件学习注意力权重来增强卷积神经网络（CNN）的性能。
将经典的CBAM（Convolutional Block Attention Module）扩展到3D数据处理，并添加了时间注意力模块（TAM），利用多头自注意力（MHSA）学习时间注意力映射。

融合表格数据嵌入：

TabAttention通过表格数据嵌入将表格数据的信息与影像特征图结合，用于生成通道、空间和时间注意力映射。
这种方法使模型能够更好地判断“关注什么”、“在哪里关注”以及“何时关注”，从而改进预测性能。

在胎儿出生体重（FBW）预测任务上的验证：

使用腹部超声视频和胎儿生物测量数据（如腹围、头围等）进行了实验。
实验结果表明，TabAttention在所有测试方法中取得了最低的误差（MAE、RMSE和MAPE指标），性能优于当前的人工方法和基于表格或影像数据的机器学习方法。

模块设计的通用性：

TabAttention可以无缝集成到任何CNN架构中，例如本文中与3D ResNet-18的集成。
模块设计对表格数据的依赖使其能够在许多需要影像和表格数据结合的临床工作流中应用。

对现有方法的改进：

将表格数据作为提示信息，指导网络学习注意力映射，显著提升了基线方法的性能。
解决了影像特征与表格数据之间交互不足的问题。

方法

整体架构

这篇论文中提出的模型整体结构是基于3D卷积神经网络（3D ResNet-18），通过集成TabAttention模块增强其性能。TabAttention模块包括通道注意力模块（CAM）、空间注意力模块（SAM）和时间注意力模块（TAM），这些模块通过结合影像特征和表格数据嵌入来生成多维度的注意力映射。影像特征首先通过3D卷积处理，生成的中间特征映射依次经过CAM、SAM和TAM的加权调整，最终生成优化的输出特征，用于预测任务（如胎儿出生体重）。模型的设计旨在高效融合影像和表格数据，实现对目标特征的更精准捕捉。

输入数据：

影像数据：二维超声视频序列，经过预处理后形成3D特征输入。
表格数据：胎儿生物测量参数（如腹围、头围等）及母体年龄等数值特征。

主干网络：

使用3D ResNet-18作为主干网络，提取影像数据的时空特征。
在每个残差块中嵌入TabAttention模块以增强特征学习。

TabAttention模块：

包括通道注意力模块（CAM）、空间注意力模块（SAM）和时间注意力模块（TAM）。
这些模块通过结合表格数据嵌入，对影像特征进行多维度的注意力加权。
表格数据通过嵌入网络转化为特征向量，与影像特征联合计算注意力映射。

输出层：

在3D ResNet-18的最终全连接层输出预测值（如胎儿出生体重）。
使用回归损失函数（如均方误差）优化模型。

即插即用模块作用

TabAttention 作为一个即插即用模块：

多模态数据的融合：

当任务中同时存在影像数据（如医学影像、视频）和表格数据（如数值特征、统计数据）时，TabAttention能够高效融合这两种数据，提高预测性能。
典型场景：医学诊断（结合影像和患者信息）、工业检测（结合视觉和传感器数据）、遥感影像分析（结合影像和环境参数）。

时空特征分析：

涉及时间维度的序列数据（如视频或动态信号）的场景，可以利用TabAttention中的时间注意力模块（TAM）增强对时间维度变化的捕捉。
典型场景：行为识别、视频分类、时序事件检测。

复杂场景中特征的关注优化：

当数据具有高维特征（例如3D影像、复杂表格数据）且需要对关键特征进行选择和权重分配时，TabAttention可以通过通道注意力（CAM）和空间注意力（SAM）来优化模型关注的内容。
典型场景：高维数据分析（如基因组学、金融数据分析）。

消融实验结果

内容：展示了不同模块组合对模型性能的影响，指标包括：

平均绝对误差（MAE）。
均方根误差（RMSE）。
平均绝对百分比误差（MAPE）。

实验设置：

基线模型：3D ResNet-18。
逐步加入关键模块（TAM、CBAM、表格数据嵌入等），最终形成完整的TabAttention模块。

结果说明：

仅加入TAM：性能提升有限，说明仅时间注意力不足以显著提高结果。
加入CBAM和表格数据嵌入：性能明显提升，表明表格数据对注意力机制的重要作用。
完整TabAttention模块：实现最佳性能，验证了模块设计的有效性和各部分的协同作用。

即插即用模块

import torch
from torch import nn
from torch.functional import F
import math
class TabAttention(nn.Module):
    def __init__(self, input_dim, tab_dim=6, tabattention=True, cam_sam=True, temporal_attention=True):

        super(TabAttention, self).__init__()

        channel_dim, h, w, frame_dim = input_dim
        hw_size = (h, w)
        self.input_dim = input_dim
        self.tabattention = tabattention
        self.temporal_attention = temporal_attention
        self.cam_sam = cam_sam
        if self.cam_sam:
            self.channel_gate = ChannelGate(channel_dim, tabattention=tabattention, tab_dim=tab_dim)
            self.spatial_gate = SpatialGate(tabattention=tabattention, tab_dim=tab_dim, input_size=hw_size)
        if temporal_attention:
            self.temporal_gate = TemporalGate(frame_dim, tabattention=tabattention, tab_dim=tab_dim)

    def forward(self, x, tab=None):
        b, c, h, w, f = x.shape
        x_in = torch.permute(x, (0, 4, 1, 2, 3))
        x_in = torch.reshape(x_in, (b * f, c, h, w))
        if self.tabattention:
            tab_rep = tab.repeat(f, 1, 1)
        else:
            tab_rep = None

        if self.cam_sam:
            x_out = self.channel_gate(x_in, tab_rep)
            x_out = self.spatial_gate(x_out, tab_rep)
        else:
            x_out = x_in

        x_out = torch.reshape(x_out, (b, f, c, h, w))

        if self.temporal_attention:
            x_out = self.temporal_gate(x_out, tab)

        x_out = torch.permute(x_out, (0, 2, 3, 4, 1)) # b,c,h,w,f

        return x_out


class BasicConv(nn.Module):
    def __init__(self, in_planes, out_planes, kernel_size, stride=1, padding=0, dilation=1, groups=1, relu=True,
                 bn=True, bias=False):
        super(BasicConv, self).__init__()
        self.out_channels = out_planes
        self.conv = nn.Conv2d(in_planes, out_planes, kernel_size=kernel_size, stride=stride, padding=padding,
                              dilation=dilation, groups=groups, bias=bias)
        self.bn = nn.BatchNorm2d(out_planes, eps=1e-5, momentum=0.01, affine=True) if bn else None
        self.relu = nn.ReLU() if relu else None

    def forward(self, x):
        x = self.conv(x)
        if self.bn is not None:
            x = self.bn(x)
        if self.relu is not None:
            x = self.relu(x)
        return x


class Flatten(nn.Module):
    def forward(self, x):
        return x.view(x.size(0), -1)


class ChannelGate(nn.Module):
    def __init__(self, gate_channels, tabattention=True, tab_dim=6, reduction_ratio=16, pool_types=['avg', 'max']):
        super(ChannelGate, self).__init__()
        self.tabattention = tabattention
        self.tab_dim = tab_dim
        self.gate_channels = gate_channels
        self.mlp = nn.Sequential(
            Flatten(),
            nn.Linear(gate_channels, gate_channels // reduction_ratio),
            nn.ReLU(),
            nn.Linear(gate_channels // reduction_ratio, gate_channels)
        )
        self.pool_types = pool_types
        if tabattention:
            self.pool_types = ['avg', 'max', 'tab']
            self.tab_embedding = nn.Sequential(
                nn.Linear(tab_dim, gate_channels // reduction_ratio),
                nn.ReLU(),
                nn.Linear(gate_channels // reduction_ratio, gate_channels)
            )

    def forward(self, x, tab=None):
        channel_att_sum = None
        for pool_type in self.pool_types:
            if pool_type == 'avg':
                avg_pool = F.avg_pool2d(x, (x.size(2), x.size(3)), stride=(x.size(2), x.size(3)))
                channel_att_raw = self.mlp(avg_pool)
            elif pool_type == 'max':
                max_pool = F.max_pool2d(x, (x.size(2), x.size(3)), stride=(x.size(2), x.size(3)))
                channel_att_raw = self.mlp(max_pool)
            elif pool_type == 'lp':
                lp_pool = F.lp_pool2d(x, 2, (x.size(2), x.size(3)), stride=(x.size(2), x.size(3)))
                channel_att_raw = self.mlp(lp_pool)
            elif pool_type == 'lse':
                # LSE pool only
                lse_pool = logsumexp_2d(x)
                channel_att_raw = self.mlp(lse_pool)
            elif pool_type == 'tab':
                embedded = self.tab_embedding(tab)
                embedded = torch.reshape(embedded, (-1, self.gate_channels))
                pool = self.mlp(embedded)
                channel_att_raw = pool

            if channel_att_sum is None:
                channel_att_sum = channel_att_raw
            else:
                channel_att_sum = channel_att_sum + channel_att_raw

        scale = torch.sigmoid(channel_att_sum).unsqueeze(2).unsqueeze(3).expand_as(x)
        return x * scale


class TemporalMHSA(nn.Module):
    def __init__(self, input_dim=2, seq_len=16, heads=2):
        super(TemporalMHSA, self).__init__()

        self.input_dim = input_dim
        self.seq_len = seq_len
        self.embedding_dim = 4
        self.head_dim = self.embedding_dim // heads
        self.heads = heads
        self.qkv = nn.Linear(self.input_dim, self.embedding_dim * 3)
        self.rel = nn.Parameter(torch.randn([1, 1, seq_len, 1]), requires_grad=True)
        self.o_proj = nn.Linear(self.embedding_dim, 1)

    def forward(self, x):
        batch_size, seq_length, _ = x.size()
        qkv = self.qkv(x)
        qkv = qkv.reshape(batch_size, seq_length, self.heads, 3 * self.head_dim)
        qkv = qkv.permute(0, 2, 1, 3) # [Batch, Head, SeqLen, Dims]
        q, k, v = qkv.chunk(3, dim=-1)

        d_k = q.size()[-1]
        k = k + self.rel.expand_as(k)
        attn_logits = torch.matmul(q, k.transpose(-2, -1))
        attn_logits = attn_logits / math.sqrt(d_k)
        attention = F.softmax(attn_logits, dim=-1)
        values = torch.matmul(attention, v)
        values = values.permute(0, 2, 1, 3) # [Batch, SeqLen, Head, Dims]
        values = values.reshape(batch_size, seq_length, self.embedding_dim) # [Batch, SeqLen, EmbeddingDim]
        x_out = self.o_proj(values)

        return x_out


class TemporalGate(nn.Module):
    def __init__(self, gate_frames, pool_types=['avg', 'max'], tabattention=True, tab_dim=6):
        super(TemporalGate, self).__init__()
        self.tabattention = tabattention
        self.tab_dim = tab_dim
        self.gate_frames = gate_frames
        self.pool_types = pool_types
        if tabattention:
            self.pool_types = ['avg', 'max', 'tab']
            self.tab_embedding = nn.Sequential(
                nn.Linear(tab_dim, gate_frames // 2),
                nn.ReLU(),
                nn.Linear(gate_frames // 2, gate_frames)
            )
        if tabattention:
            self.mhsa = TemporalMHSA(input_dim=3, seq_len=self.gate_frames)
        else:
            self.mhsa = TemporalMHSA(input_dim=2, seq_len=self.gate_frames)

    def forward(self, x, tab=None):
        avg_pool = F.avg_pool3d(x, (x.size(2), x.size(3), x.size(4))).reshape(-1, self.gate_frames, 1)
        max_pool = F.max_pool3d(x, (x.size(2), x.size(3), x.size(4))).reshape(-1, self.gate_frames, 1)

        if self.tabattention:
            embedded = self.tab_embedding(tab)
            tab_embedded = torch.reshape(embedded, (-1, self.gate_frames, 1))
            concatenated = torch.cat((avg_pool, max_pool, tab_embedded), dim=2)
        else:
            concatenated = torch.cat((avg_pool, max_pool), dim=2)

        scale = torch.sigmoid(self.mhsa(concatenated)).unsqueeze(2).unsqueeze(3).expand_as(x)

        return x * scale


def logsumexp_2d(tensor):
    tensor_flatten = tensor.view(tensor.size(0), tensor.size(1), -1)
    s, _ = torch.max(tensor_flatten, dim=2, keepdim=True)
    outputs = s + (tensor_flatten - s).exp().sum(dim=2, keepdim=True).log()
    return outputs


class ChannelPool(nn.Module):
    def forward(self, x):
        return torch.cat((torch.max(x, 1)[0].unsqueeze(1), torch.mean(x, 1).unsqueeze(1)), dim=1)


class SpatialGate(nn.Module):
    def __init__(self, tabattention=True, tab_dim=6, input_size=(8, 8)):
        super(SpatialGate, self).__init__()
        self.tabattention = tabattention
        self.tab_dim = tab_dim
        self.input_size = input_size
        kernel_size = 7
        self.compress = ChannelPool()
        in_planes = 3 if tabattention else 2
        self.spatial = BasicConv(in_planes, 1, kernel_size, stride=1, padding=(kernel_size - 1) // 2, relu=False)
        if self.tabattention:
            self.tab_embedding = nn.Sequential(
                nn.Linear(tab_dim, input_size[0] * input_size[1] // 2),
                nn.ReLU(),
                nn.Linear(input_size[0] * input_size[1] // 2, input_size[0] * input_size[1])
            )

    def forward(self, x, tab=None):
        x_compress = self.compress(x)
        if self.tabattention:
            embedded = self.tab_embedding(tab)
            embedded = torch.reshape(embedded, (-1, 1, self.input_size[0], self.input_size[1]))
            x_compress = torch.cat((x_compress, embedded), dim=1)

        x_out = self.spatial(x_compress)
        scale = torch.sigmoid(x_out) # broadcasting
        return x * scale



if __name__ == '__main__':
    x_input = torch.randn(1, 64, 16, 16, 4)
    tab_input = torch.randn(1, 1, 6)
    input_dim = (64, 16, 16, 4)
    block = TabAttention(input_dim=input_dim, tab_dim=6)
    output = block(x_input, tab_input)
    print(x_input.size())    print(output.size())

便捷下载方式

浏览打开网址:https://github.com/ai-dawang/PlugNPlay-Modules

更多分析可见原文

ai缝合大王

聚焦AI前沿，分享相关技术、论文，研究生自救指南

最新文章

即插即用实时语义分割模块PIDNet，涨点起飞起飞了

即插即用时序建模模块PoseBERT，涨点起飞起飞了

即插即用多分辨率特征融合模块SAM，涨点起飞起飞了

即插即用xLSTM，适用于NLP和时序，涨点起飞起飞了

轻量化时间序列预测模块SparseTSF，即插即用，即用即涨点

即插即用多模态条件注意力模块TabAttention，即用即涨点

轻量级、高效、动态化的时序卷积模块TAdaConv，即插即用即涨点

即插即用时空特征融合模块TFF和SFF，涨点起飞起飞了

即插即用稀疏注意力机制TKSA，涨点起飞起飞了

即插即用动态剪枝模块TPC，涨点起飞起飞了

ICLR 时间序列多尺度特征提取模块OS_block，即插即用，即用即涨点

ICCV 改进损失模块PaCoLoss ，即插即用，即用即涨点

CVPR 3D 点云补全模块PF-Net，即插即用，即用即涨点

2024轻量化即插即用时间序列分析模块FITS，即用即涨点

水论文必备神器，深度学习论文速通！

（IEEE 2024）双池化时序注意力模块DPTAM，即插即用，即用即涨点

CVPR DCNv2：即插即用的几何变形建模神器，提升目标检测与分割精度

CVPR | DAT：高效灵活的可变形注意力Transformer，为视觉任务带来新突破

即插即用CSRA残差注意力机制，涨点起飞起飞了！

即插即用Crossformer，涨点起飞起飞了！

ICLR 即插即用MobileViTAttention，结合卷积的局部特征提取能力和Transformer的全局特征建模能力

即插即用多分辨率重叠注意力模块MOA，涨点起飞起飞了！

NeurIPS CoAtNet：结合卷积与注意力的高效视觉网络，全面提升图像处理性能

突破计算瓶颈：GFNet在图像分类、目标检测与语义分割中的高效创新应用

2024即插即用多头注意力模块MOH，涨点起飞起飞了！

即插即用Vision Permutator，涨点起飞起飞了！

即插即用简化自注意力机制SSAN，涨点起飞起飞了！

无注意力Transformer模块AFT，涨点起飞起飞了！

即插即用极化自注意力模块PSAN，涨点起飞起飞了！

高效金字塔压缩注意力模块EPSA，涨点起飞起飞了！

分割注意力模块S2Attention，涨点起飞起飞了！

即插即用外部注意力机制EA，涨点起飞起飞了！

即插即用高效通道注意力机制ECA，涨点起飞起飞了！

（ACCV 2024）局部重要性驱动注意力机制LIA，涨点起飞起飞了！

30+文件覆盖，深度学习论文速通

《Neural Networks 2024》自适应细粒度通道注意力机制FCA，涨点起飞起飞了！

（ESWA 2024）高低频注意力机制FCHilo，即插即用涨点启动！

混合自适应注意力模块HAAM，涨点起飞起飞了！

2024 Mamba空间状态增强模块RSSG，涨点起飞起飞了！

即插即用超轻量级子空间注意力模块ULSAM，涨点起飞起飞了！

（CVPR 2024）频域自适应空洞卷积FADC，即插即用涨点启动！

2024即插即用Efficient Non-Local Transformer Block，涨点起飞起飞了！

NeurIPS 条件卷积模块CondConv，涨点起飞起飞了！

即插即用DO-Conv模块，涨点起飞起飞了

ACM 即插即用TSConformerBlock 模块，涨点启动！

（ECCV 2022）即插即用门控通道注意力机制NAF，涨点起飞起飞了！

多尺度特征融合模块TIF，涨点涨爆了！

创新思维发一区，论文速通指南创新更新中

2024即插即用时空交互注意力机制TIAM，涨点涨爆了！

2024即插即用移位窗口注意力机制SWA，涨点起飞！

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉