MetaTransformer:一种用于多模态学习的统一框架

科技   2024-12-06 13:30   浙江  
摘要

多模态学习旨在构建能够处理和关联来自多种模态的信息的模型。 尽管该领域发展多年,但由于各种模态(例如自然语言、二维图像、三维点云、音频、视频、时间序列、表格数据)之间存在固有的差距,设计一个用于处理各种模态的统一网络仍然具有挑战性。 在这项工作中,我们提出了一种名为元Transformer的框架,该框架利用一个冻结的编码器来执行多模态感知,无需任何配对的多模态训练数据。 在元Transformer中,来自各种模态的原始输入数据被映射到一个共享的符元空间,允许随后具有冻结参数的编码器提取输入数据的高级语义特征。 元Transformer由三个主要组件组成:统一的数据分词器、模态共享编码器和用于下游任务的特定任务头,它是第一个使用非配对数据跨12种模态执行统一学习的框架。 在不同基准上的实验表明,元Transformer可以处理各种任务,包括基础感知(文本、图像、点云、音频、视频)、实际应用(X射线、红外、高光谱和IMU)以及数据挖掘(图、表格和时间序列)。 元Transformer为利用Transformer开发统一的多模态智能指明了光明的未来。 代码可在https://github.com/invictus717/MetaTransformer获取。

图1 统一的多模态学习 . 元Transformer利用相同的骨干网络来编码自然语言、图像、点云、音频、视频、红外、高光谱、X射线、时间序列、表格数据、惯性测量单元(IMU)和图数据。 它揭示了Transformer架构在统一多模态智能方面的潜力。

1引言

人脑被认为是神经网络模型的灵感来源,它同时处理来自各种感觉输入的信息,例如视觉、听觉和触觉信号。 此外,来自一个来源的知识可以促进对另一个来源的理解。 然而,在深度学习中,设计一个能够处理各种数据格式的统一网络是一项非平凡的任务,因为存在显著的模态差距[1, 2, 3]

每种数据模态都呈现出独特的数据模式,这使得很难将在一个模态上训练的模型适应到另一个模态。 例如,由于像素密集排列,图像表现出高度的信息冗余,而自然语言则不然[4]。 另一方面,点云在3D空间中具有稀疏分布,这使得它们更容易受到噪声的影响,并且难以表示[5]。 音频谱图是时变的非平稳数据模式,由跨频域的波组合构成[6]。 视频数据包含一系列图像帧,这使其具有捕获空间信息和时间动态的独特能力[7]。 图数据将实体表示为图中的节点,将关系表示为边,对实体之间复杂的多对多关系进行建模[8]。 由于各种数据模态固有的实质性差异,通常的做法是使用不同的网络架构分别编码每种模态。 例如,Point Transformer[9] 利用向量级位置注意力从3D坐标中提取结构信息,但它不能编码图像、自然语言段落或音频谱图切片。 因此,设计一个能够利用模态共享参数空间来编码多种数据模态的统一框架仍然是一个重大挑战。 最近,VLMO[2]、OFA[10]和BEiT-3[3]等统一框架的开发通过在配对数据上进行大规模多模态预训练[3, 10, 2]提高了网络的多模态理解能力,但它们更侧重于视觉和语言,并且无法跨模态共享整个编码器。

2017年Vaswani 等人为自然语言处理 (NLP) 提出的 Transformer 架构和注意力机制[11],在深度学习中产生了重大影响[11, 12, 13, 14, 15, 16]。 这些进步有助于增强对不同模态的感知,例如二维视觉(包括 ViT[17, 18] 和 Swin Transformer[19])、三维视觉(例如 Point Transformer[9] 和 Point-ViT[20, 21])和音频信号处理 (AST[6]),等等。 这些工作证明了基于 Transformer 的架构的多功能性,激励研究人员探索 是否有可能开发能够统一多种模态的基础模型,最终实现跨所有模态的人类感知水平。

表1: 元Transformer与相关感知任务工作的比较。

MethodModalitiesShare ParametersUnpaired Data
Transformer [11] 
ViT [13], Swin Transformer [19], MAE [4] 
Point Transformer[9], PCT [22], Point ViT [21] 
AST [6], SSAST [23] 
CLIP [24], Flamingo [25], VLMO [2], OFA [10] 
BEiT-3 [3] Several Layers
ImageBind [26] 
Meta-Transformer [ours] Whole Backbone


在本文中,我们探索了Transformer架构处理12种模态的潜力,包括图像、自然语言、点云、音频频谱图、视频、红外、高光谱、X射线、IMU、表格数据、图数据和时间序列数据,如图1所示。 我们讨论了针对每种模态使用Transformer的学习过程,并解决了将它们统一到单个框架中所面临的挑战。 因此,我们提出了一种名为Meta-Transformer的新型统一多模态学习框架。 Meta-Transformer是第一个使用同一组参数同时编码来自十几种模态数据的框架,从而允许采用更具凝聚力的多模态学习方法(如表1所示)。 Meta-Transformer包含三个简单有效的组件:用于数据到序列符元化的模态专家(§ 3.2)、用于提取跨模态表示的模态共享编码器(§ 3.3)以及用于下游任务的任务特定头部。 具体来说,Meta-Transformer首先将多模态数据转换为共享公共流形空间的符元序列。 然后,具有冻结参数的模态共享编码器提取表示,这些表示通过仅更新下游任务头的参数和轻量级符元化器来进一步适应各个任务。 最后,这个简单的框架可以有效地学习特定任务和模态通用的表示。

我们对12种模态的各种基准进行了广泛的实验。 通过专门利用LAION-2B [24]数据集的图像进行预训练,Meta-Transformer在处理来自多种模态的数据方面表现出卓越的性能,在不同的多模态学习任务中始终优于最先进的方法。 更详细的实验设置可以在§ D中找到。

总之,我们的贡献可以总结如下:

  •  

    对于多模态研究,我们提出了一个新的框架Meta-Transformer,它使统一编码器能够使用同一组参数同时从多个模态中提取表示。

  •  

    对于多模态网络设计,我们全面检查了Transformer组件(如嵌入、符元化和编码器)在处理各种模态中的功能。 元Transformer提供了宝贵的见解,并为开发能够统一所有模态的模态无关框架指明了有前景的新方向。

  •  

    实验表明,元Transformer在关于12种模态的各种数据集上取得了优异的性能,这验证了元Transformer在统一多模态学习方面的进一步潜力。

2相关工作

2.1单模态感知

各种神经网络的发展促进了机器智能的感知 [27, 28, 29, 11]

用于模式识别的多层感知器。 最初,支持向量机(SVM)和多层感知器(MLP)被应用于文本[30]、图像[31]、点云[32]和音频[33]分类。 这些创新工作证明了将人工智能引入模式识别的可行性。

循环神经网络和卷积神经网络。 Hopfield网络[34]是循环网络的原始形式,然后LSTM[35]和GRU[36]进一步探索了RNN在序列建模和NLP任务[37, 38, 39]中的优势,它也广泛应用于音频合成[40]。 同时,包括LeNet[41]、AlexNet[42]、VGG[43]、GoogleNet[44]和ResNet[29]在内的CNN在图像识别方面的成功极大地促进了CNN在其他领域的应用,例如文本分类[45, 46]、点云理解[47, 48, 49]和语音分类[50]

Transformer。 最近,Transformer架构[11]已被应用于各种任务,例如NLP中的文本理解[51]和生成[52],图像中的分类[13]、检测[53]和分割[15],点云理解[22, 9]和音频识别[6, 23]

然而,与CNN和RNN的应用类似,这些网络会根据模态的不同特性进行修改。 目前还没有通用的模态无关学习架构。 更重要的是,来自不同模态的信息可以互补[54, 55, 56],设计一个能够编码来自不同模态的数据并在共享参数空间中桥接这些复杂表示的框架非常重要。

2.2基于Transformer的多模态感知

Transformer在感知方面的优势在于其全局感受野和相似性建模,这极大地促进了多模态感知的发展。 MCAN [57] 提出了视觉和语言之间的深度模块化共注意力网络,该网络通过简洁地最大化交叉注意力来执行跨模态对齐。 然后,利用交叉注意力机制来桥接不同模态成为了一种共识 [2, 1, 10, 3]。 随着预训练-微调范式的成功,越来越多的工作都集中在如何有效地对齐跨模态提取的表示上。 VL-BERT [58] 利用MLM范式,率先提出了用于通用视觉语言理解的模态对齐表示。 然后,Oscar [59] 描述了视觉和文本内容中的对象语义。 Vinvl [60]、Simvlm [1]、VLMO [2]、ALBEF [61]和Florence [62]等框架进一步探索了跨视觉语言模态联合表示在语义一致性方面的优势。

多模态模型也用于少样本学习 [25]、序列到序列学习 [10]、对比学习 [63]。 BEiT-v3 [3] 提出了将图像作为一种外语,并采用更细粒度的跨模态掩码和重建过程,共享部分参数。 而MoMo [64] 则在使用相同的图像和文本编码器的情况下,进一步探索了训练策略和目标函数。

尽管取得了这些进展,但由于模态之间的差异,设计统一的多模态网络仍然存在重大障碍。 此外,该领域的大部分研究都集中在视觉和语言任务上,可能无法直接解决三维点云理解、音频识别或其他模态等挑战。 Flamingo模型 [25] 代表了一个强大的少样本学习器,但其在点云上的可迁移性有限,并且利用一种模态的先验知识来使其他模态受益仍然是一个挑战。 换句话说,尽管现有的多模态方法付出了高昂的训练成本,但在更多模态上的扩展性仍然有限。 解决这些差异取决于使用相同的参数集来桥接不同的模态,这类似于桥梁连接多条河岸的方式。

3元Transformer

本节将详细描述我们提出的框架——元Transformer。 元Transformer统一了来自不同模态的数据处理的多个流程,并使用共享编码器对文本、图像、点云、音频和其他8种模态进行编码。 为实现此目标,元Transformer由数据到序列的标记器(用于将数据投影到共享嵌入空间)、模态无关的编码器(用于编码不同模态的嵌入)和特定于任务的头(用于执行下游预测)组成,如图2所示。

图2: 元Transformer由数据到序列的标记化、统一特征编码和下游任务学习组成。 该框架以文本、图像、点云和音频为例进行说明。

3.1预备知识

形式上,我们将n模态的输入空间表示为{𝒳1,𝒳2,,𝒳n},而{𝒴1,𝒴2,,𝒴n}是相应的标签空间。 此外,我们假设每个模态都存在一个有效的参数空间Θi,其中任何参数θiΘi都可以用于处理来自该模态的数据𝒙i𝒳i。 我们认为元Transformer的本质是找到一个共享的θ,满足:

基于以下假设:


多模态神经网络可以表述为一个统一的映射函数:𝒙𝒳y^𝒴,其中𝒙是来自任何模态{𝒳1,𝒳2,,𝒳n}的输入数据,y^表示网络的预测结果。 令y表示真实标签,多模态流程可以表述为:


3.2数据到序列的标记化

我们提出了一种新颖的元标记化方案,旨在将各种模态的数据转换为符元嵌入,所有这些都在共享的流形空间内。 然后,该方法应用于符元化,并考虑了模态的实际特性,如图3所示。 我们以文本、图像、点云和音频为例。 更多细节可在补充材料中找到。 特别地,我们使用𝒙T𝒙I𝒙P𝒙A来表示文本、图像、点云和音频频谱图的数据样本。

自然语言。 遵循惯例[51, 65],我们使用具有30,000个符元词汇量的WordPiece嵌入[66]。 WordPiece将原始单词分割成子词。 例如,原始句子:“The supermarket is hosting a sale”,可以通过WordPiece转换为:“_The _super market _is _host ing _a _sale”。

在这种情况下,“supermarket”被分成两个子词“_super”和“market”,“hosting”被分成“_host”和“ing”,而其余单词保持不变,仍然是单个单元。 每个原始单词的第一个字符前面都会添加一个特殊字符“_”,表示自然词的开始。 每个子词对应于词汇表中的唯一符元,然后通过词嵌入层投影到高维特征空间。 结果,每个输入文本都被转换为一组符元嵌入𝒙n×D,其中n是符元的数量,D是嵌入的维度。

图3 数据到序列符元化的图示3.2。 我们提出了(a)中的元方案,其中包含分组、卷积和变换过程。 然后(b)-(e)表示应用于文本、图像、点云和音频频谱图的元方案构建块。

图像。 为了适应二维图像,我们将图像𝒙H×W×C重塑成一系列扁平化的二维块𝒙pNs×(S2C),其中(H,W)表示原始图像分辨率,C表示通道数;S是块大小,Ns=(HW/S2)是生成的块数。 之后,利用一个投影层将嵌入维度投影到D


需要注意的是,我们对红外图像使用相同的操作,但对高光谱图像使用线性投影。 此外,我们只需将二维卷积层替换为三维卷积即可进行视频识别。 更多细节可在B.1B.3中找到。

点云。 为了使用Transformer学习3D模式,我们将点云从原始输入空间转换为符元嵌入空间。 𝒳={𝒙i}i=1P表示具有P个点的点云,其中𝒙i=(𝒑i,𝒇i)𝒑i3表示3D坐标,𝒇ic是第i个点的特征。 通常,𝒇i包含颜色、视角、法线等视觉提示。我们采用最远点采样(𝙵𝙿𝚂)操作,以固定的采样率(1/4)对原始点云的代表性骨架进行采样。 然后,我们采用K-最近邻(𝙺𝙽𝙽)来对相邻点进行分组。 基于包含局部几何先验信息的分组集,我们构建具有分组子集中心点的邻接矩阵,以进一步揭示3D物体和3D场景的全面结构信息。 最后,我们聚合来自K子集的结构表示。 我们获得点嵌入如下:

音频频谱图。 最初,我们使用持续时间为t秒的对数梅尔滤波器组[67]对音频波形进行预处理。 然后,我们使用步长为ts的汉明窗对频率fs进行分割,将原始波形分成l=(t/ts)个区间,并将原始波形进一步转换为l维滤波器组。

随后,我们将频谱图从时间和频率维度上分割成大小相同的S块。与图像块不同,音频块在频谱图上重叠。 遵循AST [6],我们也选择通过S×S卷积将整个频谱图分割成Ns=12[(100t16)/10]个块,然后将这些块展平成符元序列。 最后,我们总结一下这个过程:

其中TF分别表示时间和频率维度。

3.3统一编码器

将原始输入转换为符元嵌入空间后,我们利用一个参数冻结的统一Transformer编码器来编码来自不同模态的符元嵌入序列。

预训练。 我们使用ViT [13]作为主干网络,并在LAION-2B数据集上使用对比学习对其进行预训练,这增强了通用符元编码的能力。 预训练后,我们冻结主干网络的参数。 此外,为了理解文本,我们利用CLIP [24]的预训练文本分词器将句子分割成子词,并将子词转换为词嵌入。

模态无关学习。 遵循常见做法[51, 13],我们在符元嵌入序列前添加一个可学习的符元xCLS,而xCLS个符元(𝒛L0)的最终隐藏状态作为输入序列的摘要表示,通常用于执行识别。

为了增强位置信息,我们将位置嵌入整合到符元嵌入中。 回想一下,我们将输入数据标记化为一维嵌入,因此,我们选择标准的可学习一维位置嵌入。 此外,我们在图像识别中使用更复杂的二维感知位置嵌入并没有观察到实质性的性能改进。 我们简单地使用逐元素加法运算融合位置嵌入和内容嵌入,然后将生成的嵌入序列输入编码器。

深度为L的Transformer编码器包含多个堆叠的多头自注意力(MSA)层和MLP块。 输入符元嵌入首先输入MSA层,然后输入MLP块。 然后,第(1)个MLP块的输出作为第个MSA层的输入。 在每一层之前添加层归一化(LN),并在每一层之后应用残差连接。 MLP包含两个线性全连接层以及一个GELU非线性激活函数。 Transformer的公式为:

其中𝑬x表示来自提出的分词器的符元嵌入,n表示符元数量。 我们用位置嵌入𝑬pos增强块嵌入和可学习嵌入。

3.4特定任务的头

获得学习表示后,我们将表示输入特定任务的头h(;θh),它主要由MLP组成,并且随模态和任务而变化。 元Transformer的学习目标可以概括为:

其中f()g()h()分别表示分词器、骨干网络和头的函数。

4实验

在本节中,我们对12种模态中的每一种进行实验。 我们展示了元Transformer在多模态感知方面的潜力。 我们实验设计的摘要如表2所示,更多实验细节见§C.1

4.1实验设置

文本理解。 对于文本理解评估,我们采用通用语言理解评估 (GLUE) 基准[68],该基准包含多个不同的数据集,涵盖了广泛的自然语言理解任务。

图像理解。 1)分类:我们在 ImageNet-1K[69] 上进行实验,其中包含约 130 万张图像,包含 1000 个类别。 遵循常见做法[70, 19, 71],基础规模模型训练 300 个 epoch,而大型模型在 ImageNet-22K(1420 万张图像)上预训练 90 个 epoch,然后在 ImageNet-1K 上微调 20 个 epoch。 2)目标检测:我们使用 Mask R-CNN[73] 作为检测器,在 MS COCO 数据集[72] 上进行实验,每个模型训练 12 个 epoch。 3)语义分割:我们在 ADE20K[75] 上训练分割头 UperNet[74],进行 160k 次迭代,以便与之前的基于 CNN 和基于 Transformer 的主干网络进行公平比较。

红外、X 射线和高光谱数据理解。 我们分别使用 RegDB[76]、胸部 X 射线[77] 和 Indian Pine1 数据集对红外图像、X 射线扫描和高光谱数据识别进行实验。

点云理解。 1)分类:为了评估 Meta-Transformer 在 3D 物体分类中的性能,我们使用 ModelNet-40[78] 基准,该基准包含 40 个类别的 CAD 模型,其中包含 9843 个训练样本和 2468 个验证样本。 2)语义分割:为了评估 3D 点云分割中的性能,我们在 S3DIS[79] 和 ShapeNetPart[80] 数据集上评估模型。 S3DIS 数据集包含 6 个大型室内区域和 13 个语义类别,包括 271 个房间。 ShapeNetPart 数据集包含 16880 个跨 16 个形状类别的物体模型。

音频识别. 对于音频识别,我们使用了语音指令 V2 [81] 数据集,该数据集包含 105,829 个时长一秒的 35 种常见语音指令的录音。

视频识别. 对于视频理解,我们在 UCF101 [82] 数据集上进行了动作识别的实验,更多细节见§ B.1

时间序列预测. 对于时间序列预测,我们在 ETTh1 [83],Traffic2,Weather3 和 Exchange [84] 数据集上进行了实验。 我们使用 Autoformer [85] 的分词器。

图理解. 我们在 PCQM4M-LSC 数据集 [86] 上进行了实验,这是一个大型数据集,包含 440 万个有机分子,最多包含 23 个重原子及其相应的量子力学性质。 它的目标是使用机器学习预测分子特性,在药物发现和材料科学领域有广泛的应用。

表格分析. 我们在 UCI 仓库 4 中的成人和银行营销数据集上进行了实验。 我们使用 TabTransformer [87] 的分词器来编码原始表格数据。

IMU 识别. 为了评估 Meta-Transformer 理解惯性运动系统的能力,我们在 Ego4D [88] 数据集上进行了 IMU 传感器分类的实验。

表 2:不同模态实验设置摘要。 我们报告了每种模态的任务、数据集和数据规模。
ModalitiesTasksDatasetsData Scale
TextClassificationGLUE Benchmark330K
ImageClassificationImageNet-1K1.3M
DetectionMS COCO118K
SegmentationADE-20K20K
Point CloudShape ClassificationModelNet-409K
Scene SegmentationS3DIS400M Points
Object SegmentationShapeNetPart16K
AudioClassificationSpeech commands v2105K
VideoAction RecognitionUCF10114K
InfraredClassificationRegDB40K
Hyper-spectrumClassificationIndian Pine10K
X-RayClassificationChest X-Ray112K
IMUClassificationEgo4D193K
Tabular dataPredictionAdult & Bank32K-45K
Graph dataPredictionPCQM4M-LSC47M
Time-seriesForecastingExchange, Traffic, etc5-36K

网络设置:我们遵循ViT [13]的默认设置。 Meta-Transformer-B16F表示具有基础规模编码器的元Transformer,该编码器包含12个Transformer块和12个注意力头,图像块大小为16。 对于基础规模编码器,嵌入维度为768,MLP的输出维度为3072。 ‘F’和‘T’分别表示编码器的参数被冻结和进一步微调

表3GLUE基准测试上文本理解的实验结果。 我们比较了来自释义、情感、重复、推理和回答任务的现有先进方法,并报告了预训练设置和性能。

MethodPretraining SettingsGLUE Benchmark
ModalityDataSizeSST-2MRPCQQPMNLIQNLI
SentimentParaphraseDuplicationInferenceAnswering
BiLSTM+ELMo+Attn---90.484.964.876.479.8
OpenAI GPT [89] LanguageBook0.8B91.382.370.382.187.4
BERTBASE [51] Wiki+Book3.3B88.088.971.284.690.5
RoBERTaBASE [65] 96.090.084.084.092.0
ChatGPTVarious4,5000B92.066.078.089.384.0
Meta-Transformer-B16F [ours] ImageLAION-2B [24]2B54.681.166.063.456.3
Meta-Transformer-B16T [ours] 81.381.878.070.060.3


表4图像理解的实验结果. 我们在ImageNet [69]、MSCOCO [72]和ADE-20K [75]数据集上进行了分类、目标检测和实例分割任务的实验,其中 粗体 和下划线分别表示最好和第二好的结果。

MethodClassificationObject DetectionSemantic Segmentation
Res#Params#FLOPsAcc (%)#Params#FLOPsAP (%)#Params#FLOPsmIoU (%)
PVT-L [70] 224261.4M9.8G81.781.0M-42.965.1M79.6G44.8
Swin-L [19] 3842197M104G87.3253M1382G51.8234M2468G52.1
CoAtNet-3 [90] 3842168M107G87.6------
CoAtNet-4 [90] 3842275M190G87.9------
DeiT III-L [91] 3842304M191G87.7---353.6M2231G51.5
SwinV2-L/24 [92] 3842197M115G87.6--58.8--55.9
RepLKNet-31L [93] 3842172M96G86.6229M1321G53.9207M2404G52.4
HorNet-L [94] 3842202M102G87.7259M1358G56.0232M2473G54.1
ConvNeXt-L [95] 3842198M101G87.5255M1354G53.5235M2458G53.2
ConvNeXt-XL [95] 3842350M179G87.8407M1898G53.6391M3335G53.6
InternImage-L [96] 3842223M108G87.7277M1399G54.9256M2526G53.9
InternImage-XL [96] 3842335M163G88.0387M1782G55.3368M3142G55.0
Meta-Transformer-B16F [ours]224286.6M17.5G69.3143M1126G31.7164M135G33.4
224286.6M17.5G79.3
Meta-Transformer-L14F [ours]3362191.1M190.6G75.3364M2143G43.5314M683G41.2
3362191.1M190.6G83.1
Meta-Transformer-B16T [ours] 224286.6M17.5G85.4143M1126G46.4164M135G48.3
Meta-Transformer-L14T [ours] 3362191.1M190.6G88.1364M2143G56.3314M683G55.0


  •  

    :零样本分类    :线性探测分类    :在ImageNet-22K上预训练的模型

表5 红外和高光谱数据理解的实验结果 . 我们在SYSU-MM01和Indian Pine数据集上进行了分类任务实验。 我们报告了Rank-1 (R@1)、平均精度均值 (mAP)、整体精度 (OA)、平均精度 (AA)以及可训练参数的数量 (Params)。


MethodR@1 (%)mAP (%)Params
AGW [97] [TPAMI’21] 70.4965.9025M
SMCL [98] [ICCV’21] 83.0578.5740M
MSCLNet [99] [ECCV’22] 83.8678.3150M
Meta-Transformer-B16F73.5065.191.8M


(a)



MethodOA (%)AA (%)Params
ViT [13] [ICLR’21] 71.8678.9785.2M
SpectralFormer [100] [TGRS’21] (Pixel)78.5584.6885.2M
SpectralFormer [100] [TGRS’21] (Patch)81.7687.8185.2M
Meta-Transformer-B16F67.6278.090.17M


(b)


表6 点云理解的实验结果 . 我们在ModelNet-40 [78]、S3DIS [79]和ShapeNetPart [80]数据集上进行了实验。 我们比较了来自分类、语义和目标部件分割任务的现有先进方法,并报告了每种方法的预训练模式 (Pre-train) 和 可训练的 参数数量 (Params)。

MethodPre-trainModelNet-40S3DIS Area-5ShapeNetPart
mAcc (%)OA (%)ParamsmIoU (%)mAcc (%)ParamsmIoUI (%)mIoUC (%)Params
PointNet [CVPR’17] [32] N/A86.089.23.5M41.149.03.6M83.780.43.6M
PointNet++ [NeurIPS’17] [5] N/A-91.91.5M53.5-1.0M85.181.91.0
PointCNN [NeurIPS’18] [47] N/A88.192.50.6M57.3-0.6M


KPConv [ICCV’19] [49] N/A-92.914.3M67.172.815.0M86.485.1-
DGCNN [TOG’19] [101] N/A90.292.91.8M52.5-1.3M85.282.31.3
Point Transformer [ICCV’21] [9] N/A90.693.77.8M70.4-7.8M86.683.77.8
PointNeXt [NeurIPS’22][102] N/A90.893.21.4M67.373.93.8M86.784.41.0
Point-MLP [ICLR’22] [103] N/A90.993.60.68M---86.184.6-
PointMixer [ECCV’22] [104] N/A91.493.63.6M71.477.46.5M---
Point-BERT [CVPR’22] [20] 3D-93.221.1M60.869.921.1M85.684.121.1M
Point-MAE [ECCV’22] [105] 3D-93.821.1M---86.184.221.1M
P2P [NeurIPS’22] [56] 2D-93.11.2M---86.584.1-
ACT [ICLR’23] [106] 2D-93.521.1M61.271.121.1M86.184.721.2M
Meta-Transformer-B16F [ours] 2D90.593.60.6M72.383.52.3M87.085.22.3M


4.2自然语言理解结果

表 3展示了在GLUE基准测试中关于文本理解任务的实验结果,比较了各种最先进的方法,例如BERT [51]、RoBERTa [65]和ChatGPT。 比较集中在释义、情感、重复、推理和问答任务上。 使用在图像上预训练的冻结参数时,Meta-Transformer-B16F在情感 (SST-2) 任务中取得了54.6% 的分数,在释义 (MRPC) 任务中取得了81.1% 的分数,在重复 (QQP) 任务中取得了66.0% 的分数,在推理 (MNLI) 任务中取得了63.4% 的分数,在问答 (QNLI) 任务中取得了56.3% 的分数。 微调后,Meta-Transformer-B16T表现出改进的性能,在情感任务中达到81.3%,在释义任务中达到81.8%,在重复任务中达到78.0%,在推理任务中达到70.0%,在问答任务中达到60.3%。 尽管Meta-Transformer在GLUE基准测试上的性能可能不如BERT、RoBERTa或ChatGPT,但它仍然展示了具有竞争力的性能、适应性和理解自然语言的潜力。

4.3图像理解结果

如表4所示,与Swin Transformer系列[19, 107]和InternImage[96]相比,Meta-Transformer在图像理解任务上表现出色。 在图像分类方面,借助CLIP[24]文本编码器,Meta-Transformer在零样本分类下取得了优异的性能,Meta-Transformer-B16FMeta-Transformer-L14F分别达到了69.3%和75.3%。 同时,当对预训练参数进行进一步微调时,Meta-Transformer可以超越现有的先进方法,Meta-Transformer-B16TMeta-Transformer-L14T的准确率分别达到85.4%和88.1%。 后者在ImageNet[69]分类上均优于SwinV2-L/24[107](87.6%)和InternImage-XL[96](88.0%)。

在目标检测和语义分割方面,Meta-Transformer也表现出色,这进一步证明了其在图像理解方面的通用能力。 在目标检测方面,Meta-Transformer-B16FMeta-Transformer-L14F的平均精度(AP)分别为31.7%和43.5%,而Meta-Transformer-B16TMeta-Transformer-L14T的平均精度分别达到46.4%和56.3%。 在语义分割方面,Meta-Transformer-B16FMeta-Transformer-L14F的平均交并比(mIoU)分别为33.4%和41.2%,而Meta-Transformer-B16TMeta-Transformer-L14T分别达到51.0%和55.0%。 相比之下,SwinV2-L/24在目标检测(58.8% AP)和语义分割(55.9% mIoU)方面均优于Meta-Transformer。 Meta-Transformer-L14T模型在语义分割方面的性能与InternImage-XL[96]相似(均达到55.0% mIoU),但在目标检测方面优于后者(56.3% AP 对比 55.3% AP)。 这些结果突出表明,即使与Swin Transformer[19]和InternImage相比,Meta-Transformer在各种图像理解任务中也表现出具有竞争力的性能。

4.4红外、高光谱和X射线数据的结果

LABEL:tab:infrared展示了Meta-Transformer和其他先进方法在RegDB数据集[76]上的红外图像识别性能比较。 Meta-Transformer-B16F展现出具有竞争力的结果,Rank-1准确率为73.50%,mAP为65.19%。 虽然它可能无法超越性能最佳的方法,但Meta-Transformer被证明是一种简单易迁移的红外图像识别方法。 这些结果表明Meta-Transformer在应对红外图像相关挑战方面的潜力,并为该领域的进步做出了贡献。

表7 基于元Transformer的X射线图像识别 . 我们在胸部X射线数据集上进行了实验,报告了准确率(%)和可训练参数的数量。

MethodAccuracy (%)Params
ViT [13] 96.386.9M
SEViT [108] 94.685.8M
Meta-Transformer-B16F94.10.75M


此外,表LABEL:tab:hyper展示了元Transformer在印第安松数据集上进行高光谱图像识别的性能。 SpectralFormer[100]采用分块方法,取得了令人印象深刻的准确率分数。 当完全微调所有参数时,普通视觉Transformer的性能也很好。 Meta-Transformer-B16F在高光谱图像识别方面展示了具有竞争力的结果,但总体准确率较低。 然而,与其他方法相比,元Transformer的可训练参数明显更少(只有0.17M),这使其脱颖而出。 这揭示了将元Transformer应用于遥感、环境监测和矿产勘探的一个有前景的发展方向。 对于X射线图像,类似于处理红外图像,我们采用与普通可见图像相同的图像标记器。 从表4.4可以看出,元Transformer可以达到94.1%的竞争性准确率。

4.5三维点云理解的结果

6展示了点云理解的实验结果,比较了元Transformer与其他最先进方法在ModelNet-40[78]、S3DIS[79]和ShapeNetPart[80]数据集上的性能。 任务包括分类、语义分割和物体部件分割。 当在二维数据上预训练时,Meta-Transformer-B16F展现出具有竞争力的性能,在ModelNet-40上仅用0.6M可训练参数就达到了93.6%的总体准确率(OA),这与性能最佳的模型相当。 在S3DIS Area-5数据集上,元Transformer使用2.3M参数,其平均IoU (mIoU) 为72.3%,平均准确率 (mAcc) 为83.5%,优于其他方法。 此外,元Transformer在ShapeNetPart数据集上表现出色,分别使用2.3M参数在实例mIoU(mIoUI)和类别mIoU(mIoUC)上取得了最高的87.0%和85.2%的分数。 总之,Meta-Transformer 在点云理解任务中展现出显著的优势,与其他最先进的方法相比,它在可训练参数更少的情况下也能提供具有竞争力的性能。

4.6音频识别结果

为了公平地将 Meta-Transformer 与现有规模相似的音频 Transformer 系列[6, 23] 进行比较,我们使用Meta-Transformer-B32进行了音频识别实验。

表 8: 基于 Meta-Transformer 的音频理解 . 我们在 Speech Commands V2 数据集上进行了实验,并报告了准确率得分以及可训练参数和所有参数的数量。

MethodPre-trainAcc (%)A-ParamsParams
AST [6] (Supervised)N/A92.686.9M86.9M
AST [6] (Supervised)AudioSet-20K96.286.9M86.9M
AST [6] (Supervised)ImageNet+KD98.186.9M86.9M
SSAST  [23] (Self-Supervised)AudioSet-2M97.889.3M89.3M
SSAST  [23] (Self-Supervised)Librispeech97.889.3M89.3M
SSAST  [23] (Self-Supervised)Joint Pretraining98.089.3M89.3M
Meta-Transformer-B32F [ours] 2D78.386.6M1.1M
Meta-Transformer-B32T [ours] 2D97.086.6M86.3M


4.6展示了 Meta-Transformer 在音频领域的性能。 这些模型在准确率、所有参数 (A-Params) 和可训练参数 (T-Params) 方面与现有的方法(例如 AST[6] 和 SSAST[23])进行了比较。 在参数冻结的情况下,Meta-Transformer-B32F 的准确率达到 78.3%,而只需要 110 万个参数进行微调。 另一方面,当微调参数时,Meta-Transformer-B32T 模型的准确率显著提高到 97.0%,而 AST 模型的准确率仅达到 92.6%。 当 AST 在 ImageNet 上进行预训练并补充额外的知识蒸馏 (KD) 时,其性能提高到 98.1%,但可训练参数数量也增加到 8690 万个。 SSAST 模型的准确率得分范围从 97.8% 到 98.0%,同时需要 8930 万个参数。 这些结果突显了 Meta-Transformer 在音频领域具有竞争力的性能,证明了其在不同领域的通用性和有效性。

表 9: 基于 Meta-Transformer 的视频理解 . 我们在 UCF101[82] 数据集上进行了实验,并报告了准确率得分和可训练参数的数量,其中“V”表示仅视频片段。

MethodModalityUCF101Params
OPN [109] V59.6-
SimCLR [110] V88.986.9M
VideoMAE V1 [111] V96.186.9M
VideoMAE V2 [112] V99.686.9M
ViT [13] (from scratch)V51.486.9M
Meta-Transformer-B16FV46.61.1M


4.7视频识别结果

表格4.6展示了Meta-Transformer与现有先进方法在UCF101数据集上进行视频理解的性能比较。 若干最先进的视频专用方法达到了超过90%的准确率。 Meta-Transformer仅包含110万个可训练参数,就获得了46.6%的准确率,而其他方法则需要训练大约8690万个参数。 虽然Meta-Transformer无法超越其他最先进的视频理解模型,但它以其显著减少的可训练参数数量而脱颖而出,这暗示了统一多模态学习和更少架构复杂性的潜在益处。

4.8时间序列预测结果

表10: 基于Meta-Transformer的时间序列预测 . 沿袭TimesNet的做法,我们报告了来自4个不同预测长度的可训练参数数量和平均性能,即{96,192,336,720}

Models

元 Transformer



TimesNet[113]



ETSformer[114]



FEDformer[115]



Stationary[116]



Autoformer[85]



Pyraformer[117]



告密者


[83]


LogTrans [118]



塑身机[119]



[Ours]


 

[ICLR’23]


[Arxiv’22]


[ICML’22]


[NeurIPS’22]


[NeurIPS’21]


[ICLR’21]


[AAAI’21]


[NeurIPS’19]


[ICLR’20]


Metric

MSE


MAE


Param


MSE


MAE


MSE


MAE


MSE


MAE


MSE


MAE


MSE


MAE


MSE


MAE


MSE


MAE


MSE


MAE


MSE


MAE


ETTh1


 

0.994


0.797


19K


0.458


0.450


0.542


0.510


0.440


0.460


0.570


0.537


0.496


0.487


0.827


0.703


1.040


0.795


1.072


0.837


1.029


0.805


Traffic


 

0.694


0.372


2.0M


0.620


0.336


0.621


0.396


0.610


0.376


0.624


0.340


0.628


0.379


0.878


0.469


0.764


0.416


0.705


0.395


0.741


0.422


Weather


 

0.797


0.640


51K


0.259


0.287


0.271


0.334


0.309


0.360


0.288


0.314


0.338


0.382


0.946


0.717


0.634


0.548


0.696


0.602


0.803


0.656


Exchange


 

1.430


0.961


22K


0.416


0.443


0.410


0.427


0.519


0.500


0.461


0.454


0.613


0.539


1.913


1.159


1.550


0.998


1.402


0.968


1.280


0.932



为探索元Transformer在时间序列预测中的能力,我们在几个广泛采用的长期预测任务基准上进行了实验,包括ETTh1 [83]、Traffic、Weather和Exchange [84],结果如表 10所示。

从表 10中,我们可以得出以下观察结果。 1) 在大多数模型参数保持不变的情况下,元Transformer仍然优于现有方法,包括Pyraformer [117]、Informer [83]、LogTrans [118]和Reformer [119]。 2) 元Transformer的可训练参数数量非常少。 仅用19K个可训练参数,元Transformer就能超越Informer [83]。 当训练2M个参数时,元Transformer可以直接超越Pyraformer [117]。 因此,在感知任务上预训练的元Transformer也可以应用于时间序列预测任务,这对该领域具有启发意义。

4.9表格数据理解的结果

表11: 使用元Transformer进行表格数据理解 . 我们报告了准确率(%)和F1分数。

MethodAdultBank Marketing
Accuracy (%)Accuracy (%)F1
LightGBM87.8-0.39
Tabmlp87.2-0.39
Tabnet87.0-0.31
Tabtransformer87.193.40.42
Meta-Transformer-B16F85.990.10.41


表 4.9提供了不同方法在成人人口普查和银行营销数据集上进行表格数据理解的性能比较结果。

Meta-Transformer-B16F在成人人口普查数据集上的准确率略低于其他方法,但在银行营销数据集上,其准确率和F1分数均优于所有其他方法。 这表明 Meta-Transformer 对于表格数据理解也具有优势,尤其是在 Bank Marketing 等复杂数据集上。

表 12: 使用 Meta-Transformer 进行图数据理解。 我们在 PCQM4M-LSC 数据集上进行了实验,并报告了训练和验证 MAE 分数以及可训练参数的数量。
MethodParam.train MAEvalidate MAE
GCN [120] 2.0M0.13180.1691
GIN [121] 3.8M0.12030.1537
GCN-VN  [120, 8] 4.9M0.12250.1485
GIN-VN [121, 8] 6.7M0.11500.1395
GINE-VN  [122, 8] 13.2M0.12480.1430
DeeperGCN-VN [123, 8] 25.5M0.10590.1398
Graph Transformer [124] 0.6M0.09440.1400
Graph Transformer-Wide [124] 83.2M0.09550.1408
GraphormerSmall [125] 12.5M0.07780.1264
Graphormer [125] 47.1M0.05820.1234
Meta-Transformer-B16F1.1M0.80340.8863

4.10图数据和 IMU 数据理解的结果

我们在表 12 中报告了使用 Meta-Transformer 进行图理解的性能。 我们将 Meta-Transformer-B16F 与用于 PCQM4M-LSC 数据集 [86] 图数据理解的各种图神经网络模型进行了比较。 在所有方法中,Graphormer 表现最佳,训练和验证 MAE 分数分别为 0.0582 和 0.1234。 相反,Meta-Transformer-B16F 的训练和验证 MAE 分数分别为 0.8034 和 0.8863,这揭示了当前 Meta-Transformer 架构在结构化数据学习方面的能力有限。 我们将在未来进一步改进这一点。 此外,遵循 ImageBind [26],我们在 Ego4D 数据集 [88] 上进行分类,使用输入数据,Meta-Transformer 的准确率达到 73.9%。

5局限性

从复杂性、方法论和进一步应用的角度来看,Meta-Transformer 的局限性总结如下:

复杂性:Meta-Transformer 需要 𝒪(n2×D) 计算来处理符元嵌入 [𝑬1,,𝑬n]。 高内存成本和沉重的计算负担使其难以扩展。

方法论:与 TimeSformer [7] 和 Graphormer [125] 中的 Axial Attention 机制相比,Meta-Transformer 缺乏时间和结构感知。 此限制可能会影响 Meta-Transformer 在时间和结构建模起关键作用的任务中的整体性能,例如视频理解、视觉跟踪或社交网络预测。

应用:Meta-Transformer 主要在多模态感知方面展现出其优势。 其跨模态生成能力尚不清楚。 我们将在未来对此进行研究。

6结论

在人工智能发展的早期阶段,先驱们引入了多层感知器 (MLP) 来解决机器学习中的预测任务。 后来,循环网络和卷积网络扩展了人工智能在多媒体数据处理中的能力,在从文本、图像、点云和音频中提取表示方面取得了显著成功。 从那时起,MLP 就被集成到深度卷积网络中。 在本文中,我们探讨了普通 Transformer 用于统一多模态学习的潜力,突出了朝着使用 Transformer 骨干开发统一多模态智能的有希望的趋势。 在某种程度上,本文支持了 Transformer 在下一代网络中的主导地位。 重要的是,CNN 和 MLP 并没有被抛弃。 它们在数据符元化和表示投影中发挥着重要作用。 此过程体现了神经网络中的继承规律以及人工智能的持续演进。

arXiv每日学术速递
工作日更新学术速递!官网www.arxivdaily.com。
 最新文章