摘要
多模态学习旨在构建能够处理和关联来自多种模态的信息的模型。 尽管该领域发展多年,但由于各种模态(例如自然语言、二维图像、三维点云、音频、视频、时间序列、表格数据)之间存在固有的差距,设计一个用于处理各种模态的统一网络仍然具有挑战性。 在这项工作中,我们提出了一种名为元Transformer的框架,该框架利用一个冻结的编码器来执行多模态感知,无需任何配对的多模态训练数据。 在元Transformer中,来自各种模态的原始输入数据被映射到一个共享的符元空间,允许随后具有冻结参数的编码器提取输入数据的高级语义特征。 元Transformer由三个主要组件组成:统一的数据分词器、模态共享编码器和用于下游任务的特定任务头,它是第一个使用非配对数据跨12种模态执行统一学习的框架。 在不同基准上的实验表明,元Transformer可以处理各种任务,包括基础感知(文本、图像、点云、音频、视频)、实际应用(X射线、红外、高光谱和IMU)以及数据挖掘(图、表格和时间序列)。 元Transformer为利用Transformer开发统一的多模态智能指明了光明的未来。 代码可在https://github.com/invictus717/MetaTransformer获取。
1引言
人脑被认为是神经网络模型的灵感来源,它同时处理来自各种感觉输入的信息,例如视觉、听觉和触觉信号。 此外,来自一个来源的知识可以促进对另一个来源的理解。 然而,在深度学习中,设计一个能够处理各种数据格式的统一网络是一项非平凡的任务,因为存在显著的模态差距[1, 2, 3]。
每种数据模态都呈现出独特的数据模式,这使得很难将在一个模态上训练的模型适应到另一个模态。 例如,由于像素密集排列,图像表现出高度的信息冗余,而自然语言则不然[4]。 另一方面,点云在3D空间中具有稀疏分布,这使得它们更容易受到噪声的影响,并且难以表示[5]。 音频谱图是时变的非平稳数据模式,由跨频域的波组合构成[6]。 视频数据包含一系列图像帧,这使其具有捕获空间信息和时间动态的独特能力[7]。 图数据将实体表示为图中的节点,将关系表示为边,对实体之间复杂的多对多关系进行建模[8]。 由于各种数据模态固有的实质性差异,通常的做法是使用不同的网络架构分别编码每种模态。 例如,Point Transformer[9] 利用向量级位置注意力从3D坐标中提取结构信息,但它不能编码图像、自然语言段落或音频谱图切片。 因此,设计一个能够利用模态共享参数空间来编码多种数据模态的统一框架仍然是一个重大挑战。 最近,VLMO[2]、OFA[10]和BEiT-3[3]等统一框架的开发通过在配对数据上进行大规模多模态预训练[3, 10, 2]提高了网络的多模态理解能力,但它们更侧重于视觉和语言,并且无法跨模态共享整个编码器。
2017年Vaswani 等人为自然语言处理 (NLP) 提出的 Transformer 架构和注意力机制[11],在深度学习中产生了重大影响[11, 12, 13, 14, 15, 16]。 这些进步有助于增强对不同模态的感知,例如二维视觉(包括 ViT[17, 18] 和 Swin Transformer[19])、三维视觉(例如 Point Transformer[9] 和 Point-ViT[20, 21])和音频信号处理 (AST[6]),等等。 这些工作证明了基于 Transformer 的架构的多功能性,激励研究人员探索 是否有可能开发能够统一多种模态的基础模型,最终实现跨所有模态的人类感知水平。
Method | Modalities | Share Parameters | Unpaired Data |
Transformer [11] | ✘ | ✘ | |
ViT [13], Swin Transformer [19], MAE [4] | ✘ | ✘ | |
Point Transformer[9], PCT [22], Point ViT [21] | ✘ | ✘ | |
AST [6], SSAST [23] | ✘ | ✘ | |
CLIP [24], Flamingo [25], VLMO [2], OFA [10] | ✘ | ✘ | |
BEiT-3 [3] | Several Layers | ✘ | |
ImageBind [26] | ✘ | ✘ | |
Meta-Transformer [ours] | Whole Backbone | ✔ |
在本文中,我们探索了Transformer架构处理12种模态的潜力,包括图像、自然语言、点云、音频频谱图、视频、红外、高光谱、X射线、IMU、表格数据、图数据和时间序列数据,如图1所示。 我们讨论了针对每种模态使用Transformer的学习过程,并解决了将它们统一到单个框架中所面临的挑战。 因此,我们提出了一种名为Meta-Transformer的新型统一多模态学习框架。 Meta-Transformer是第一个使用同一组参数同时编码来自十几种模态数据的框架,从而允许采用更具凝聚力的多模态学习方法(如表1所示)。 Meta-Transformer包含三个简单有效的组件:用于数据到序列符元化的模态专家(§ 3.2)、用于提取跨模态表示的模态共享编码器(§ 3.3)以及用于下游任务的任务特定头部。 具体来说,Meta-Transformer首先将多模态数据转换为共享公共流形空间的符元序列。 然后,具有冻结参数的模态共享编码器提取表示,这些表示通过仅更新下游任务头的参数和轻量级符元化器来进一步适应各个任务。 最后,这个简单的框架可以有效地学习特定任务和模态通用的表示。
我们对12种模态的各种基准进行了广泛的实验。 通过专门利用LAION-2B [24]数据集的图像进行预训练,Meta-Transformer在处理来自多种模态的数据方面表现出卓越的性能,在不同的多模态学习任务中始终优于最先进的方法。 更详细的实验设置可以在§ D中找到。
总之,我们的贡献可以总结如下:
•
对于多模态研究,我们提出了一个新的框架Meta-Transformer,它使统一编码器能够使用同一组参数同时从多个模态中提取表示。
•
对于多模态网络设计,我们全面检查了Transformer组件(如嵌入、符元化和编码器)在处理各种模态中的功能。 元Transformer提供了宝贵的见解,并为开发能够统一所有模态的模态无关框架指明了有前景的新方向。
•
实验表明,元Transformer在关于12种模态的各种数据集上取得了优异的性能,这验证了元Transformer在统一多模态学习方面的进一步潜力。
2相关工作
2.1单模态感知
各种神经网络的发展促进了机器智能的感知 [27, 28, 29, 11]。
用于模式识别的多层感知器。 最初,支持向量机(SVM)和多层感知器(MLP)被应用于文本[30]、图像[31]、点云[32]和音频[33]分类。 这些创新工作证明了将人工智能引入模式识别的可行性。
循环神经网络和卷积神经网络。 Hopfield网络[34]是循环网络的原始形式,然后LSTM[35]和GRU[36]进一步探索了RNN在序列建模和NLP任务[37, 38, 39]中的优势,它也广泛应用于音频合成[40]。 同时,包括LeNet[41]、AlexNet[42]、VGG[43]、GoogleNet[44]和ResNet[29]在内的CNN在图像识别方面的成功极大地促进了CNN在其他领域的应用,例如文本分类[45, 46]、点云理解[47, 48, 49]和语音分类[50]。
Transformer。 最近,Transformer架构[11]已被应用于各种任务,例如NLP中的文本理解[51]和生成[52],图像中的分类[13]、检测[53]和分割[15],点云理解[22, 9]和音频识别[6, 23]。
然而,与CNN和RNN的应用类似,这些网络会根据模态的不同特性进行修改。 目前还没有通用的模态无关学习架构。 更重要的是,来自不同模态的信息可以互补[54, 55, 56],设计一个能够编码来自不同模态的数据并在共享参数空间中桥接这些复杂表示的框架非常重要。
2.2基于Transformer的多模态感知
Transformer在感知方面的优势在于其全局感受野和相似性建模,这极大地促进了多模态感知的发展。 MCAN [57] 提出了视觉和语言之间的深度模块化共注意力网络,该网络通过简洁地最大化交叉注意力来执行跨模态对齐。 然后,利用交叉注意力机制来桥接不同模态成为了一种共识 [2, 1, 10, 3]。 随着预训练-微调范式的成功,越来越多的工作都集中在如何有效地对齐跨模态提取的表示上。 VL-BERT [58] 利用MLM范式,率先提出了用于通用视觉语言理解的模态对齐表示。 然后,Oscar [59] 描述了视觉和文本内容中的对象语义。 Vinvl [60]、Simvlm [1]、VLMO [2]、ALBEF [61]和Florence [62]等框架进一步探索了跨视觉语言模态联合表示在语义一致性方面的优势。
多模态模型也用于少样本学习 [25]、序列到序列学习 [10]、对比学习 [63]。 BEiT-v3 [3] 提出了将图像作为一种外语,并采用更细粒度的跨模态掩码和重建过程,共享部分参数。 而MoMo [64] 则在使用相同的图像和文本编码器的情况下,进一步探索了训练策略和目标函数。
尽管取得了这些进展,但由于模态之间的差异,设计统一的多模态网络仍然存在重大障碍。 此外,该领域的大部分研究都集中在视觉和语言任务上,可能无法直接解决三维点云理解、音频识别或其他模态等挑战。 Flamingo模型 [25] 代表了一个强大的少样本学习器,但其在点云上的可迁移性有限,并且利用一种模态的先验知识来使其他模态受益仍然是一个挑战。 换句话说,尽管现有的多模态方法付出了高昂的训练成本,但在更多模态上的扩展性仍然有限。 解决这些差异取决于使用相同的参数集来桥接不同的模态,这类似于桥梁连接多条河岸的方式。
3元Transformer
本节将详细描述我们提出的框架——元Transformer。 元Transformer统一了来自不同模态的数据处理的多个流程,并使用共享编码器对文本、图像、点云、音频和其他8种模态进行编码。 为实现此目标,元Transformer由数据到序列的标记器(用于将数据投影到共享嵌入空间)、模态无关的编码器(用于编码不同模态的嵌入)和特定于任务的头(用于执行下游预测)组成,如图2所示。
3.1预备知识
形式上,我们将
基于以下假设:
多模态神经网络可以表述为一个统一的映射函数
3.2数据到序列的标记化
我们提出了一种新颖的元标记化方案,旨在将各种模态的数据转换为符元嵌入,所有这些都在共享的流形空间内。 然后,该方法应用于符元化,并考虑了模态的实际特性,如图3所示。 我们以文本、图像、点云和音频为例。 更多细节可在补充材料中找到。 特别地,我们使用
自然语言。 遵循惯例[51, 65],我们使用具有30,000个符元词汇量的WordPiece嵌入[66]。 WordPiece将原始单词分割成子词。 例如,原始句子:“The supermarket is hosting a sale”,可以通过WordPiece转换为:“_The _super market _is _host ing _a _sale”。
在这种情况下,“supermarket”被分成两个子词“_super”和“market”,“hosting”被分成“_host”和“ing”,而其余单词保持不变,仍然是单个单元。 每个原始单词的第一个字符前面都会添加一个特殊字符“_”,表示自然词的开始。 每个子词对应于词汇表中的唯一符元,然后通过词嵌入层投影到高维特征空间。 结果,每个输入文本都被转换为一组符元嵌入
图像。 为了适应二维图像,我们将图像
需要注意的是,我们对红外图像使用相同的操作,但对高光谱图像使用线性投影。 此外,我们只需将二维卷积层替换为三维卷积即可进行视频识别。 更多细节可在B.1和B.3中找到。
点云。 为了使用Transformer学习3D模式,我们将点云从原始输入空间转换为符元嵌入空间。
音频频谱图。 最初,我们使用持续时间为
随后,我们将频谱图从时间和频率维度上分割成大小相同的
其中
3.3统一编码器
将原始输入转换为符元嵌入空间后,我们利用一个参数冻结的统一Transformer编码器来编码来自不同模态的符元嵌入序列。
预训练。 我们使用ViT [13]作为主干网络,并在LAION-2B数据集上使用对比学习对其进行预训练,这增强了通用符元编码的能力。 预训练后,我们冻结主干网络的参数。 此外,为了理解文本,我们利用CLIP [24]的预训练文本分词器将句子分割成子词,并将子词转换为词嵌入。
模态无关学习。 遵循常见做法[51, 13],我们在符元嵌入序列前添加一个可学习的符元
为了增强位置信息,我们将位置嵌入整合到符元嵌入中。 回想一下,我们将输入数据标记化为一维嵌入,因此,我们选择标准的可学习一维位置嵌入。 此外,我们在图像识别中使用更复杂的二维感知位置嵌入并没有观察到实质性的性能改进。 我们简单地使用逐元素加法运算融合位置嵌入和内容嵌入,然后将生成的嵌入序列输入编码器。
深度为
其中
3.4特定任务的头
获得学习表示后,我们将表示输入特定任务的头
其中
4实验
在本节中,我们对12种模态中的每一种进行实验。 我们展示了元Transformer在多模态感知方面的潜力。 我们实验设计的摘要如表2所示,更多实验细节见§C.1。
4.1实验设置
文本理解。 对于文本理解评估,我们采用通用语言理解评估 (GLUE) 基准[68],该基准包含多个不同的数据集,涵盖了广泛的自然语言理解任务。
图像理解。 1)分类:我们在 ImageNet-1K[69] 上进行实验,其中包含约 130 万张图像,包含 1000 个类别。 遵循常见做法[70, 19, 71],基础规模模型训练 300 个 epoch,而大型模型在 ImageNet-22K(1420 万张图像)上预训练 90 个 epoch,然后在 ImageNet-1K 上微调 20 个 epoch。 2)目标检测:我们使用 Mask R-CNN[73] 作为检测器,在 MS COCO 数据集[72] 上进行实验,每个模型训练 12 个 epoch。 3)语义分割:我们在 ADE20K[75] 上训练分割头 UperNet[74],进行 160k 次迭代,以便与之前的基于 CNN 和基于 Transformer 的主干网络进行公平比较。
红外、X 射线和高光谱数据理解。 我们分别使用 RegDB[76]、胸部 X 射线[77] 和 Indian Pine1 数据集对红外图像、X 射线扫描和高光谱数据识别进行实验。
点云理解。 1)分类:为了评估 Meta-Transformer 在 3D 物体分类中的性能,我们使用 ModelNet-40[78] 基准,该基准包含 40 个类别的 CAD 模型,其中包含 9843 个训练样本和 2468 个验证样本。 2)语义分割:为了评估 3D 点云分割中的性能,我们在 S3DIS[79] 和 ShapeNetPart[80] 数据集上评估模型。 S3DIS 数据集包含 6 个大型室内区域和 13 个语义类别,包括 271 个房间。 ShapeNetPart 数据集包含 16880 个跨 16 个形状类别的物体模型。
音频识别. 对于音频识别,我们使用了语音指令 V2 [81] 数据集,该数据集包含 105,829 个时长一秒的 35 种常见语音指令的录音。
视频识别. 对于视频理解,我们在 UCF101 [82] 数据集上进行了动作识别的实验,更多细节见§ B.1。
时间序列预测. 对于时间序列预测,我们在 ETTh1 [83],Traffic2,Weather3 和 Exchange [84] 数据集上进行了实验。 我们使用 Autoformer [85] 的分词器。
图理解. 我们在 PCQM4M-LSC 数据集 [86] 上进行了实验,这是一个大型数据集,包含 440 万个有机分子,最多包含 23 个重原子及其相应的量子力学性质。 它的目标是使用机器学习预测分子特性,在药物发现和材料科学领域有广泛的应用。
表格分析. 我们在 UCI 仓库 4 中的成人和银行营销数据集上进行了实验。 我们使用 TabTransformer [87] 的分词器来编码原始表格数据。
IMU 识别. 为了评估 Meta-Transformer 理解惯性运动系统的能力,我们在 Ego4D [88] 数据集上进行了 IMU 传感器分类的实验。
Modalities | Tasks | Datasets | Data Scale |
Text | Classification | GLUE Benchmark | 330K |
Image | Classification | ImageNet-1K | 1.3M |
Detection | MS COCO | 118K | |
Segmentation | ADE-20K | 20K | |
Point Cloud | Shape Classification | ModelNet-40 | 9K |
Scene Segmentation | S3DIS | 400M Points | |
Object Segmentation | ShapeNetPart | 16K | |
Audio | Classification | Speech commands v2 | 105K |
Video | Action Recognition | UCF101 | 14K |
Infrared | Classification | RegDB | 40K |
Hyper-spectrum | Classification | Indian Pine | 10K |
X-Ray | Classification | Chest X-Ray | 112K |
IMU | Classification | Ego4D | 193K |
Tabular data | Prediction | Adult & Bank | 32K-45K |
Graph data | Prediction | PCQM4M-LSC | 47M |
Time-series | Forecasting | Exchange, Traffic, etc | 5-36K |
网络设置:我们遵循ViT [13]的默认设置。
Method | Pretraining Settings | GLUE Benchmark | ||||||
Modality | Data | Size | SST-2 | MRPC | QQP | MNLI | QNLI | |
Sentiment | Paraphrase | Duplication | Inference | Answering | ||||
BiLSTM+ELMo+Attn | - | - | - | 90.4 | 84.9 | 64.8 | 76.4 | 79.8 |
OpenAI GPT [89] | Language | Book | 0.8B | 91.3 | 82.3 | 70.3 | 82.1 | 87.4 |
Wiki+Book | 3.3B | 88.0 | 88.9 | 71.2 | 84.6 | 90.5 | ||
96.0 | 90.0 | 84.0 | 84.0 | 92.0 | ||||
ChatGPT | Various | 4,5000B | 92.0 | 66.0 | 78.0 | 89.3 | 84.0 | |
Image | LAION-2B [24] | 2B | 54.6 | 81.1 | 66.0 | 63.4 | 56.3 | |
81.3 | 81.8 | 78.0 | 70.0 | 60.3 |
Method | Classification | Object Detection | Semantic Segmentation | |||||||
Res | #Params | #FLOPs | Acc (%) | #Params | #FLOPs | AP (%) | #Params | #FLOPs | mIoU (%) | |
PVT-L [70] | 61.4M | 9.8G | 81.7 | 81.0M | - | 42.9 | 65.1M | 79.6G | 44.8 | |
Swin-L‡ [19] | 197M | 104G | 87.3 | 253M | 1382G | 51.8 | 234M | 2468G | 52.1 | |
CoAtNet-3‡ [90] | 168M | 107G | 87.6 | - | - | - | - | - | - | |
CoAtNet-4‡ [90] | 275M | 190G | 87.9 | - | - | - | - | - | - | |
DeiT III-L‡ [91] | 304M | 191G | 87.7 | - | - | - | 353.6M | 2231G | 51.5 | |
SwinV2-L/24‡ [92] | 197M | 115G | 87.6 | - | - | 58.8 | - | - | 55.9 | |
RepLKNet-31L‡ [93] | 172M | 96G | 86.6 | 229M | 1321G | 53.9 | 207M | 2404G | 52.4 | |
HorNet-L‡ [94] | 202M | 102G | 87.7 | 259M | 1358G | 56.0 | 232M | 2473G | 54.1 | |
ConvNeXt-L‡ [95] | 198M | 101G | 87.5 | 255M | 1354G | 53.5 | 235M | 2458G | 53.2 | |
ConvNeXt-XL‡ [95] | 350M | 179G | 87.8 | 407M | 1898G | 53.6 | 391M | 3335G | 53.6 | |
InternImage-L‡ [96] | 223M | 108G | 87.7 | 277M | 1399G | 54.9 | 256M | 2526G | 53.9 | |
InternImage-XL‡ [96] | 335M | 163G | 88.0 | 387M | 1782G | 55.3 | 368M | 3142G | 55.0 | |
86.6M | 17.5G | 143M | 1126G | 31.7 | 164M | 135G | 33.4 | |||
86.6M | 17.5G | |||||||||
191.1M | 190.6G | 364M | 2143G | 43.5 | 314M | 683G | 41.2 | |||
191.1M | 190.6G | |||||||||
86.6M | 17.5G | 85.4 | 143M | 1126G | 46.4 | 164M | 135G | 48.3 | ||
191.1M | 190.6G | 88.1 | 364M | 2143G | 56.3 | 314M | 683G | 55.0 |
•
∗:零样本分类 †:线性探测分类 ‡:在ImageNet-22K上预训练的模型
Method | R@1 (%) | mAP (%) | Params |
AGW [97] [TPAMI’21] | 70.49 | 65.90 | 25M |
SMCL [98] [ICCV’21] | 83.05 | 78.57 | 40M |
MSCLNet [99] [ECCV’22] | 83.86 | 78.31 | 50M |
73.50 | 65.19 | 1.8M |
Method | OA (%) | AA (%) | Params |
ViT [13] [ICLR’21] | 71.86 | 78.97 | 85.2M |
SpectralFormer [100] [TGRS’21] (Pixel) | 78.55 | 84.68 | 85.2M |
SpectralFormer [100] [TGRS’21] (Patch) | 81.76 | 87.81 | 85.2M |
67.62 | 78.09 | 0.17M |
Method | Pre-train | ModelNet-40 | S3DIS Area-5 | ShapeNetPart | ||||||
mAcc (%) | OA (%) | Params | mIoU (%) | mAcc (%) | Params | Params | ||||
PointNet [CVPR’17] [32] | N/A | 86.0 | 89.2 | 3.5M | 41.1 | 49.0 | 3.6M | 83.7 | 80.4 | 3.6M |
PointNet++ [NeurIPS’17] [5] | N/A | - | 91.9 | 1.5M | 53.5 | - | 1.0M | 85.1 | 81.9 | 1.0 |
PointCNN [NeurIPS’18] [47] | N/A | 88.1 | 92.5 | 0.6M | 57.3 | - | 0.6M | |||
KPConv [ICCV’19] [49] | N/A | - | 92.9 | 14.3M | 67.1 | 72.8 | 15.0M | 86.4 | 85.1 | - |
DGCNN [TOG’19] [101] | N/A | 90.2 | 92.9 | 1.8M | 52.5 | - | 1.3M | 85.2 | 82.3 | 1.3 |
Point Transformer [ICCV’21] [9] | N/A | 90.6 | 93.7 | 7.8M | 70.4 | - | 7.8M | 86.6 | 83.7 | 7.8 |
PointNeXt [NeurIPS’22][102] | N/A | 90.8 | 93.2 | 1.4M | 67.3 | 73.9 | 3.8M | 86.7 | 84.4 | 1.0 |
Point-MLP [ICLR’22] [103] | N/A | 90.9 | 93.6 | 0.68M | - | - | - | 86.1 | 84.6 | - |
PointMixer [ECCV’22] [104] | N/A | 91.4 | 93.6 | 3.6M | 71.4 | 77.4 | 6.5M | - | - | - |
Point-BERT [CVPR’22] [20] | 3D | - | 93.2 | 21.1M | 60.8 | 69.9 | 21.1M | 85.6 | 84.1 | 21.1M |
Point-MAE [ECCV’22] [105] | 3D | - | 93.8 | 21.1M | - | - | - | 86.1 | 84.2 | 21.1M |
P2P [NeurIPS’22] [56] | 2D | - | 93.1 | 1.2M | - | - | - | 86.5 | 84.1 | - |
ACT [ICLR’23] [106] | 2D | - | 93.5 | 21.1M | 61.2 | 71.1 | 21.1M | 86.1 | 84.7 | 21.2M |
2D | 90.5 | 93.6 | 0.6M | 72.3 | 83.5 | 2.3M | 87.0 | 85.2 | 2.3M |
4.2自然语言理解结果
表 3展示了在GLUE基准测试中关于文本理解任务的实验结果,比较了各种最先进的方法,例如BERT [51]、RoBERTa [65]和ChatGPT。 比较集中在释义、情感、重复、推理和问答任务上。 使用在图像上预训练的冻结参数时,
4.3图像理解结果
如表4所示,与Swin Transformer系列[19, 107]和InternImage[96]相比,Meta-Transformer在图像理解任务上表现出色。 在图像分类方面,借助CLIP[24]文本编码器,Meta-Transformer在零样本分类下取得了优异的性能,
在目标检测和语义分割方面,Meta-Transformer也表现出色,这进一步证明了其在图像理解方面的通用能力。 在目标检测方面,
4.4红外、高光谱和X射线数据的结果
表LABEL:tab:infrared展示了Meta-Transformer和其他先进方法在RegDB数据集[76]上的红外图像识别性能比较。
Method | Accuracy (%) | Params |
ViT [13] | 96.3 | 86.9M |
SEViT [108] | 94.6 | 85.8M |
94.1 | 0.75M |
此外,表LABEL:tab:hyper展示了元Transformer在印第安松数据集上进行高光谱图像识别的性能。 SpectralFormer[100]采用分块方法,取得了令人印象深刻的准确率分数。 当完全微调所有参数时,普通视觉Transformer的性能也很好。
4.5三维点云理解的结果
表6展示了点云理解的实验结果,比较了元Transformer与其他最先进方法在ModelNet-40[78]、S3DIS[79]和ShapeNetPart[80]数据集上的性能。 任务包括分类、语义分割和物体部件分割。 当在二维数据上预训练时,
4.6音频识别结果
为了公平地将 Meta-Transformer 与现有规模相似的音频 Transformer 系列[6, 23] 进行比较,我们使用Meta-Transformer-B32进行了音频识别实验。
Method | Pre-train | Acc (%) | A-Params | Params |
AST [6] (Supervised) | N/A | 92.6 | 86.9M | 86.9M |
AST [6] (Supervised) | AudioSet-20K | 96.2 | 86.9M | 86.9M |
AST [6] (Supervised) | ImageNet+KD | 98.1 | 86.9M | 86.9M |
SSAST [23] (Self-Supervised) | AudioSet-2M | 97.8 | 89.3M | 89.3M |
SSAST [23] (Self-Supervised) | Librispeech | 97.8 | 89.3M | 89.3M |
SSAST [23] (Self-Supervised) | Joint Pretraining | 98.0 | 89.3M | 89.3M |
2D | 78.3 | 86.6M | 1.1M | |
2D | 97.0 | 86.6M | 86.3M |
表4.6展示了 Meta-Transformer 在音频领域的性能。 这些模型在准确率、所有参数 (A-Params) 和可训练参数 (T-Params) 方面与现有的方法(例如 AST[6] 和 SSAST[23])进行了比较。 在参数冻结的情况下,Meta-Transformer-B32F 的准确率达到 78.3%,而只需要 110 万个参数进行微调。 另一方面,当微调参数时,Meta-Transformer-B32T 模型的准确率显著提高到 97.0%,而 AST 模型的准确率仅达到 92.6%。 当 AST 在 ImageNet 上进行预训练并补充额外的知识蒸馏 (KD) 时,其性能提高到 98.1%,但可训练参数数量也增加到 8690 万个。 SSAST 模型的准确率得分范围从 97.8% 到 98.0%,同时需要 8930 万个参数。 这些结果突显了 Meta-Transformer 在音频领域具有竞争力的性能,证明了其在不同领域的通用性和有效性。
Method | Modality | UCF101 | Params |
OPN [109] | V | 59.6 | - |
SimCLR [110] | V | 88.9 | 86.9M |
VideoMAE V1 [111] | V | 96.1 | 86.9M |
VideoMAE V2 [112] | V | 99.6 | 86.9M |
ViT [13] (from scratch) | V | 51.4 | 86.9M |
V | 46.6 | 1.1M |
4.7视频识别结果
表格4.6展示了Meta-Transformer与现有先进方法在UCF101数据集上进行视频理解的性能比较。 若干最先进的视频专用方法达到了超过90%的准确率。 Meta-Transformer仅包含110万个可训练参数,就获得了46.6%的准确率,而其他方法则需要训练大约8690万个参数。 虽然Meta-Transformer无法超越其他最先进的视频理解模型,但它以其显著减少的可训练参数数量而脱颖而出,这暗示了统一多模态学习和更少架构复杂性的潜在益处。
4.8时间序列预测结果
Models | 元 Transformer | TimesNet[113] | ETSformer[114] | FEDformer[115] | Stationary[116] | Autoformer[85] | Pyraformer[117] | 告密者 [83] | LogTrans [118] | 塑身机[119] | |||||||||||
[Ours] | [ICLR’23] | [Arxiv’22] | [ICML’22] | [NeurIPS’22] | [NeurIPS’21] | [ICLR’21] | [AAAI’21] | [NeurIPS’19] | [ICLR’20] | ||||||||||||
Metric | MSE | MAE | Param | MSE | MAE | MSE | MAE | MSE | MAE | MSE | MAE | MSE | MAE | MSE | MAE | MSE | MAE | MSE | MAE | MSE | MAE |
ETTh1 | 0.994 | 0.797 | 19K | 0.458 | 0.450 | 0.542 | 0.510 | 0.440 | 0.460 | 0.570 | 0.537 | 0.496 | 0.487 | 0.827 | 0.703 | 1.040 | 0.795 | 1.072 | 0.837 | 1.029 | 0.805 |
Traffic | 0.694 | 0.372 | 2.0M | 0.620 | 0.336 | 0.621 | 0.396 | 0.610 | 0.376 | 0.624 | 0.340 | 0.628 | 0.379 | 0.878 | 0.469 | 0.764 | 0.416 | 0.705 | 0.395 | 0.741 | 0.422 |
Weather | 0.797 | 0.640 | 51K | 0.259 | 0.287 | 0.271 | 0.334 | 0.309 | 0.360 | 0.288 | 0.314 | 0.338 | 0.382 | 0.946 | 0.717 | 0.634 | 0.548 | 0.696 | 0.602 | 0.803 | 0.656 |
Exchange | 1.430 | 0.961 | 22K | 0.416 | 0.443 | 0.410 | 0.427 | 0.519 | 0.500 | 0.461 | 0.454 | 0.613 | 0.539 | 1.913 | 1.159 | 1.550 | 0.998 | 1.402 | 0.968 | 1.280 | 0.932 |
为探索元Transformer在时间序列预测中的能力,我们在几个广泛采用的长期预测任务基准上进行了实验,包括ETTh1 [83]、Traffic、Weather和Exchange [84],结果如表 10所示。
从表 10中,我们可以得出以下观察结果。 1) 在大多数模型参数保持不变的情况下,元Transformer仍然优于现有方法,包括Pyraformer [117]、Informer [83]、LogTrans [118]和Reformer [119]。 2) 元Transformer的可训练参数数量非常少。 仅用19K个可训练参数,元Transformer就能超越Informer [83]。 当训练2M个参数时,元Transformer可以直接超越Pyraformer [117]。 因此,在感知任务上预训练的元Transformer也可以应用于时间序列预测任务,这对该领域具有启发意义。
4.9表格数据理解的结果
Method | Adult | Bank Marketing | |
Accuracy (%) | Accuracy (%) | F1 | |
LightGBM | 87.8 | - | 0.39 |
Tabmlp | 87.2 | - | 0.39 |
Tabnet | 87.0 | - | 0.31 |
Tabtransformer | 87.1 | 93.4 | 0.42 |
85.9 | 90.1 | 0.41 |
表 4.9提供了不同方法在成人人口普查和银行营销数据集上进行表格数据理解的性能比较结果。
Method | Param. | train MAE | validate MAE |
GCN [120] | 2.0M | 0.1318 | 0.1691 |
GIN [121] | 3.8M | 0.1203 | 0.1537 |
GCN-VN [120, 8] | 4.9M | 0.1225 | 0.1485 |
GIN-VN [121, 8] | 6.7M | 0.1150 | 0.1395 |
GINE-VN [122, 8] | 13.2M | 0.1248 | 0.1430 |
DeeperGCN-VN [123, 8] | 25.5M | 0.1059 | 0.1398 |
Graph Transformer [124] | 0.6M | 0.0944 | 0.1400 |
Graph Transformer-Wide [124] | 83.2M | 0.0955 | 0.1408 |
Graphormer | 12.5M | 0.0778 | 0.1264 |
Graphormer [125] | 47.1M | 0.0582 | 0.1234 |
1.1M | 0.8034 | 0.8863 |
4.10图数据和 IMU 数据理解的结果
我们在表 12 中报告了使用 Meta-Transformer 进行图理解的性能。 我们将
5局限性
从复杂性、方法论和进一步应用的角度来看,Meta-Transformer 的局限性总结如下:
复杂性:Meta-Transformer 需要
方法论:与 TimeSformer [7] 和 Graphormer [125] 中的 Axial Attention 机制相比,Meta-Transformer 缺乏时间和结构感知。 此限制可能会影响 Meta-Transformer 在时间和结构建模起关键作用的任务中的整体性能,例如视频理解、视觉跟踪或社交网络预测。
应用:Meta-Transformer 主要在多模态感知方面展现出其优势。 其跨模态生成能力尚不清楚。 我们将在未来对此进行研究。
6结论
在人工智能发展的早期阶段,先驱们引入了多层感知器 (MLP) 来解决机器学习中的预测任务。 后来,循环网络和卷积网络扩展了人工智能在多媒体数据处理中的能力,在从文本、图像、点云和音频中提取表示方面取得了显著成功。 从那时起,MLP 就被集成到深度卷积网络中。 在本文中,我们探讨了普通 Transformer 用于统一多模态学习的潜力,突出了朝着使用 Transformer 骨干开发统一多模态智能的有希望的趋势。 在某种程度上,本文支持了 Transformer 在下一代网络中的主导地位。 重要的是,CNN 和 MLP 并没有被抛弃。 它们在数据符元化和表示投影中发挥着重要作用。 此过程体现了神经网络中的继承规律以及人工智能的持续演进。