跨模态微调：先对齐后细化

科技 2024-12-15 12:43 北京

摘要

对大型预训练模型进行微调已在视觉和NLP等充分研究的模态中取得了巨大进展。然而，由于缺乏相关的预训练模型，许多其他模态尚未观察到类似的进展。在这项工作中，我们提出了Orca，这是一个通用的跨模态微调框架，它将单个大型预训练模型的适用性扩展到多种模态。 Orca通过“先对齐后细化”的工作流程适应目标任务：给定目标输入，Orca首先学习一个嵌入网络，该网络将嵌入特征分布与预训练模态对齐。然后，在嵌入数据上对预训练模型进行微调，以利用跨模态共享的知识。通过大量的实验，我们表明Orca在包含来自12个模态的60多个数据集的3个基准测试中获得了最先进的结果，优于各种手工设计、AutoML、通用和特定任务的方法。我们通过一系列消融研究强调了数据对齐的重要性，并证明了Orca在数据有限的环境中的实用性。

1引言

图1:虎鲸的三阶段微调工作流程能够快速自动地利用大型预训练模型来解决各种任务。在阶段1中，给定目标数据(xt,yt)和预训练的Transformer主体gs，虎鲸构造一个嵌入器架构ft将输入映射到gs的维度，以及一个预测器架构ht将gs的输出转换为目标输出，例如分类logits。 ft和ht的权重是随机初始化的。在阶段2中，虎鲸通过最小化嵌入式目标特征与某些模态内源特征之间的分布距离来学习 ft。第三阶段，虎鲸微调 ft、gs 和 ht 以最小化任务损失。

大型预训练模型的兴起是过去几年机器学习 (ML) 研究的一个标志。利用迁移学习，这些模型可以将从大量未标记数据中学到的知识应用于下游任务，并在多种模式下表现出色，例如语言、视觉和语音处理 (例如，Radford & Narasimhan, 2018; Carion et al., 2020; Baevski et al., 2020)。现有研究集中在这些经过充分研究的领域内的模态内迁移——例如，BERT 模型 (Devlin et al., 2019) 通常仅适用于基于文本的任务，而视觉 Transformer (Dosovitskiy et al., 2021) 仅适用于图像数据集。

但是，想象一下，如果我们可以使用预训练的 BERT 模型来解决基因组学任务，或者使用视觉 Transformer 来解决偏微分方程呢？有效的 跨模态微调 可以对鲜为人知的领域产生巨大影响，例如物理和生命科学、医疗保健和金融。事实上，在这些领域设计专门的网络具有挑战性，因为它需要领域知识和机器学习专业知识。自动化机器学习 (AutoML) (例如，Roberts et al., 2021; Shen et al., 2022) 和通用架构 (例如，Jaegle et al., 2022) 可用于简化此过程，但它们仍然需要从头开始训练模型，这对于数据稀疏的模态来说是困难的。将在数据丰富的模态中预训练的模型应用于这些新问题可以潜在地减轻建模和数据方面的问题，从而减少开发高质量特定任务模型所需的人力。

尽管具有潜在影响，但跨模态微调的总体可行性仍然是一个悬而未决的问题。近期研究已通过将预训练语言模型应用于视觉任务(Dinh等人，2022；Lu等人，2022)、参照游戏(Li等人，2020c)和强化学习(Reid等人，2022)证明了其可能性，但这些方法中的许多方法都是临时性的，依赖于手动提示工程或架构附加组件来解决特定任务。此外，它们通常不会产生与从头开始训练的模型具有竞争力的模型。我们旨在解决这两个缺点。

在这项工作中，我们提出了一种名为Orca的微调工作流程，它弥合了跨模态学习中通用性和有效性之间的差距。我们的关键见解是在与任务无关的微调之前执行特定于任务的数据对齐。通过将不熟悉模态的数据分布与熟悉模态的数据分布匹配，Orca可以防止预训练权重的扭曲，并利用预训练模型中编码的知识，从而实现比朴素微调更好的结果，并在三个基准测试中取得最先进的性能——NAS-Bench-360(Tu等人，2022)、PDEBench(Takamoto等人，2022)和OpenML-CC18(Vanschoren等人，2014)——这些基准测试包含来自12个不同数据模态的60多个数据集。

具体来说，Orca通过三阶段工作流程（图1）将任何预训练的Transformer模型适配到下游任务。首先，Orca生成一个特定于任务的嵌入网络架构，该架构将目标输入映射到Transformer层可以处理的序列特征(维度对齐)。然后，训练嵌入网络以最小化嵌入目标特征与模态内参考数据集的特征之间的分布距离¹ (分布对齐)。最后，对整个目标模型进行微调，以根据任务目标校准权重。在第3.4节中，我们评估了用于分布对齐的几种标准距离度量，发现最优传输数据集距离(Alvarez-Melis & Fusi, 2020)获得了最佳的经验性能，这可能是因为它考虑了数据的标签分布和聚类结构。因此，我们在随后的实验中使用它。

我们从广度、深度以及与现有工作的比较三个方面验证了Orca的有效性。在广度方面，我们在NAS-Bench-360 (Tu等人，2022)上评估Orca，这是一个AutoML基准测试，包括10个具有不同输入维度（一维和二维）、预测类型（点和密集）和模态（视觉、音频、心电图、物理、蛋白质、基因组学和宇宙射线）的任务。结合我们的分析，实证结果表明：

•
跨模态微调很有前景：Orca优于各种手工设计的模型、AutoML方法和通用架构，在7个任务中排名第一，在所有任务中都排名前三。我们还观察到Orca在模拟有限数据设置下的有效性。
•
对齐至关重要：我们发现对齐质量与下游精度之间存在经验相关性。 Orca显著优于朴素微调的事实表明数据对齐非常重要。
•
对齐可以高效地进行：我们的嵌入学习时间仅为∼微调时间的10%。

我们深入研究了实际模态中的两个已建立的基准：用于求解偏微分方程的PDEBench (Takamoto et al., 2022)和用于对表格数据进行分类的OpenML-CC18 (Vanschoren et al., 2014)。我们进行了深入分析，以证明Orca如何使视觉和语言Transformer适应学习目标任务的有意义表示。它与最先进的方法的性能相匹配，包括用于PDEBench的FNO (Li et al., 2021)，用于OpenML-CC18的AutoGluon (Erickson et al., 2020)和TabPFN (Hollmann et al., 2022)。

最后，我们与特定任务的跨模态方法进行了比较，这些方法将表格数据转换为文本(Dinh et al., 2022)或图像(Zhu et al., 2021)以重用现有模型。结果清楚地表明Orca既更有效也更通用。我们的代码已公开发布在https://github.com/sjunhongshen/ORCA。

2相关工作

表1：现有用于不同任务的模型开发方法摘要。

		Task-specific	General-purpose	Supports transfer to different:
		adaptation?	workflow?	input dim?	output dim?	modality?
Task-specific	Hand-designed models	✓
learning	AutoML models	✓	✓
In-modality transfer	Unimodal DA	✓		✓
	Uni/Multimodal fine-tuning	✓		✓	✓
	General-purpose models	✓	✓	✓	✓
Cross-modal transfer	Heterogeneous DA	✓		✓		✓
	Task-specific fine-tuning	✓		✓	✓	✓
	FPT		✓	✓	✓	✓
	Orca	✓	✓	✓	✓	✓

在本节中，我们将回顾AutoML、模态内迁移和跨模态迁移领域中几个相关的研究工作。表 1 总结了这些组别及其相关轴线，并将其与 Orca 进行了对比。

用于各种任务的AutoML 是一个不断发展的研究领域，NAS-Bench-360 基准测试 (Tu et al., 2022)、2022 AutoML 十项全能竞赛以及最近针对此问题的各种神经架构搜索 (NAS) 方法（例如 AutoML-Zero (Real et al., 2020)、XD (Roberts et al., 2021) 和 DASH (Shen et al., 2022)）都证明了这一点。与反复产生设计新架构并从头开始训练它们的 NAS 方法不同，Orca 采用微调方法并在数据丰富的模式中重用现有模型。也就是说，鉴于共享的潜在动机，我们在实验评估中使用了 NAS-Bench-360，并与最先进的 AutoML 基线进行了比较。

单峰域适应 (DA) 是一种转导式迁移学习的形式，其中源任务和目标任务相同，但域不同 (Pan & Yang, 2009; Wang & Deng, 2018)。大多数 DA 方法都假设源数据和目标数据具有相同的输入空间和支持，并且关注不同的输出空间或联合/边缘分布。最近的工作研究了更一般的设置，例如不同的特征空间（异构 DA）或标签空间（通用 DA）。我们对跨模态微调的关注更进一步，即输入空间和输出空间支持都不重叠的情况。

单峰微调是一种更灵活的迁移方法，可以应用于具有不同标签或输入空间的下游任务。预训练模型用于语言 (例如，Jiang et al., 2020; Aghajanyan et al., 2021)、视觉 (例如，Li et al., 2022; Wei et al., 2022)、语音 (例如，Jiang et al., 2021; Chen et al., 2022)、蛋白质 (Jumper et al., 2021) 和机器人技术 (Ahn et al., 2022) 等领域的模态内微调。适配器网络 (He et al., 2022) 已经被开发出来以提高模态内微调的性能。多模态微调通过学习多个模态的嵌入来扩展单个预训练模型的适用模态 (例如，Radford et al., 2021; Hu & Singh, 2021; Kim et al., 2021; Alayrac et al., 2022)，但这些方法仍然专注于适应模态内任务。

通用模型提出了适用于各种任务的灵活架构，例如光流、点云和强化学习 (Jaegle et al., 2021, 2022; Reed et al., 2023)。这些方法使用来自不同任务的大量数据从头开始训练多任务 Transformer。虽然比单峰模型更通用，但它们仍然专注于迁移到所考虑的预训练模态内的问题。尽管如此，Transformer 在模态内微调方面的成功促使我们专注于为跨模态任务调整 Transformer 架构。

异构域适应 (HDA) 考虑源域和目标域之间不等价的特征空间。虽然大多数 HDA 方法处理相同模态不同维度的数据迁移，例如不同分辨率图像之间的迁移，但确实有一些工作研究了跨模态文本到图像的迁移(Yao et al., 2019; Li et al., 2020b)。然而，HDA 的一个关键假设是目标任务和源任务相同。相反，我们考虑在具有不同任务和标签集的截然不同的模态之间进行更灵活的知识迁移，例如应用 Swin Transformer 来求解偏微分方程或应用 RoBERTa 来对心电图进行分类。

跨模态特定任务微调是最近的一条研究方向，大多数工作都集中在将语言模型迁移到其他模态，如视觉(Kiela et al., 2019)、指称游戏(Li et al., 2020c)、强化学习(Reid et al., 2022)和蛋白质序列(Vinod et al., 2023)。这些工作提供了预训练模型跨模态迁移能力的初步证据。然而，它们侧重于对单个模态进行手工定制，例如，通过添加临时编码器将代理消息(Li et al., 2020c)或决策轨迹(Reid et al., 2022)转换为符元。即使不依赖于微调，像 LIFT(Dinh et al., 2022) 这样的工作试图通过提示进行跨模态学习(Liu et al., 2021a)，仍然需要将任务临时转换为自然文本。

冻结预训练 Transformer (FPT) (Lu et al., 2022) 是一种跨模态微调工作流程，它将输入转换为与预训练模型兼容的形式。尽管 FPT 和Orca都是通用的，但 FPT 没有考虑模态差异（图1中没有阶段 2），但我们证明了这一步骤对于获得有效的预测模型并优于现有基线是必要的。

3Orca 工作流程

在本节中，我们将形式化问题设置并介绍我们用于调整预训练 Transformer 的工作流程。

问题设置。一个域𝒟由特征空间𝒳、标签空间𝒴和联合概率分布P(𝒳,𝒴)组成。在我们研究的跨模态设置中，目标（最终任务）域𝒟t和源（预训练）域𝒟s不仅在特征空间上有所不同，而且在标签空间上也存在差异，并且扩展到具有不同的概率分布，即𝒳t≠𝒳s、𝒴t≠𝒴s和Pt(𝒳t,𝒴t)≠Ps(𝒳s,𝒴s)。这与域适应解决的转导迁移学习设置形成对比，在域适应中，源域和目标域共享标签空间和最终任务(Pan & Yang, 2009)。

给定从域𝒟t中联合分布Pt采样的目标数据{xit,yit}i=1nt，我们的目标是学习一个模型mt，该模型能够正确地将每个输入xt映射到其标签yt。我们有兴趣使用预训练的Transformer来实现这一点。因此，我们假设可以访问一个使用源域𝒟s中的数据{xis,yis}i=1ns进行预训练的模型ms。然后，给定一个损失函数l，我们旨在基于ms开发mt，使得𝔼(xt,yt)∼Pt[l(mt(xt),yt)]最小化。此问题公式没有明确定义模态，并且包括模态内和跨模态迁移。鉴于我们希望探索的任务的普遍性和在数学上区分这两种设置的难度，我们依靠语义来做到这一点：直观地，跨模态数据（例如，自然图像与偏微分方程）彼此之间的差异大于模态内数据（例如，在两个地理位置拍摄的照片）。

在定义了学习问题之后，我们现在介绍我们的三阶段跨模态微调工作流程：（1）生成特定于任务的嵌入器和预测器以支持不同的输入输出维度；（2）预训练嵌入器以对齐源特征分布和目标特征分布；以及（3）微调以最小化目标损失。

3.1用于维度对齐的架构设计

将预训练模型应用于新的问题通常需要解决维度不匹配的问题。为了使Orca适用于不同的输入/输出维度，我们将基于Transformer的学习器m分解为三个部分（图1阶段1）：一个嵌入器f，它将输入x转换为一系列特征；一个模型主体g，它对嵌入的特征应用一系列预训练的注意力层；以及一个预测器h，它生成具有所需形状的输出。 Orca使用预训练的架构和权重来初始化模型主体g，但用旨在将目标数据与预训练模型的嵌入维数匹配的层替换f和h。下面，我们将详细描述每个模块。

自定义嵌入网络。将与预训练模型兼容的特征空间表示为𝒳˙。对于最大序列长度为S且嵌入维度为D的Transformer，𝒳˙=ℝS×D。目标嵌入器ft:𝒳→𝒳˙旨在接收来自𝒳的任意维度的张量，并将其转换为𝒳˙。在Orca中，ft由一个卷积层组成，该卷积层具有输入通道cin、输出通道cout、卷积核大小k和步长k，它将视觉Transformer中使用的图像块操作推广到一维和更高维的情况。我们将cin设置为x的输入通道，并将cout设置为嵌入维度D。我们可以将k视为超参数，或者将其设置为输出形状（不包括通道维度≤S）的乘积最小的值，以充分利用预训练模型的表示能力。在后一种情况下，当我们展平卷积后输出张量的非通道维度，进行填充然后转置后，我们可以得到形状为S×D的序列特征。最后，我们添加一个层归一化和位置嵌入以获得x˙。

预训练Transformer主体。模型主体g以嵌入x˙∈𝒳˙作为输入，并输出特征y˙∈𝒴˙；点号用于区分这些中间表示与原始输入和标签。对于基于Transformer的g，输入和输出特征空间𝒳˙,𝒴˙均为ℝS×D。

自定义预测头。最后，目标模型的预测头ht必须以y˙∈𝒴˙作为输入并返回一个依赖于任务的输出张量。不同的任务通常指定不同类型的输出，例如，在ℝK中的分类logits，其中K是类别数，或者空间维度与输入相同的密集映射，每个索引的logits对应于K个类别。因此，定义特定于任务的输出模块并针对新问题对其进行微调至关重要。在Orca中，我们使用了预测器的最简单实例。对于分类，我们沿序列长度维度应用平均池化，以获得长度为D的1D张量，然后使用一个线性层将D映射到K。对于密集预测，我们将线性层应用于序列输出，因此生成的张量的形状为(S,kndim(𝒴)K)，其中kndim(𝒴)是嵌入器卷积核步长为k的下采样因子。这将上采样到嵌入器下采样的相同因子。然后，我们可以将张量塑造成所需的输出维度。 ².

使用基于预训练模型但又与目标任务兼容的架构，我们现在可以将注意力转向数据对齐以实现更好的适应。

表2： 10个不同任务上的预测误差（↓）。 “NAS-Bench-360”指的是论文中评估的所有AutoML基线的任务最佳结果，包括DARTS(Liu et al., 2019b)、DenseNAS(Fang et al., 2020)和其他4个。 “FPT”指的是对RoBERTa/Swin的层归一化进行微调。在7/10个问题上，Orca在所有竞争对手中排名第一。误差条见附录A.4.2。

	CIFAR-100	Spherical	Darcy Flow	PSICOV	Cosmic	NinaPro	FSD50K	ECG	Satellite	DeepSEA
	0-1 error (%)	0-1 error (%)	relative ℓ2	MAE₈	1-AUROC	0-1 error (%)	1- mAP	1 - F1 score	0-1 error (%)	1- AUROC
Hand-designed	19.39	67.41	8E-3	3.35	0.127	8.73	0.62	0.28	19.80	0.30
NAS-Bench-360	23.39	48.23	2.6E-2	2.94	0.229	7.34	0.60	0.34	12.51	0.32
DASH	24.37	71.28	7.9E-3	3.30	0.19	6.60	0.60	0.32	12.28	0.28
Perceiver IO	70.04	82.57	2.4E-2	8.06	0.485	22.22	0.72	0.66	15.93	0.38
FPT	10.11	76.38	2.1E-2	4.66	0.233	15.69	0.67	0.50	20.83	0.37
Orca	6.53	29.85	7.28E-3	1.91	0.152	7.54	0.56	0.28	11.59	0.29

3.2用于分布对齐的嵌入器学习

直观地说，跨相似模态的知识转移应该比跨远距离模态更容易。因此，给定新模态中的目标任务，我们的目标是操纵目标数据，使它们更接近预训练模态。实现这一点的一种方法是在实际微调模型主体之前训练嵌入器，以使嵌入的目标特征类似于预训练模型主体已知性能良好的源特征。

正式地，令fs:𝒳s→𝒳˙表示预训练的源嵌入器（ms中将原始数据转换为序列特征的部分）和ft表示上一节中讨论的随机初始化的目标嵌入器。我们可以学习ft以最小化目标嵌入(ft(xt),yt)的联合分布与源嵌入(fs(xs),ys)的联合分布之间的距离。衡量这种分布距离的方法有很多。为了解它们是否会以不同的方式影响适应性，我们在第3.4节对三个代表性方法进行了预备性研究。

3.3下游适应的权重细化

在训练嵌入器之后，我们通过更新所有模型参数以最小化目标损失来执行完全微调。此步骤进一步使嵌入器和预测器与预训练模型对齐。在第4.1节中，我们将Orca与没有数据对齐的标准微调进行比较，并表明我们的方法在提高性能的同时降低了方差。有些正交工作研究了如何最好地微调模型(例如，Liu等人，2022；He等人，2022)。我们在第4.1节中与FPT中使用的一种策略(Lu等人，2022)进行了比较，但将进一步的探索留待以后的工作。

3.4分布对齐度量的评估

我们评估了在嵌入学习过程中用于数据对齐的三个距离度量的有效性：(1) 成对欧几里得距离，它在不使用任何分布信息的情况下对齐数据集的尺度和范围；(2) 基于矩的最大均值差异 (MMD) (Gretton等人，2012)，它使用f(x)的分布来对齐特征均值；以及 (3) 最优传输数据集距离 (OTDD) (Alvarez-Melis & Fusi, 2020)，它同时使用特征和标签分布(f(x),y)来对齐数据集的高级聚类结构。

我们将每个度量替换到Orca工作流程中（实现细节在第4节中），并在来自不同模态的10个任务上对其进行评估（基准详细信息在第4.1节中）。汇总性能（图2）和每个任务的排名（附录A.4.4）表明，使用OTDD进行嵌入器学习具有最佳的整体结果，因此我们在后续实验中使用它。我们推测其良好的性能是由于在对齐过程中如何考虑标签信息。

事实上，对于源数据集和目标数据集，OTDD都将每个类别标签表示为类内特征上的分布：y↦P(𝒳˙|𝒴=y) ³. 这将源标签集和目标标签集转换到𝒳˙上的分布共享空间。然后，我们可以使用与 𝒳˙，这又使我们能够测量 𝒳˙×𝒴 中的分布差异：

d𝒳˙×𝒴((x˙t,yt),(x˙s,ys))=(d𝒳˙(x˙t,x˙s)p+d𝒴(yt,ys)p)1/p.

关于精确的公式，请读者参考Alvarez-Melis & Fusi (2020)。然而，我们的实验结果表明，当我们学习ft以最小化OTDD时，我们不仅对齐单个数据点，而且还在嵌入空间中将具有相同标签的特征分组在一起，这可能会促进微调。

图2：使用不同对齐指标的Orca性能曲线(Dolan & Moré, 2002)。值越大（方法在τ因子内的最佳任务比例越高）越好。 OTDD曲线位于左上方，表明它通常是最佳的。

尽管OTDD在数据对齐方面非常有效，但其计算成本通常很高。在附录的A.1节中，我们分析了它的计算复杂度，并提出了一种使用类内子采样的有效近似方法。

在结束本节之前，我们强调我们的目标不是发现最佳的对齐指标，而是提供一个通用的微调框架，无论使用何种指标都能有效工作。因此，我们将设计更合适的距离度量留待未来的工作。

4 实验

表3：Orca 的预测错误 (↓)、天真的微调以及从头开始训练 RoBERTa/Swin。我们考虑调整所有参数（完整设置）与仅调整层归一化参数（FPT设置）。虎鲸在两种情况下都更好。全量微调通常优于仅调整层归一化这一事实也与最近的观察结果一致(Rothermel et al., 2021)。误差条见附录A.4.3。

	CIFAR-100	Spherical	Darcy Flow	PSICOV	Cosmic	NinaPro	FSD50K	ECG	Satellite	DeepSEA
Train-from-scratch	50.87	76.67	8.0E-2	5.09	0.50	9.96	0.75	0.42	12.38	0.39
Fine-tuning	7.67	55.26	7.34E-3	1.92	0.17	8.35	0.63	0.44	13.86	0.51
Orca	6.53	29.85	7.28E-3	1.91	0.152	7.54	0.56	0.28	11.59	0.29
Fine-tuning (layernorm)	10.11	76.38	2.11E-2	4.66	0.233	15.69	0.67	0.50	20.83	0.37
Orca (layernorm)	7.99	42.45	2.21E-2	4.97	0.227	15.99	0.64	0.47	20.54	0.36

在介绍了Orca如何处理跨模态微调之后，我们将通过三组主题实验来展示其经验有效性：（1）我们在多种模态中评估Orca，并证明它优于手工设计、AutoML搜索和通用架构；我们研究了其关键组件，以了解跨模态微调背后的机制，并举例说明它如何使有限数据模态受益；（2）我们在偏微分方程求解和表格分类两种模态中进行了深入分析，以证明Orca与专家设计的特定任务模型具有竞争力；（3）我们将Orca与以前的临时跨模态学习技术进行比较，以表明我们在通用性和有效性之间取得了平衡。

实验方案。虽然我们的工作流程接受各种预训练Transformer作为模型主体，但我们使用RoBERTa (Liu et al., 2019c)和Swin Transformer (Liu et al., 2021b)（它们是研究最多的语言和视觉模态的代表）来举例说明Orca的有效性。我们使用Hugging Face库(Wolf et al., 2019)实现基础模型，并分别选择CoNLL-2003和CIFAR-10作为代理数据集。对于每个任务，我们首先在标准微调设置中进行超参数调整，以确定最佳目标序列长度、批大小和优化器配置。实验在一台NVIDIA V100 GPU上进行，并使用Determined AI平台进行管理。结果是5次试验的平均值。其他细节，见附录A.2。

4.1广度视角：预训练模型能否跨模态迁移？

在本节中，我们重点介绍这项工作中最重要的观察结果：具有数据对齐的跨模态微调可以有效且高效地解决各种任务。为证明这一点，我们在NAS-Bench-360的10个任务上测试了Orca⁴ 涵盖了蛋白质折叠、心脏病预测和宇宙射线探测等各种一维/二维问题。参照表1，我们考虑了三类基线：（1）由Tu等人（2022）确定的手工设计的特定任务模型；（2）由Perceiver IO(Jaegle等人，2022)代表的通用模型；（3）AutoML方法，包括NAS-Bench-360上的领先算法DASH(Shen等人，2022)。

图3：使用性能曲线(Dolan & Moré, 2002)汇总表2的结果。较大的值（方法在τ因子内优于最佳任务的比例）更好。虎鲸位于左上角表示它通常是最佳的。

图4：左：在三个NAS-Bench-360任务上，最终精度和嵌入分布距离与嵌入学习轮次的关系。随着我们学习更好地将目标数据映射到源模态（更小的OTDD），我们获得了具有更好下游性能的模型。这表明微调精度和对齐质量之间存在经验相关性。右： Orca的精度（↑）与在卫星任务上不同数据集大小的朴素微调相比。 Orca在低数据情况下具有更高的性能提升。

表2报告了每种方法在每个任务上的预测误差，图3则可视化了总体性能。 Orca在10个任务中的7个任务上实现了最低的错误率，并取得了最佳的总体性能。具体来说，它在所有任务上都优于手工设计的架构。除了DeepSEA和NinaPro（分别排名第二和第三）之外，它在所有任务上都优于所有AutoML基线。来自Orca嵌入学习阶段的改进带来了少量计算开销——附录中的表11显示，数据对齐所需的时间仅占微调时间的少量部分（11%）。

我们的结果验证了先前跨模态工作中的发现，即预训练的Transformer学习到的知识可以迁移到看似无关的任务。在下文中，我们将通过多次消融实验来剖析Orca的成功，并确定三个对利用学习知识至关重要的因素：数据对齐、完全微调、预训练模态选择。

关键因素1：对齐特征分布

为了了解Orca的良好性能是否确实归因于数据对齐过程（这是我们的关键创新），我们将它与不进行数据对齐的简单微调方法进行比较（表3，中间行）。我们看到Orca始终优于简单微调。此外，我们在附录A.4.4中展示了具有不同对齐指标的Orca都比微调获得更好的性能。因此，缩小目标模态和预训练模态之间的差距可以促进模型适应。

为了进一步隔离数据对齐的影响，我们将Orca与一个从零开始训练的基线进行比较（表3，第一行），该基线仅使用目标数据训练RoBERTa和Swin。我们观察到从零开始训练比Orca差，但在ECG、Satellite和DeepSea上比微调更好。我们推测，这是因为当目标模态与预训练模态差异显著时，简单的微调可能会损害迁移，但使用Orca对齐特征分布可以解决这个问题并有利于迁移。事实上，最近的研究表明，直接针对任务损失进行优化可能会扭曲预训练权重并导致次优解(Kumar et al., 2022; Lee et al., 2022)。通过操纵目标分布使其类似于源分布，我们降低了权重扭曲的风险，从而获得了更好的下游性能。

我们还通过训练不同迭代次数的嵌入器来量化数据对齐的影响，并观察将分布距离优化到不同收敛水平是否会影响下游性能。图 4（左）绘制了不同嵌入器学习水平的微调精度和最终分布距离。我们看到，随着数据集距离减小，微调精度提高。此外，与微调分开学习嵌入器可以稳定训练，因为Orca的性能方差始终低于朴素微调的性能方差。这些结果证实了数据对齐是有效跨模态微调的关键。

关键 2：微调所有模型参数

正如第 2 节所讨论的，冻结预训练 Transformer (FPT) (Lu et al., 2022) 是一项相关工作，该工作表明预训练语言模型包含与模态外任务相关的知识。虽然 FPT 提供了将 GPT-2 应用于 CIFAR-10 等任务的通用流程，但生成的模型不如从头开始训练的模型好。 FPT 与 Orca 的区别在于：(1) 它不执行数据对齐，(2) 它只微调层归一化。我们已经验证了 (1) 的重要性。现在，我们通过仅微调 Orca 的层归一化来隔离 (2) 的影响。

表 3 的底行显示，微调层归一化的 Orca 优于 FPT，因此预训练嵌入器可以提高 FPT 的性能。但是，这种性能提升小于完全微调设置中的性能提升，这意味着完全微调可以更好地利用学习到的嵌入。在运行时间方面，尽管我们更新的参数少得多，但与完全微调相比，FPT 的速度提升不到 2× 倍（附录 A.4.6）。这是不足为奇的，因为梯度仍然通过整个网络反向传播。因此，在计算资源允许的情况下，我们推荐使用经过完整微调的Orca以获得更好的性能。

关键点3：从正确的模态进行适配

最后，我们研究了预训练模态如何影响微调。在迄今为止报告的结果中，我们根据输入维度为每个任务选择预训练模型，即，我们对所有一维任务使用RoBERTa，对所有二维任务使用Swin。现在，我们评估相反的方法，重点关注两个任务：DeepSEA（一维）和Spherical（二维）。通过切换模型主体，此评估很容易执行，因为Orca的嵌入器架构处理获得序列特征所需的所有输入转换。结果如附录中的表13所示。我们看到，在该一维任务上，经过微调的RoBERTa优于Swin，这可能是因为DeepSEA数据（基因组序列）的结构更像语言，而不是具有离散信息单元和一般语法规则的图像。更重要的是，对于这两个任务，最终OTDD较小的模型具有更好的微调精度。这表明了一种通过比较优化的OTDD并选择值最小者来选择预训练模型的方法。

除了这三个关键见解之外，回想一下，我们进行跨模态微调的动机之一是帮助数据有限的任务，在这些任务中，从头开始训练模型很困难。事实上，对于普通微调，少量数据可能不足以提供更新预训练权重的信号，但可以使用Orca首先学习一个好的嵌入器，这可以使微调更容易。在图4（右侧），我们改变数据集大小，发现Orca的性能提升随着数据集大小的减小而增加。同时，使用Orca使我们能够在3×数量的数据上匹配朴素微调的性能。因此，它可以使数据收集成本高昂的领域中的模型开发受益。除了跨模态设置之外，我们还在附录A.8.1中验证了Orca在模态内迁移中的有效性。

4.2深度视角：用于偏微分方程和表格任务的跨模态微调

图5: 左：针对不同维度（一维/二维）的8个PDEBench任务，Orca与基线模型的归一化均方根误差 (nRMSEs,↓)。我们只评估可以放入单个V100 GPU中的数据集。总体而言，Orca比U-Net和PINN好得多，与FNO不相上下。详细的数值结果，请参见附录中的表14。右： Orca在分辨率256上进行训练，并在分辨率512上直接进行评估。预测结果仍然与真实值相符。

在对Orca进行广泛的任务验证后，我们深入研究了两个具体的模态，即偏微分方程求解和表格分类，以证明跨模态微调对于高度专业领域模型开发具有前景。 Orca不仅可以在这两个领域实现高预测精度，还可以恢复神经算子的一个重要特性——零样本超分辨率建模偏微分方程。

用于科学机器学习的PDEBench

近年来，用于物理系统的机器学习模型越来越受到关注。为了研究跨模态微调如何在科学机器学习的背景下提供帮助，我们在PDEBench (Takamoto et al., 2022)的8个数据集上评估了Orca，并将其与最先进的特定任务模型进行了比较：基于物理的的神经网络PINN (Raissi et al., 2019)，傅里叶神经算子 (FNO) (Li et al., 2021)，以及通用的图像到图像回归模型U-Net (Ronneberger et al., 2015)。我们关注的是前向预测问题。请参见附录A.5了解实验详情。

如图5（左）所示，Orca在所有评估的数据集上均优于PINN和U-Net，并在其中一半数据集上优于FNO，并且训练时间预算少于U-Net和FNO。鉴于基线，特别是FNO，是利用领域知识精心设计的，这是一个令人印象深刻的结果。更重要的是，如图5（右）所示，Orca在使用RoBERTa主干和具有逐点卷积的嵌入器时，实现了零样本超分辨率（在较低分辨率上训练，并在较高分辨率上直接评估）。这种泛化能力仅在FNO中观察到。 Orca 也可能实现了这一点，因为逐点卷积生成的序列特征与分辨率无关，并且可以捕捉内在的流体动力学。这些结果证明了跨模态微调在科学机器学习领域的潜力。

表4：来自Hollmann et al. (2022)和Dinh et al. (2022)的基线表格结果。 “与XGBoost的差异” 是针对XGBoost的每个任务差异的跨任务平均值。虎鲸在19项任务上击败了经典方法和先进的Transformer方法。每个任务的结果，请参见附录A.6。

OpenML-CC18	LightGBM	CatBoost	XGBoost	AutoGluon	TabPFN	Orca
# Wins/Ties	1/30	1/30	3/30	12/30	7/30	12/30
Avg. AUROC (↑)	0.884	0.8898	0.8909	0.8947	0.8943	0.8946
Diff. from XGBoost	-6.97E-3	-1.18E-3	0	+3.74E-3	+3.38E-3	+3.63E-3

LIFT Tasks	LogisticRegression	SVM	XGBoost	LIFT GPT-3	Orca
# Wins/Ties	2/14	3/14	2/14	2/14	7/14
Avg. Acc. (↑)	79.58	80.63	78.21	79.63	83.80
Diff. from XGBoost	+1.37	+2.42	0	+1.42	+5.60

用于表格分类的OpenML

尽管表格数据是最常见的数据类型之一，但它们仍然主要使用经典的机器学习方法（如XGBoost (Chen & Guestrin, 2016)）建模。最近，深度学习方法，例如AutoGluon (Erickson等人，2020)和TabPFN (Hollmann等人，2022)，已成功地将特定任务的Transformer应用于表格数据。我们接下来展示Orca如何将预训练的RoBERTa适配到表格数据，其性能优于经典方法，并与最近的深度学习方法的性能相匹配。

与Hollmann等人(2022)类似，我们在OpenML-CC18基准测试(Vanschoren等人，2014)的30个数据集上评估Orca，并将其与经典的提升算法(Ke等人，2017; Ostroumova等人，2017)和先进的基于Transformer的模型(Erickson等人，2020; Hollmann等人，2022)进行比较。如表4(上部)所示，Orca在30个任务中排名第一的有12个，并且与AutoGluon（表格数据中最先进的AutoML方法）一样有效。它还在30个任务中的16个任务上优于TabPFN (Hollmann等人，2022)，后者是一个基于Transformer的先验数据拟合网络。

值得注意的是，没有一种方法在所有任务上都能取得最佳性能。对于那些数据有限且由类别变量描述的数据集（例如，服装销售），⁵提升算法表现不佳，但Orca的表现明显更好。对于标签平衡且包含少量数值变量的数据集（例如，糖尿病），经典方法就足够了，并且比大型模型不太容易过拟合。尽管如此，我们的结果再次证实，跨模态微调对于解决现实问题具有吸引力。

4.3与特定任务的跨模态工作的比较

正如引言中所述，Orca的一个动机是，现有的少量跨模态方法大多是临时性的，并且针对特定模态量身定制。因此，开发它们需要对目标数据有透彻的理解。为了表明Orca在普遍适用于任意领域的同时性能更好，我们将其与(1) IGTD (Zhu等人，2021)（它将基因-药物特征转换为图像并应用CNN来预测药物反应）和(2) LIFT (Dinh等人，2022)（它将表格数据转换为文本以提示预训练的GPT-3）进行比较。表5显示了药物反应任务的R2得分，表4(底部)显示了LIFT数据集的分类精度。再一次，Orca胜过了这些精心策划的特定任务方法，证明了它既通用又高效。

表5：两个药物反应预测数据集上的决定系数(R2，↑)。 Orca的性能优于IGTD，IGTD将原始表格特征转换为图像以应用视觉模型。

R2	Dataset 1: CTRP	Dataset 2: GDSC
IGTD-CNN	0.856±0.003	0.74±0.006
Orca	0.86±0.002	0.831±0.002

4.4局限性和未来工作

我们根据实验结果确定了几个未来的方向。首先，值得进一步研究预训练模态的影响，并开发一种系统的方法来选择预训练模型。然后，我们可以将模型选择整合到Orca中，以实现更自动化的流程。其次，虽然Orca利用最简单的微调范式，但可以将其与更复杂的迁移技术（如适配器(He et al., 2022)）相结合。我们在附录A.8.2中简要研究了如何将提示(Bahng et al., 2022; Jia et al., 2022)应用于不同的任务，并发现它对于模态外的难题效果较差，但我们可以使用Orca来提高其性能。最后，我们目前在1D/2D任务上评估Orca。重要的是，还要在更多设置上对其进行验证，例如高维问题和强化学习(Reid et al., 2022)。

5结论

在本文中，我们研究了如何将现有模型重新用于新的和未充分探索的领域。我们提出了一种新颖有效的跨模态微调框架Orca，它将任意模态的最终任务数据与模型的预训练模态对齐，以提高微调性能。我们的工作不仅表明大规模预训练在各种任务中的潜力，而且为机器学习中一个很大程度上未开发的数据中心范式铺平了道路。

arXiv每日学术速递

工作日更新学术速递！官网www.arxivdaily.com。