近年来,视觉语言模型取得了显著的进展,在诸如光学字符识别和几何问题求解等一度被视为具有挑战性的任务上表现出色。尽管取得了令人印象深刻的成绩,但仍存在一些尚未解决的关键问题:
大多数专有模型很少披露其架构的详细信息。相比之下,开源模型为其训练策略提供了可见性,但将这些策略进行详细地拆解和分析仍受到期待。
当前的预训练数据在开源研究中尚未得到充分探索,大多数工作都是基于来自不同来源的数据集进行实证添加,使得整个过程变得神秘且繁琐。
在微调阶段,通常侧重于添加和拆解更多的数据集,这往往会带来边际效益的降低。因此,精炼数据方案对于进一步提高模型性能至关重要。
为了解决这些问题,本文提出以下贡献:
作者训练了一个强大的基准模型,利用了视觉语言模型领域的最新技术进步。在现有进展的基础上,作者引入了有效改进,并对每个集成到强大 Baseline 中的技术进行了全面地验证和拆解。
受到大型语言模型最近工作的启发,作者提出使用逆概率(perplexity)过滤预训练数据,选择具有最低逆概率的数据作为训练集。这种方法使作者能够在100万的数据集上进行训练,从而获得了高度竞争力的性能。
在视觉指令调优阶段,当进一步将更多数据集引入训练集时,作者在不同的数据集上尝试了模型汤。集成这些创新,作者得到了一个具有90亿参数的模型,其性能与一系列现有最先进的模型具有竞争力。
另外,作者提出的这些策略具有高效、相对轻量级,使社区可以轻松地采用它们为自己的模型。
1 Introduction
近年来大型语言模型(LLMs)取得了显著的发展,大大提升了视觉语言大型模型的分析能力,使得对文本和视觉信息的分析更为复杂。一些主要的封闭源模型样式如GPT-4,Gemini Pro 1.5 和 Claude 3 的成功扩展了LLMs到视觉语言模型领域。同时,开源视觉语言大型模型也在快速发展,该领域的许多显著贡献出现。
历史上,LLAVA曾作为通用 Baseline ,但最近的进步使得其性能变得次优。因此,作者需要建立一个更强的 Baseline 进行进一步探索。在这项工作中,作者通过改进预训练数据集来增强基础LLAVA架构。受到 CapFusion 的启发,作者将原始的captions与world knowledge合并,生成了具有良好语法结构的生成的captions。对于视觉指令调优的数据集,作者引入了个别选择来编辑有效的指令调优数据集。关于模型架构,作者首先引入动态高分辨率以帮助模型捕捉细粒度细节。为了解决动态高分辨率固有的图像失真问题,作者提出了一种新的图像划分策略,称为一致aspect比率动态高分辨率,它保持了统一的图像比例。另外,受到Vary(Wei等人,2023年)的启发,作者将分别与文本丰富数据集训练的视觉编码器 Features合并到原始视觉编码器的特征中,从而显著提升了模型的OCR能力。与大多数现有工作不同,作者在强大的 Baseline 上广泛地剥离了每个新引入的组件,以验证它们的单独效益。
现有的研究很少探索预训练数据集的优化。大多数研究倾向于实证地结合各大规模数据集的样本,通常会导致低效且计算昂贵的预训练流程。在大语言模型领域,有些研究利用困惑度来过滤预训练数据集。受到这一方法启发,作者通过选择预训练数据集中最低困惑度值的顶部样本来过滤作者的预训练数据集。这一过滤过程产生了100万的数据样本子集,后续作者在这些样本上预训练作者的模型。实验结果表明,在过滤过的子集上训练的模型,超过了在数据集五倍大的数据集上训练的模型的训练结果。
在视觉指令调优阶段,大多数现有研究集中收集大量数据集并执行详细的消融研究来选择最有效数据集。然而,这种方法常常达到一个瓶颈,在引入更多数据集时只会带来微小的性能提升。先前关于模型soup的研究已经展示了使用不同的超参数训练的模型的权重合并的优势。在本工作中,作者提出了使用模型soup将使用不同数据集训练的各种超参数的模型权重合并以进一步提高性能的方法。与其他在不同的超参数上进行模型soup(例如学习率)相比,将模型soup在不同的数据集上进行模型soup对性能的提升更为明显。遵循这一思路,作者进一步实验使用不同的模型soup策略,并发现贪心模型soup是最有效的。
通过对上述创新的整合,作者开发了一种名为POINTS的模型。作者的贡献有三个方面:
作者提出了一个集成视觉语言模型最新进展的强 Baseline ,并充分验证了每个组件的有效性。 作者介绍了使用困惑度过滤预训练数据集的方法,并进行了对不同间隔的困惑度区间范围内数据分布的详细调查。 作者采用模型soup将使用不同数据集训练的模型权重合并,从而在进一步的数据集选择上仅带来微小改进时提升了模型性能。
通过整合上述创新,作者得到了一个名为POINTS的模型。作者的贡献有三个方面:
作者提出了一个集成视觉语言模型最新进展的强 Baseline ,并充分验证了每个组件的有效性。 作者介绍了使用困惑度过滤预训练数据集的方法,并进行了对不同间隔的困惑度区间范围内数据分布的详细调查。 作者采用模型soup将使用不同数据集训练的模型权重合并,从而在进一步的数据集选择上仅带来微小改进时提升了模型性能。
2 Related Works
近年来,大语言模型的迅速发展,为多模态大语言模型的诞生奠定了基础,这些模型旨在将视觉理解与语言推理和多模态感知与理解结合在一起。一些显著的模型,如GPT-4v 和Gemini-1.5-Pro(Team等人,2023年),由大型企业开发,领先了MLLM时代,使用了专有训练数据和未公开的训练方法。与此同时,开源模型正在努力与之保持同步。例如,LLaVA-Next 和InterVL-1.5 通过将大图像分割为多个不一致大小的较小部分来实现动态高分辨率技术。MiniCPM-V(姚等人,2024年)采用专门的视觉编码器来生成非方形的图像块。此外,模型如Vary(魏等人,2023年),SPHINX,Cambrian-1 和Mini-Gemini(刘等人,2023年)提出使用双视觉编码器来增强视觉能力。此外,多模态模型评估(刘等人,2023年c;陈等人,2024年b;方等人,2024年)的显著进步也推动了大型视觉语言模型的迅速发展。
多模态模型的训练数据选择至关重要。现有工作中大多数改进都源自对指令调优数据集的详细划分。最常用的选定最有效数据集的方法是迭代地将其添加到池中;如果带来了改进,则保留它,否则则删除。然而,这种方法可能会最终达到平台期,因为进一步的添加可能只会带来微小的改进。为了进一步提高性能,作者提出采用模型汤(Wortsman等人,2022年)在各种使用不同视觉指令调优数据集的模型上进行微调。这一方法涉及在不同的数据集上对模型权重进行视觉指令调优后合并模型权重,从而实现显著的性能改进。
3 Methods
在子部分3.1中,作者从先前的方法中整合各种技术,以创建进一步实验的强基准。此外,作者还提出了一种新的动态分辨率分割方法,称为Consistent Apect Ratio Dynamic High Resolution(简称为CATTY),以减轻图像失真问题。
在子部分3.2中,作者提出使用困惑度来过滤预训练数据集。
最后,在子部分3.3中,作者将模型汤(Wortsman等人,2022)的概念引入到指令调整阶段。作者发现这种简单的方法可以显著提高模型的性能,尤其是在进一步的数据选择仅带来微小或甚至降级性能时。
A Strong Baseline
在本节中,作者整合了现有工作的一些最新进展,创建了一个强大的基准,其中包括LLaVA-Next(刘等,2024a)和InternVL1.5(陈等,2024c)的动态高分辨率,Yu等(2024)的CapFusion,Vary(Wei等,2023)和SPHINK(林等,2023)的双视觉编码器以及Liu等(2024c)的个体选择。遵循LLaVA(刘等,2024b),POINTS主要包括三个部分:视觉编码器、投影器以及大型语言模型。通过整合上述前人的实践,作者得到了模型结构和流程,如图1所示。
动态高分辨率已被证实,向视觉语言模型输入高分辨率图像是有利的,它可以帮助捕捉到细微的细节,并减少幻觉(刘等,2023b)。为了使视觉编码器能适应动态图像分辨率的变化,LLaVA-Next 和InternVL-1.5 将高分辨率图像分割成几块相同尺寸的 tiles(在作者的实验中,设为8块),这样,原来的视觉编码器就可以处理这些 tiles。
具体步骤如下:
i) 首先,预测图像可以分割的最大 tiles 的数量(在作者的实验中,设为8)。
ii) 根据最大 tiles 的数量,创建一个表格,其中包含图像分割前的目标图像的信息。表格的关键是图像的比例,值是目标图像的宽和高,可以被视觉编码器的大小小整除。iii)对于每张图像,根据比例从预计算的表格中获取目标分辨率。
然后,将图像大小调整为目标分辨率,并将其分割成几块相同尺寸的 tiles。
一致比例动态高分辨率(CATTY)在分割图像之前,InternVL-1.5(陈等,2024c)将图像调整为目标分辨率,但是图像的原始比例与缩放不成比例导致扭曲。这个问题在前人的文章中已经 discussed。因此,作者提出了一种保持图像比例一致的方法,名为一致比例动态高分辨率(见图2)。在CATTY的第一个和第二个步骤与InternVL-1.5相同,最后一步如下:设图像的高度为H,宽度为W。然后,获取预计算表格中引用图像的高度和宽度H'和W'。然后,按如下方式将图像缩放至目标尺寸:
CapFusion在现有预训练数据集中的原始标题通常很嘈杂,结构有缺陷,对模型训练来说是不 optimal的。为了解决这个问题,由图像描述生成模型生成的合成标题,如LAION-COCO和BLIP-LAION(Li et al., 2022)中的标题,已经被提出。但是,合成标题的简单句法和语义结构可能导致像_可扩展性缺陷和世界知识损失_(Yu et al., 2024)这些问题。CapFusion通过利用大型语言模型自然地结合原始标题和合成标题,在这两种类型的标题之间达到了平衡。通过从有结构缺陷的原始标题中提取实际世界知识,并将它与有结构的但句法简化了的合成标题合并。遵循CapFusion方法,作者使用InternalLM-XComposer2 (Dong et al., 2024)为图像生成标题,并使用InternLM2 (Cai et al., 2024)合并原始原始标题和合成标题。图像标题生成的提示和合并标题的提示见附录。
双视编码器
一些先前的研究工作,如SPHINX(Lin等人,2023年)和Cambrian-1(Tong等人,2024年),已经表明不同的视觉编码器在各种域中表现出不同的优势。结合多个编码器的特征可以带来更好的性能和更强的鲁棒性。与自然图像所需的感知和推理不同,文本密集型图像需要视觉语言模型(Wei等人,2023年)具备不同的能力。为了增强光学字符识别(OCR)能力,作者训练了一个单独的视觉编码器,称为OCR ViT,用于从图像中提取文本特征,采用Vary(Wei等人,2023年)的方法。与Vary不同,作者没有构建训练样本,如图表;而是利用OCR结果(在作者的情况下是使用PaddleOCR提取的)进行预训练。此外,作者在预训练数据集中包括自然描述符。后面的章节中,将详细介绍预训练数据集的组成。在向大型语言模型输入前,作者用加权平均将通用视觉编码器(称为General ViT)和OCR视觉编码器的特征相加。
个体选择
个体选择,如刘等人(2024年)所提出,旨在确定最有效的指令调优数据集。在这一方法的基础上,作者采用刘等人(2024年)的数据集组成作为候选池,并融合了用于DeepSee-VL(Lu等人,2024年)、Cambrian-1(Tong等人,2024年)和Cauldron(Laurencon等人,2024年)的额外数据集。最终,作者将刘等人(2024年)确定的一系列数据集中的16个更多数据集整合到(详细内容将在第4.2节中提供)那里。考虑到学术数据集中的提示风格的一致性,为了增强提示的多样性,作者采用了GPT-4o生成符合先前作品(Lu等人,2024年;Chen等人,2024年)的问题-答案对。这些对问题的图像是从LAION-5B(Schuhmann等人,2022年)中随机选择的。作者将最终视觉指令调优数据集的构成称为Base Set。
预训练数据集选择
在大型语言模型的背景下,对数概率(perplexity)长期以来被作为评估预训练数据集质量的指标(Albalak等人,2024年;Marion等人,2023年)。受此启发,作者利用一个现成的视觉语言模型(如基于第3.1节所述的模型或开源的VLM)进一步过滤掉通过Capfusion获得的质量较低的预训练数据集(如上文所述)。对于第3.1节中提到的预训练数据集中的每个项目s,作者使用以下公式计算所有文本标记的对数概率:
本论文使用 来表示文本 的词元序列。作者将所有这些词元按升序排序,并在预训练阶段选择前 的内容。当作者仔细观察序列的前后 时,作者观察到区分词元的因素并非数据的质量,这与大型语言模型的观察不一致。序列的最后 通常包含一些模糊的世界知识,如游戏版本号和计算机工厂序列号等。这种世界知识非常罕见,而且含有少量的信息,对于模型的学习来说,其效益相对较低。在附录中,作者提供了一些从序列的前后 中随机采样而来的举例。
Instruction Data Selection with Model Soup
视觉指导调优数据对于现有视觉语言模型的优越性能至关重要(Chen等人,2024;Dong等人,2024;刘等人,2024b)。然而,现有的大部分工作都仅关注通过迭代消融选定更有效的数据集。在很多情况下,这种方法会达到一个平台,进一步的数据选择只能带来微小的改进甚至可能降低性能。在本节中,作者介绍了使用模型汤(model soup)将使用不同指令调优数据集调优的不同模型的优势集合并的优势。 模型汤背后的哲学如下:对于一个预训练模型,使用不同的超参数,调优模型,会导致多个调优的模型收敛到不同的局部最优值,这些局部最优值被称为。这些超参数包括学习率、数据增强、初始化种子等。通过插值这些调优后模型的权重,作者可以始终得到一个更强的模型。在上述方法获得的预训练模型、基础指令调优数据集和一系列视觉指令调优数据集的基础上,作者可以使用以下步骤得到一个更强的模型:
对于每个数据集,将其添加到基础指令调优数据集中,得到增强数据集,。 同时使用每个增强后的数据集训练个模型,并获得。 从中选择个模型,并将所有这些选定的模型的权重合并,得到一个更强的模型。
在上述第三步中,作者选择几种方法来选择调优模型的最佳组合,以获取具有优越性能的最终模型,这些方法称为_Maximum Soup_, Average Soup,和_Greedy Soup_。
Maximum Soup 给定一个评估得分,,作者可以使用以下公式得到一个更强的模型,:
Average Soup 通过从所有调优模型中取平均的权重,作者可以得到一个更强的模型,:
Greedy Soup 作者首先按照评估得分从高到低对调优模型进行排序。然后,作者遍历这些排序的模型。对于每个模型,作者计算它权重与所有模型当前在模型池中的权重的平均值。如果评估得分提高,该模型将被添加到池中。最后,作者平均池中所有模型的权重,得到一个更强的模型,用表示。以下表格概述了Greedy Soup的详细 Pipeline 。
算法1:Greedy Soup用于视觉指令调优数据集
4 Experiments
本节分为五个子节:
(i)评估设置;
(ii)用于训练强 Baseline 的预训练及提示调优数据集,以及由模型 soup 选择的提示调优数据集;
(iii)关于 OCR ViT 预训练、视觉语言预训练和视觉提示调优阶段训练设置的详细信息;
(iv)用于构建最终模型的各个组成部分的消融研究和分析;
(v)在广泛基准上的与其他工作的比较。
Evaluation Setup
在作者开始探索之前,作者寻求一个强大且全面的评估指标来全面评估作者模型的各种能力。这就是OpenCompass(Contributors,2023年)在此方面发挥的作用。OpenCompass提出了八个基准测试来平衡对模型从不同角度的评估。这些基准测试包括MMBench(Liu等人,2023年)和MMStar 用于诊断 general 能力,MMMU 用于测试STEM 相关能力,HallusionBench(Liu等人,2023年)用于模拟模型,MathVista(Lu等人,2023年)用于数学相关能力,AI2D(Kembhavi等人,2016年)用于图表相关能力,OCRBench(Liu等人,2023年)用于 OCR 能力,以及 MMvet(Yu等人,2023年)用于主观评估。通过平均这些基准测试的指标,OpenCompass 得出了一个代表模型全面能力的分数。此外,它提供一个有用的工具,VLMEvalKit, 单击即可进行评估。因此,除非另有说明,作者将使用这八个基准测试进行作者的消融研究,除了 MMBench,作者将使用 dev-en 拆分。
Data Setup
在本文中,作者使用了一些公开的预训练数据集以训练OCR ViT模型。首先,作者从LAION-5B-en (Schuhmann等,2022)、LAION-5B-cn (Schuhmann等,2022)、WuKong (Gu等,2022)和 Zero (Gu等,2022)四个数据集中随机选取了2000万的数据点进行预训练。然后,作者使用PaddleOCR从这些图像中提取文本,并用原始的标题替换原有的标题,形成新的图像-标题对,以进行预训练。
接下来,作者参考Vary等人(2023)的工作,在包含原始标题的数据集中(来自LAION-5B的1000万数据样本)中,增加了1000万的数据样本。然而,作者并未像Bai等人(2023b)那样,构建一个新的数据集以提高OCR性能,因为他们的现有 Pipeline 在OCR相关任务上表现良好。在构建强基准的过程中进行视觉-语言预训练时,作者使用CapFusion从LAION-5B中构建了2000万的数据点(需要注意,这些数据不与OCR ViT预训练中使用的那种数据重复),其中5千万数据点被选择出来,因为在作者看来,这个设置是最好的,类似于 Liu等人(2024c)的观察结果。基于这5千万个数据点,作者进一步选择了一个1千万的数据集用于最终的视觉-语言对齐,选择的是所有数据中最低的逆对数概率值的前20%的数据。
视觉指令调优数据集作者参考刘等人(2024c)的设定,从(Lu等人,2024a)、(张等人,2024)和(Laurencon等人,2024)提出的数据集中,使用个体选择方法选择了额外的数据集。最终的基准集,即用于构建强基准的数据集,在附录中进行了详细展示。同时,作者还包括模型 soup 选择的用于构建最终模型的数据集,这些数据集在红色中重点标出。
Training Setup
预训练设置及视觉语言预训练阶段
预训练框架遵循标准的 LLaVA-style 架构(见Liu 等人,2023b),包括视觉编码器、两层MLP 以及大型语言模型。视觉编码器从 OpenAI 的 CLIP-ViT-Large-3361 初始化,而大型语言模型从 Yi-1.5-9B-Chat (Young 等,2024)初始化。在整个预训练阶段,大型语言模型保持冻结,而视觉编码器和MLP 是可训练的。视觉编码器的学习率设置为 ,MLP 的学习率设置为 ,第一三个百分比的步骤使用 Warm up 计划,之后使用余下的余弦衰减计划。
视觉语言预训练阶段的设置
全视觉 Transformer (见图1)从 OpenAI 的 CLIP-ViT-Large-336 初始化,而 OCR ViT 基于前一个阶段得出。对于全视觉 Transformer ,只训练倒数第三层,因为该配置在实验中产生了最佳结果。倒数两层从 General 和 OCR ViT 的提取特征(见图1)。投影器本身是一个两层MLP,在整个预训练阶段均可训练。General ViT 和 MLP 的学习率分别设置为 和 。 Warm up 计划应用在第一步的前三个百分比,余下的步骤使用余弦衰减计划。
视觉指令微调阶段的设置
整个阶段,General ViT 和 OCR ViT 都保持冻结。投影器和大型语言模型的学习率都设置为 。第一三个百分比的步骤使用 Warm up 计划,余下的步骤使用余弦衰减计划。
Ablation Study and Analysis
图3:Model Soup的优势。当添加额外的指令调优数据集不再带来收益(个体选择)时,Model Soup可以显著提高性能。
构建强大 Baseline 的每个组成部分如表1所示,第3.1小节中引入的每个组件都为实现稳定改进做出了贡献。这些改进是非常显著的,例如,引入Dynamic High Resolution(动态高分辨率)来分割输入图像后,作者观察到OCR相关任务有了显著改进,例如OCRBench的性能从56.9%提高到60.3%。此外,使用Dynamic High Resolution的高分辨率图像有助于减少伪影,主要原因是高分辨率图像中增加了细节。此外,用CATTY替换原来的Dynamic High Resolution,在各个基准测试中都能取得明显改进,特别是OCR相关基准测试的改进幅度大于其他基准测试。这可能是由于图像失真对图像内的文本影响更为显著。与通用视觉特征提取相比,CLIP-ViT(Radford等,2021)从大量通用图像文本对中进行训练,提取图像文本特征的能力受到限制。因此,作者在集成来自额外ViT(预训练于文本丰富图像)特征后,在OCRBench上的改进非常明显。在这5种策略中,通过个体选择集成更多的视觉指令调优数据集带来的改进最为显著。这一发现与现有研究一致(Chen等人,2024;Li等人,2024;Tong等人,2024年),强调了在视觉指令调优阶段选择有效数据集的重要性。
预训练数据集如表3所示,将由CapFusion构建的数据集规模(5M)从5M增加到20M会导致性能降低,这与Liu等人(2024年)观察到的现象相似。此外,有些工作使用相对较小的预训练数据集(如Li等人,2024年;Liu等人,2024年)而不是在预训练阶段大量数据集(如LAION-5B和COYO-700M,Byeon等人,2022年)。
作者认为可能的原因是:
(1)大多数现有视觉语言模型的视觉编码器是从已经在大量图像文本对预训练的基础上进行初始化的预训练模型中获得的。因此,当扩展视觉语言预训练数据集的大小时,视觉编码器已经看到了大部分数据,从而只是带来微小的或 even 是负面的影响。
(2)现有的大规模网络爬取数据集(例如LAION-5B和COYO-700M,Byeon等人,2022年)对于预训练数据集来说非常同质。作者在附录中通过从LAION-5B中提取的每个图像的主要实体分布绘制了主实体的分布,作者发现这个分布是长尾巴的,并且受制于少数目标,例如行人。因此,无差别在这些数据集上预训练模型只能带来有限的收益。如表3第三行所示,作者可以通过仅预训练模型在1M数据上,这些数据来自第一行5M数据中的前20%,其困惑度最低,来提高性能。这个结果表明过多让模型在转换过程中暴露在模糊和稀缺的知识中是不利的。
此外,与从独立的OCR增强视觉编码器融合特征相比,引入大规模OCR数据有两个明显的缺陷:
(1)在预训练阶段,模型必须对通用特征和OCR相关特征进行对齐,这可能导致冲突(Wei等人,2023年)。
(2)由于视觉语言预训练阶段使用的数据集相对较小,大规模OCR数据集可能使学习过程不堪重负,这不是学习其他类型知识的帮助。因此,从另一个OCR ViT引入特征可以带来表4的优越性能。
通过在不同的数据集上使用Model Soup改进性能。如前面所述,增加更多的指令调优数据集通常会在达到一定程度时达到极限,即增加数据集数量带来的性能提升非常有限。然而,通过在不同的数据集上整合Model Soup,作者观察到显著的提升,如图5所示,整体得分从59.0提高到61.2。作者还比较了各种Model Soup策略的效果。其中,贪心策略的效果最好,相较于最大策略和平均策略分别提高了0.6和0.4个百分点。除特别指明外,在后续实验中作者将默认使用贪心策略。此外,作者还包括了在不同的超参数上执行Model Soup的结果,例如不同的学习率。如图所示,超参数上的Model Soup仅带来了极小的改进;详细结果见附录。此外,作者在附录中验证了无论使用哪个基础集,Model Soup都可以持续提高性能。
Comparison with Other Works
除了上述的8个基准测试,作者还进一步包括了ScienceQA(Lu等人,2022年),MME(Yin等人,2023年),LLaVA-Wild(Liu等人,2024年)和ReadWorldQA,以比较不同模型的性能。下表显示了这些模型的性能。如表5所示,POINTS的性能与相似大小的现有最先进模型相当,甚至超过了模型规模更大的模型,例如Cambrian-34B。此外,与表中标记的模型相比,POINTS使用了一个远较小的预训练数据集(例如1M),更少的视觉指令调整数据集,而作者所使用的所有数据集都是公开可用的。这使得社区更能承受本文提出的策略。此外,POINTS的每个方面的策略都清楚地呈现并进行全面的分析,使作者模型中采用的每个策略的有效性得以显现。
5 Conclusion
近年来,视觉-语言模型取得了显著的进展。遵循这一趋势,我们首先通过整合最近工作中提出的各种进步建立了一个强大的基准,以进行进一步的实验。
此外,我们还深入研究了这些进步的复杂细节,并提出了有效的改进,例如一致的宽高比动态高分辨率。我们还进行了广泛的实验,以验证在构建强大基准时每个组件的有效性。
其次,我们提出使用困惑度来过滤预训练数据集,保留在预训练阶段具有最小困惑度值的20%的数据。这种过滤方法也带来了显著的改进。模型汤 已经显示出通过平均不同超参数微调模型的权重来进一步提高性能的潜力。然而,我们发现,在不同数据集设置上进行模型汤可以带来更大的改进。
在本文中,我们提出在不同数据集量和多样性上进行模型汤,微调的模型。数量和多样性带来的改进是相互独立的,可以导致共同增强。
参考
[1].POINTS: Improving Your Vision-language Model with Affordable Strategies.
知识星球,新年优惠券重磅来来袭!,结识一群志同道合的小伙伴一起成长。
下一个风口会不会是生成式AI 与具身智能的时代,我们特意创建了生成式AI与具身智能交流社区,关于大模型,机器人的相关业界动态,学术方向,技术解读等等都会在社区与大家交流,欢迎感兴趣的同学加入我们(备注具身智能)!
自动驾驶之星知识星球主打自动驾驶量产全技术栈学习,并包括: 学习板块,求职面试,有问必答,论文速递,行业动态五大板块!星球内部包括端到端大模型,VLM大模型,BEV 障碍物/车道线/Occ 等的学习资料!
生成式AI与具身智能知识星球,我们相信生成式AI 与具身智能会碰撞出出乎我们意料的内容,本知识形象并包括: 学习板块,求职面试,有问必答,论文速递,行业动态五大板块!星球内部包括生成式AI大模型,具身智能,业界资料整理等的学习资料!
👇点个“赞”和“在看”吧