文章下载
Zhe CHEN, Weiyun WANG, Hao TIAN, et al. How far are we to GPT-4V? Closing the gap to commercial multimodal models with open-source suites. Sci China Inf Sci, 2024, doi: 10.1007/s11432-024-4231-5
现有的大语言模型(LLMs)为人工通用智能(AGI)系统的构建奠定了重要基础,多模态大语言模型(MLLMs)在视觉和语言的结合上更进一步,能够实现复杂的视觉-语言对话和交互。然而,开源模型与商用闭源模型之间仍存在显著差距,具体表现在参数规模、图像分辨率支持以及多语言能力等方面。
为弥补这些差距,InternVL 1.5提出了一系列改进措施:首先,通过持续学习方法优化了大规模视觉基础模型(VFM),增强其视觉理解能力;其次,采用动态高分辨率策略支持最高4K分辨率输入,显著提升了场景和文档理解的精度;此外,结合高质量的中英双语数据集以及数据翻译管线,显著改善了中文场景任务的表现。实验结果表明,InternVL 1.5在OCR、多轮对话和数学推理等多个领域表现优异,甚至在部分基准上超越了GPT-4V、Gemini Pro 1.5等领先商用模型。希望这些探索能够为多模态社区的发展提供借鉴与启发。
随着大语言模型的迅猛发展,多模态大语言模型(MLLM)已成为连接图像与文本理解的重要桥梁。这类模型通常具有强大的自然语言处理和视觉信息理解能力,在复杂的视觉-语言任务中表现出色。然而,尽管取得了显著进展,开源模型与商用模型之间的性能差距仍然显著。商用模型通常具备更庞大的参数规模、更高的图像分辨率处理能力以及更强的多语言支持,而开源模型则相对较小,图像分辨率较低,且主要依赖英文数据。这种差距限制了开源模型在实际应用中的性能和范围。为弥合这一差距,研究团队推出了开源多模态大语言模型InternVL 1.5。该模型通过以下三大关键改进实现了性能的跨越:1. 强大的视觉编码器:采用连续学习策略,增强了大规模视觉基础模型 InternViT-6B的视觉理解能力。InternViT-6B拥有60亿参数,通过在高质量的图像-文本数据上预训练,该模型获得了卓越的视觉表示能力,从而显著提升在多模态任务中的表现。2. 动态高分辨率支持:根据图像的比例和分辨率,动态将图像划分为1至40个448x448的tile。这一方法不仅能够适应不同大小和分辨率的输入图像,还能捕捉全局上下文信息。在测试阶段,该模型可在零样本场景下扩展至40个tile(约相当于 4K 分辨率),大幅提升对高分辨率输入的适应能力。3. 高质量双语数据集:收集覆盖多场景和文档的中英双语数据,同时利用开源模型翻译英文数据为中文。这一策略使模型具备处理中英双语视觉-语言任务的能力,并在中文场景下表现出卓越的性能。InternVL 1.5的模型结构采用了一种经典的“ViT-MLP-LLM”设计,这种架构已经在许多多模态模型中得到了验证。具体来说,InternVL 1.5将一个预训练的视觉模型和一个强大的语言模型通过一个多层感知器(MLP)投影层高效结合在一起,形成了一个紧密协作的整体。1. 视觉模型(ViT):InternVL 1.5使用了InternViT-6B作为视觉编码器。2. 投影层(MLP):在视觉模型与语言模型之间,添加了一个随机初始化的MLP投影层。它的作用是将视觉特征转换成语言模型可以理解的格式,从而实现视觉和语言的高效融合。3. 语言模型(LLM):模型的语言部分使用了InternLM2-20B,这是一个性能强大的预训练语言模型,负责处理多模态信息并生成语言输出。这种结构设计简单而高效,充分发挥了视觉模型在图像理解上的优势,同时通过投影层无缝对接到语言模型,使得多模态信息能够在复杂任务中得到充分利用。这样的架构让 InternVL 1.5 在各种多模态任务中展现出了强大的性能和适应能力。受到UReader的启发,研究团队采用了一种动态高分辨率训练方法,如图4所示。该方法有效适应输入图像的不同分辨率和纵横比。这种方法利用了将图像分割成小块的灵活性,增强了模型处理详细视觉信息的能力,同时适应了多样化的图像分辨率。它主要包括以下步骤:1. 动态纵横比匹配:如图4所示,为了在处理过程中保持自然纵横比,我们从预定义的纵横比集合中动态匹配最优的纵横比。由于计算资源有限,我们在训练中允许最多12块。因此,这个集合包括了由1到12块形成的所有35种可能的纵横比组合,例如{1:1, 1:2, 2:1, 3:1, ..., 2:6}。在匹配过程中,对于每个输入图像,我们计算其纵横比,并与35个预定义的纵横比进行比较,通过测量绝对差值。如果多个预定义的纵横比匹配(例如,1:1和2:2),我们优先选择不超过输入图像面积两倍的纵横比,从而防止低分辨率图像的过度放大。2. 图像分割与缩略图:确定了合适的纵横比后,将图像调整到相应的分辨率。例如,一个800×1300的图像将被调整到896×1344。然后,将调整大小的图像分割成448×448像素的小块。除了这些小块,我们还包括了整个图像的缩略图以捕捉全局上下文。这个缩略图被缩小到448×448,帮助模型理解整体场景。因此,在训练期间,视觉标记的数量范围从256到3,328。在测试期间,小块的数量可以增加到最多40块,从而产生10,496个视觉标记。如图5所示,为了提升模型的多语言能力,研究团队设计了一条高效的数据翻译管线。该管线利用先进的开源大语言模型(LLMs)或GPT-3.5,将英文数据集转换为其他语言(如中文)。同时,这种方法通过简单调整语言提示即可扩展到更多语言,无需依赖人工翻译,具有高度的灵活性和可扩展性。在表格中,每个数据集的语言都带有标注。对于原始英文数据集,标注“zh”表示这些数据已通过翻译管线转换为中文。例如,COYO和GRIT数据集最初为英文,经过管线处理后,已成功生成了其中文版本。借助这一翻译管线,InternVL 1.5 的中文能力得到了显著增强,不仅扩展了其多语言理解和表达能力,还为未来支持更多语言的任务奠定了基础。为了评估InternVL 1.5的性能,研究团队在18个多模态基准测试中进行了广泛的测试。这些基准测试涵盖了OCR相关、通用多模态、数学和多轮对话等多个方面。实验结果表明,InternVL 1.5在大多数测试中表现优异,并在8个数据集的测试中达到了SOTA。OCR相关图像理解:在文档理解(DocVQA)、图表理解(ChartQA)、信息图理解(InfoVQA)和场景文本理解(TextVQA)等关键维度上评估模型性能。结果显示,InternVL 1.5在所有测试中表现良好,并在ChartQA和OCRBench中达到了SOTA。通用多模态评估:测试了模型在真实世界理解(RealWorldQA)、减少幻觉(HallusionBench)、跨学科能力(MMMU)等方面的性能。结果显示,InternVL 1.5在大多数测试中与商业模型相比具有竞争力。数学推理:研发团队在MathVista测试中评估了模型在数学和视觉任务中的综合能力。结果显示,InternVL 1.5在所有测试中均优于其他模型,包括GPT-4V。多轮对话:研究团队在ConvBench测试中评估了模型的多轮对话能力。结果显示,InternVL 1.5在所有开源模型中表现最佳,但与GPT-4V相比仍有一定差距。