移动设备上的多模态大语言模型优化:移动设备多模态大模型,vivo,BlueLM-V-3B;移动设备推理能力测试;MOE缓解多任务混合冲突
BlueLM-V-3B: Algorithm and System Co-Design for Multimodal Large Language Models on Mobile Devices
2024-11-16|vivo, CUHK MMLab|🔺28
http://arxiv.org/abs/2411.10640v1
https://huggingface.co/papers/2411.10640
研究背景与意义
多模态大语言模型(MLLMs)近年来在提升日常沟通、学习和问题解决能力方面展现出巨大潜力。随着智能手机的普及,它们成为部署MLLMs的理想平台,能够无缝集成到日常任务中。然而,在手机上部署MLLMs面临内存和计算能力有限的挑战,这使得在无大量优化的情况下实现流畅和实时处理变得困难。
本研究提出BlueLM-V-3B,这是一种专为高效部署MLLMs于移动平台而设计的算法和系统协同设计方案。通过重新设计动态分辨率方案和实现硬件感知的系统优化,本研究旨在优化手机上的模型推理效率。BlueLM-V-3B具有以下关键特点: (1)小尺寸:语言模型参数为2.7B,视觉编码器参数为400M。 (2)高速度:在MediaTek Dimensity 9300处理器上以4-bit LLM权重量化实现24.4 token/s的生成速度。 (3)强性能:在OpenCompass基准上,以≤ 4B参数模型的最高平均得分66.1超越了一系列参数更大的模型。
研究方法与创新
动态图像分辨率处理
传统的ViT模型直接调整输入图像到固定分辨率,这不适合高分辨率图像处理。为此,BlueLM-V-3B采用动态分辨率设计,通过自适应处理不同分辨率的图像来捕捉更多细节。然而,主流MLLMs的动态分辨率策略会导致多次推理和过多的图像标记,影响图像处理速度和整体延迟。
放松的纵横比匹配方法:为了解决上述问题,本研究提出一种放松的纵横比匹配方法,有效减少图像标记数量而不牺牲模型精度。通过选择更小的纵横比,我们能够减少图像的放大程度,从而提高训练和部署效率。
系统优化
批量图像编码:为了加速图像编码,设计了批量图像编码与流水线并行处理,结合动态分辨率处理器生成的图像块。在MediaTek Dimensity 9300处理器上,以2.2GB的内存需求,可以在约2.1秒内编码分辨率为768×1536的图像。
流水线并行处理:在图像块编码过程中,实现了SigLIP视觉嵌入模块中的Conv2D层和视觉Transformer块的流水线并行处理,以提高推理速度。
分块计算:为了应对NPU在处理长输入标记时的低效,采用标记下采样模块减少部署复杂性,并实现分块计算方法,每次并行处理128个输入标记。
理论基础
本研究基于以下理论:通过动态分辨率处理减少图像标记数量,通过批量编码和流水线并行处理提高推理速度,通过混合精度量化和分块计算实现高效部署。
实验设计与结果分析
实验设计
在实验中,我们对不同动态分辨率方法进行了比较,验证了放松纵横比匹配方法在部署效率和基准精度上的改进。使用LLaVA 558k数据集进行预训练,LLaVA 665k数据集进行微调。
结果分析
部署效率:统计分析显示,放松纵横比匹配方法显著提高了推理效率,减少了图像标记数量,从而降低了NPU上的推理复杂度。
基准精度:在OpenCompass基准测试中,BlueLM-V-3B在≤ 4B参数模型中取得了SOTA性能,在8个任务中的4个任务上达到最佳性能,平均性能排名第二。文本为中心的基准测试中,BlueLM-V-3B在TextVQA和DocVQA上表现出色,并显著增强了多语言能力。
结论与展望
本研究提出的BlueLM-V-3B在移动平台上实现了高效的MLLMs部署,通过算法和系统协同设计,显著提高了模型性能和部署效率。未来的工作将专注于优化BlueLM-V-3B的可扩展性,以适应更广泛的移动设备,并探索先进的算法以进一步提升性能和用户体验。
SlimLM: An Efficient Small Language Model for On-Device Document Assistance
2024-11-15|AU, Georgia Tech, Adobe Research|🔺8
http://arxiv.org/abs/2411.09944v1
https://huggingface.co/papers/2411.09944
anonymous.slimlm
研究背景与意义
随着移动设备在消费技术中的重要性日益增加,针对移动设备的小型语言模型(Small Language Models, SLMs)逐渐成为研究热点。尽管已有如Qwen-2、SmolLM、Gemini Nano和Apple Intelligence等模型展示了在移动设备部署的潜力,但它们在真实场景中的性能和应用仍未得到充分探索。
本文旨在填补这一研究空白,通过提出SlimLM系列模型,系统研究SLMs在高端智能手机(如Samsung Galaxy S24)上的性能和应用,解决模型大小、推理时间、上下文长度等关键问题。研究不仅为未来的移动设备语言模型研究提供了基准,还通过本地设备处理增强了用户隐私保护,并减少了服务器成本。
研究方法与创新
背景与动机当前,尽管大型语言模型(LLMs)在人工智能领域取得了显著进展,但其庞大的模型尺寸限制了在资源受限设备(如智能手机)上的部署。相反,SLMs专注于在资源受限环境下提供高效的语言处理能力。本文通过构建SlimLM模型,探索在移动设备上实现高效文档处理的可能性。
方法概述本文采用三步法来开发和部署适用于移动设备文档处理任务的SlimLM模型:
模型尺寸与推理时间优化:通过在Samsung Galaxy S24上进行广泛实验,确定模型尺寸(从125M到7B参数)、上下文长度和推理时间之间的最佳权衡点。
数据集构建:构建了DocAssist数据集,该数据集包含约83,000个文档,专门用于微调模型以增强其文档处理能力。数据集涵盖了摘要、问题建议和问题回答三个关键任务。
模型训练与微调:基于SlimPajama-627B数据集预训练SlimLM模型,并在DocAssist数据集上进行微调,以提升其在文档处理任务上的表现。
技术创新
模型架构优化:基于MPT架构,通过调整层数和头数来优化模型,以适应文档处理任务。 数据标注:采用GPT-4o-mini生成高质量的标注数据,涵盖SUMM、QS和QA三个关键任务。 实验设计:通过对比不同模型尺寸、上下文长度和推理时间的实验结果,确定最佳模型配置。
对比现有方法与现有的SLMs(如SmolLM、Qwen2)相比,SlimLM在模型尺寸和性能之间找到了更好的平衡。实验结果表明,SlimLM在相似模型尺寸下表现出更优或相当的性能。
实验设计与结果分析
实验设置本文在Samsung Galaxy S24上进行了广泛的实验,评估了SlimLM模型在文档处理任务上的表现。实验采用了一系列评价指标,包括BLEU、ROUGE、Semantic Textual Similarity(STS)和GEval等,以全面评估模型的性能。
实验结果
模型性能对比:SlimLM模型在相似模型尺寸下表现出优于或相当于现有SLMs的性能。例如,SlimLM-125M在摘要任务上优于SmolLM-135M-Instruct,SlimLM-350M在多个任务上超越SmolLM-360M-Instruct。 扩展性:随着模型尺寸的增加,SlimLM在各项任务上的表现持续提升,显示出良好的扩展性。最大模型SlimLM-1B接近于Qwen2-1.5B-Instruct的性能,表明SlimLM在较小模型尺寸下实现了竞争性结果。 实际应用:实验结果验证了SlimLM在实际移动设备上的高效性能,特别是在处理长文档输入时表现出色。
结果讨论实验结果表明,SlimLM在模型尺寸、上下文长度和推理时间之间找到了最佳平衡,能够在高端智能手机上实现高效的文档处理。此外,SlimLM在多个任务上的表现优于现有SLMs,显示出其在移动设备文档处理任务中的潜力。
结论与展望
主要贡献
SlimLM模型:提出了一系列适用于移动设备文档处理任务的SLMs,通过广泛实验确定了最佳模型配置。 DocAssist数据集:构建了一个专门用于文档处理任务的大规模数据集,为模型微调提供了丰富的数据支持。 实验基准:通过对比实验,为未来移动设备语言模型研究提供了基准和参考。
局限性与未来工作尽管SlimLM在多个任务上表现出色,但仍存在一些局限性,如模型在极大尺寸下的内存约束问题。未来的工作将专注于进一步优化模型架构,提升其在更大规模数据集上的性能,并探索更多移动设备上的实际应用场景。
未来展望SlimLM的成功展示了SLMs在移动设备上的广阔应用前景。未来,随着模型架构和数据集的进一步优化,SLMs有望在更多实际应用中发挥重要作用,为用户提供更高效、更隐私保护的文档处理服务。
Awaker2.5-VL: Stably Scaling MLLMs with Parameter-Efficient Mixture of Experts
2024-11-16|Metabrain AGI Lab, GSAI|🔺7
http://arxiv.org/abs/2411.10669v1
https://huggingface.co/papers/2411.10669
https://github.com/MetabrainAGI/Awaker
研究背景与意义
背景概述:
随着多模态大语言模型(MLLM)的快速发展,诸如BLIP2、MiniGPT-4和LLaVA等模型在图像描述、视觉问答等任务中展现了卓越的性能。然而,由于不同任务的数据表示和分布存在显著差异,简单地将多任务数据混合训练通常会导致“多任务冲突”问题,从而降低模型在各个任务上的表现。
问题定义:
本文旨在解决多模态大语言模型中的“多任务冲突”问题,提升模型在多任务场景下的表现。
现状概述:
现有的多模态大语言模型在处理多任务时,通常无法有效区分不同任务的特性,导致模型在各类任务上的性能下降。
挑战指出:
如何设计一个有效的架构,既能处理多模态数据,又能解决多任务冲突,是当前研究的一大挑战。
目标阐明:
本文提出了Awaker2.5-VL模型,采用Mixture of Experts(MoE)架构,通过多个稀疏激活的专家模型来处理不同任务,从而缓解多任务冲突问题。
研究方法与创新
技术描述:
Awaker2.5-VL采用了Mixture of Experts(MoE)架构,该架构由多个专家模型和一个门控网络组成。每个专家模型专注于处理特定任务,门控网络自动控制专家的激活和停用。此外,每个专家被设计为低秩适应(LoRA)结构,以加速训练和推理。
创新突出:
MoE架构的引入:Awaker2.5-VL通过MoE架构,实现了多任务的稀疏激活处理,有效缓解了多任务冲突问题。 LoRA结构的应用:每个专家模型采用LoRA结构,显著降低了模型的训练成本。 稳定的路由策略:设计了一种实例级别的路由策略,使得每个实例内的所有token激活相同的专家,从而提高了模型的稳定性和性能。
优势解释:
稀疏激活:MoE架构通过稀疏激活专家模型,使得模型在处理多任务时具有更高的效率和灵活性。 低训练成本:LoRA结构的应用大幅降低了模型的训练成本,同时保持了较高的性能。 性能提升:在多个基准测试中,Awaker2.5-VL的表现优于现有模型,证明了其有效性。
现有对比:
现有的多模态大语言模型如BLIP2、MiniGPT-4和LLaVA等,通常采用简单的混合训练策略,无法有效解决多任务冲突问题。Awaker2.5-VL通过MoE架构和LoRA结构的结合,提供了一种更为高效和稳定的解决方案。
理论基础讨论:
Awaker2.5-VL的MoE架构基于Mixture of Experts理论,通过稀疏激活和专家模型的引入,实现了对多任务的有效处理。同时,LoRA结构的应用基于低秩适应理论,通过减少参数的更新范围,显著降低了模型的训练成本。
实验设计与结果分析
实验描述:
本文在MME-RealWorld和MMBench两个最新的多模态大模型基准上进行了评估。实验数据集包括约1200万条数据,涵盖英语和中文两种语言。
结果分析:
MME-RealWorld基准:Awaker2.5-VL在中文和英文数据集上的总体得分、感知得分和推理得分均排名第一,表现优于所有其他模型。 MMBench基准:Awaker2.5-VL在中文和英文数据集上的总体得分分别排名第7和第9,表现优于参数规模相似的其他模型。
基准对比:
Awaker2.5-VL在多个基准测试中表现出色,尤其是在中文场景下,总体得分比基础模型Qwen2-VL-7B-Instruct提高了5分,感知任务提高了6分,推理任务提高了3分。
多场景表现:
Awaker2.5-VL在不同语言和任务场景下的表现均表现出色,证明了其在多模态任务中的广泛适用性和有效性。
结论与展望
贡献总结:
本文提出了一种基于MoE架构的多模态大语言模型Awaker2.5-VL,通过稀疏激活专家模型和LoRA结构的应用,有效解决了多任务冲突问题,并在多个基准测试中取得了优异的成绩。
局限分析:
路由表示的局限:当前的路由表示基于ViT和LLM的嵌入层,对于文本提示的表示能力有限。 MoE应用的局限:MoE模型目前仅应用于LLM侧,未来可以进一步探索在ViT侧的应用。
方法展望:
改进路由表示:未来将探索更适合的提示表示方法,以提高路由性能。 扩展MoE应用:未来将进一步研究MoE模型在ViT侧的应用,以提升模型的整体性能。