11.20-1|移动设备多模态大模型，vivo，BlueLM-V-3B；移动设备推理能力测试；MOE缓解多任务混合冲突

文摘 2024-11-20 08:15 浙江

移动设备上的多模态大语言模型优化：移动设备多模态大模型，vivo，BlueLM-V-3B；移动设备推理能力测试；MOE缓解多任务混合冲突

BlueLM-V-3B: Algorithm and System Co-Design for Multimodal Large Language Models on Mobile Devices

2024-11-16｜vivo, CUHK MMLab|🔺28

http://arxiv.org/abs/2411.10640v1
https://huggingface.co/papers/2411.10640

研究背景与意义

多模态大语言模型（MLLMs）近年来在提升日常沟通、学习和问题解决能力方面展现出巨大潜力。随着智能手机的普及，它们成为部署MLLMs的理想平台，能够无缝集成到日常任务中。然而，在手机上部署MLLMs面临内存和计算能力有限的挑战，这使得在无大量优化的情况下实现流畅和实时处理变得困难。

本研究提出BlueLM-V-3B，这是一种专为高效部署MLLMs于移动平台而设计的算法和系统协同设计方案。通过重新设计动态分辨率方案和实现硬件感知的系统优化，本研究旨在优化手机上的模型推理效率。BlueLM-V-3B具有以下关键特点：（1）小尺寸：语言模型参数为2.7B，视觉编码器参数为400M。（2）高速度：在MediaTek Dimensity 9300处理器上以4-bit LLM权重量化实现24.4 token/s的生成速度。（3）强性能：在OpenCompass基准上，以≤ 4B参数模型的最高平均得分66.1超越了一系列参数更大的模型。

研究方法与创新

动态图像分辨率处理

传统的ViT模型直接调整输入图像到固定分辨率，这不适合高分辨率图像处理。为此，BlueLM-V-3B采用动态分辨率设计，通过自适应处理不同分辨率的图像来捕捉更多细节。然而，主流MLLMs的动态分辨率策略会导致多次推理和过多的图像标记，影响图像处理速度和整体延迟。

放松的纵横比匹配方法：为了解决上述问题，本研究提出一种放松的纵横比匹配方法，有效减少图像标记数量而不牺牲模型精度。通过选择更小的纵横比，我们能够减少图像的放大程度，从而提高训练和部署效率。

系统优化

批量图像编码：为了加速图像编码，设计了批量图像编码与流水线并行处理，结合动态分辨率处理器生成的图像块。在MediaTek Dimensity 9300处理器上，以2.2GB的内存需求，可以在约2.1秒内编码分辨率为768×1536的图像。

流水线并行处理：在图像块编码过程中，实现了SigLIP视觉嵌入模块中的Conv2D层和视觉Transformer块的流水线并行处理，以提高推理速度。

分块计算：为了应对NPU在处理长输入标记时的低效，采用标记下采样模块减少部署复杂性，并实现分块计算方法，每次并行处理128个输入标记。

理论基础

本研究基于以下理论：通过动态分辨率处理减少图像标记数量，通过批量编码和流水线并行处理提高推理速度，通过混合精度量化和分块计算实现高效部署。

实验设计与结果分析

实验设计

在实验中，我们对不同动态分辨率方法进行了比较，验证了放松纵横比匹配方法在部署效率和基准精度上的改进。使用LLaVA 558k数据集进行预训练，LLaVA 665k数据集进行微调。

结果分析

部署效率：统计分析显示，放松纵横比匹配方法显著提高了推理效率，减少了图像标记数量，从而降低了NPU上的推理复杂度。

基准精度：在OpenCompass基准测试中，BlueLM-V-3B在≤ 4B参数模型中取得了SOTA性能，在8个任务中的4个任务上达到最佳性能，平均性能排名第二。文本为中心的基准测试中，BlueLM-V-3B在TextVQA和DocVQA上表现出色，并显著增强了多语言能力。

结论与展望

本研究提出的BlueLM-V-3B在移动平台上实现了高效的MLLMs部署，通过算法和系统协同设计，显著提高了模型性能和部署效率。未来的工作将专注于优化BlueLM-V-3B的可扩展性，以适应更广泛的移动设备，并探索先进的算法以进一步提升性能和用户体验。

SlimLM: An Efficient Small Language Model for On-Device Document Assistance

2024-11-15｜AU, Georgia Tech, Adobe Research|🔺8

http://arxiv.org/abs/2411.09944v1
https://huggingface.co/papers/2411.09944
anonymous.slimlm

研究背景与意义

随着移动设备在消费技术中的重要性日益增加，针对移动设备的小型语言模型（Small Language Models, SLMs）逐渐成为研究热点。尽管已有如Qwen-2、SmolLM、Gemini Nano和Apple Intelligence等模型展示了在移动设备部署的潜力，但它们在真实场景中的性能和应用仍未得到充分探索。

本文旨在填补这一研究空白，通过提出SlimLM系列模型，系统研究SLMs在高端智能手机（如Samsung Galaxy S24）上的性能和应用，解决模型大小、推理时间、上下文长度等关键问题。研究不仅为未来的移动设备语言模型研究提供了基准，还通过本地设备处理增强了用户隐私保护，并减少了服务器成本。

研究方法与创新

背景与动机当前，尽管大型语言模型（LLMs）在人工智能领域取得了显著进展，但其庞大的模型尺寸限制了在资源受限设备（如智能手机）上的部署。相反，SLMs专注于在资源受限环境下提供高效的语言处理能力。本文通过构建SlimLM模型，探索在移动设备上实现高效文档处理的可能性。

方法概述本文采用三步法来开发和部署适用于移动设备文档处理任务的SlimLM模型：

模型尺寸与推理时间优化：通过在Samsung Galaxy S24上进行广泛实验，确定模型尺寸（从125M到7B参数）、上下文长度和推理时间之间的最佳权衡点。
数据集构建：构建了DocAssist数据集，该数据集包含约83,000个文档，专门用于微调模型以增强其文档处理能力。数据集涵盖了摘要、问题建议和问题回答三个关键任务。
模型训练与微调：基于SlimPajama-627B数据集预训练SlimLM模型，并在DocAssist数据集上进行微调，以提升其在文档处理任务上的表现。

技术创新

模型架构优化：基于MPT架构，通过调整层数和头数来优化模型，以适应文档处理任务。
数据标注：采用GPT-4o-mini生成高质量的标注数据，涵盖SUMM、QS和QA三个关键任务。
实验设计：通过对比不同模型尺寸、上下文长度和推理时间的实验结果，确定最佳模型配置。

对比现有方法与现有的SLMs（如SmolLM、Qwen2）相比，SlimLM在模型尺寸和性能之间找到了更好的平衡。实验结果表明，SlimLM在相似模型尺寸下表现出更优或相当的性能。

实验设计与结果分析

实验设置本文在Samsung Galaxy S24上进行了广泛的实验，评估了SlimLM模型在文档处理任务上的表现。实验采用了一系列评价指标，包括BLEU、ROUGE、Semantic Textual Similarity（STS）和GEval等，以全面评估模型的性能。

实验结果

模型性能对比：SlimLM模型在相似模型尺寸下表现出优于或相当于现有SLMs的性能。例如，SlimLM-125M在摘要任务上优于SmolLM-135M-Instruct，SlimLM-350M在多个任务上超越SmolLM-360M-Instruct。
扩展性：随着模型尺寸的增加，SlimLM在各项任务上的表现持续提升，显示出良好的扩展性。最大模型SlimLM-1B接近于Qwen2-1.5B-Instruct的性能，表明SlimLM在较小模型尺寸下实现了竞争性结果。
实际应用：实验结果验证了SlimLM在实际移动设备上的高效性能，特别是在处理长文档输入时表现出色。

结果讨论实验结果表明，SlimLM在模型尺寸、上下文长度和推理时间之间找到了最佳平衡，能够在高端智能手机上实现高效的文档处理。此外，SlimLM在多个任务上的表现优于现有SLMs，显示出其在移动设备文档处理任务中的潜力。

结论与展望

主要贡献

SlimLM模型：提出了一系列适用于移动设备文档处理任务的SLMs，通过广泛实验确定了最佳模型配置。
DocAssist数据集：构建了一个专门用于文档处理任务的大规模数据集，为模型微调提供了丰富的数据支持。
实验基准：通过对比实验，为未来移动设备语言模型研究提供了基准和参考。

局限性与未来工作尽管SlimLM在多个任务上表现出色，但仍存在一些局限性，如模型在极大尺寸下的内存约束问题。未来的工作将专注于进一步优化模型架构，提升其在更大规模数据集上的性能，并探索更多移动设备上的实际应用场景。

未来展望SlimLM的成功展示了SLMs在移动设备上的广阔应用前景。未来，随着模型架构和数据集的进一步优化，SLMs有望在更多实际应用中发挥重要作用，为用户提供更高效、更隐私保护的文档处理服务。

Awaker2.5-VL: Stably Scaling MLLMs with Parameter-Efficient Mixture of Experts

2024-11-16｜Metabrain AGI Lab, GSAI|🔺7

http://arxiv.org/abs/2411.10669v1
https://huggingface.co/papers/2411.10669
https://github.com/MetabrainAGI/Awaker

研究背景与意义

背景概述：
随着多模态大语言模型（MLLM）的快速发展，诸如BLIP2、MiniGPT-4和LLaVA等模型在图像描述、视觉问答等任务中展现了卓越的性能。然而，由于不同任务的数据表示和分布存在显著差异，简单地将多任务数据混合训练通常会导致“多任务冲突”问题，从而降低模型在各个任务上的表现。

问题定义：
本文旨在解决多模态大语言模型中的“多任务冲突”问题，提升模型在多任务场景下的表现。

现状概述：
现有的多模态大语言模型在处理多任务时，通常无法有效区分不同任务的特性，导致模型在各类任务上的性能下降。

挑战指出：
如何设计一个有效的架构，既能处理多模态数据，又能解决多任务冲突，是当前研究的一大挑战。

目标阐明：
本文提出了Awaker2.5-VL模型，采用Mixture of Experts（MoE）架构，通过多个稀疏激活的专家模型来处理不同任务，从而缓解多任务冲突问题。

研究方法与创新

技术描述：
Awaker2.5-VL采用了Mixture of Experts（MoE）架构，该架构由多个专家模型和一个门控网络组成。每个专家模型专注于处理特定任务，门控网络自动控制专家的激活和停用。此外，每个专家被设计为低秩适应（LoRA）结构，以加速训练和推理。

创新突出：

MoE架构的引入：Awaker2.5-VL通过MoE架构，实现了多任务的稀疏激活处理，有效缓解了多任务冲突问题。
LoRA结构的应用：每个专家模型采用LoRA结构，显著降低了模型的训练成本。
稳定的路由策略：设计了一种实例级别的路由策略，使得每个实例内的所有token激活相同的专家，从而提高了模型的稳定性和性能。

优势解释：

稀疏激活：MoE架构通过稀疏激活专家模型，使得模型在处理多任务时具有更高的效率和灵活性。
低训练成本：LoRA结构的应用大幅降低了模型的训练成本，同时保持了较高的性能。
性能提升：在多个基准测试中，Awaker2.5-VL的表现优于现有模型，证明了其有效性。

现有对比：
现有的多模态大语言模型如BLIP2、MiniGPT-4和LLaVA等，通常采用简单的混合训练策略，无法有效解决多任务冲突问题。Awaker2.5-VL通过MoE架构和LoRA结构的结合，提供了一种更为高效和稳定的解决方案。

理论基础讨论：
Awaker2.5-VL的MoE架构基于Mixture of Experts理论，通过稀疏激活和专家模型的引入，实现了对多任务的有效处理。同时，LoRA结构的应用基于低秩适应理论，通过减少参数的更新范围，显著降低了模型的训练成本。

实验设计与结果分析

实验描述：
本文在MME-RealWorld和MMBench两个最新的多模态大模型基准上进行了评估。实验数据集包括约1200万条数据，涵盖英语和中文两种语言。

结果分析：

MME-RealWorld基准：Awaker2.5-VL在中文和英文数据集上的总体得分、感知得分和推理得分均排名第一，表现优于所有其他模型。
MMBench基准：Awaker2.5-VL在中文和英文数据集上的总体得分分别排名第7和第9，表现优于参数规模相似的其他模型。

基准对比：
Awaker2.5-VL在多个基准测试中表现出色，尤其是在中文场景下，总体得分比基础模型Qwen2-VL-7B-Instruct提高了5分，感知任务提高了6分，推理任务提高了3分。

多场景表现：
Awaker2.5-VL在不同语言和任务场景下的表现均表现出色，证明了其在多模态任务中的广泛适用性和有效性。

结论与展望

贡献总结：
本文提出了一种基于MoE架构的多模态大语言模型Awaker2.5-VL，通过稀疏激活专家模型和LoRA结构的应用，有效解决了多任务冲突问题，并在多个基准测试中取得了优异的成绩。

局限分析：

路由表示的局限：当前的路由表示基于ViT和LLM的嵌入层，对于文本提示的表示能力有限。
MoE应用的局限：MoE模型目前仅应用于LLM侧，未来可以进一步探索在ViT侧的应用。

方法展望：

改进路由表示：未来将探索更适合的提示表示方法，以提高路由性能。
扩展MoE应用：未来将进一步研究MoE模型在ViT侧的应用，以提升模型的整体性能。

AI研究前瞻

欢迎来到AI研究前瞻 - 您的人工智能研究前沿指南！我们致力于为您提供最新、最前沿的AI研究论文解读和分析，并以通俗易懂的方式呈现其核心思想和潜在影响。一起探索AI的无限可能,共同见证人工智能改变世界的每一步!

11.30-2|自动T2I，prompt生成，模型自动选择，参数自动生成

11.30-3|VTOFF，虚拟试穿，高保真重建

11.30-4|长文本多领域关键词提取；大规模泛非洲英语多专业医学问答数据集

11.30-5|无位姿信息的3DGS重建，自监督

11.29-1|ROICtrl，多实例生成，区域控制；

11.29-2|单目视频生成4D场景；不同视觉层次的高保真文本-3D数据集；3D凸点云，3D表示；3D角色绑定、蒙皮

11.29-3|交错文本-图像生成评估，场景图结构，一致性评估

11.29-4|大模型GUI自动化、GUI智能体综述，人机交互

11.29-5|无需微调的个性化图像生成；VAR解码加速；身份一致性保留视频生成；自动驾驶生成式扩散决策；T2I图像细节层次控制

11.28-1|GUI视觉智能体，操作自动化；草图绘画过程模拟；图像区域感知，区域密集描述

11.28-2|长序列高效推理注意力；免训练多模态无效 token 剔除

11.28-3|UV空间的3D纹理生成；自监督点云表示学习；3D对象生成与理解

11.28-4|多模态大语言模型评估综述；视觉-语言生成奖励模型评估

11.28-5|使用视频生成完成图像编辑；图片对象插入，身份保持，在插入时进行编辑

11.27-1|材质，纹理生成，自由光照高保真渲染；3DGS生成与编辑

11.27-2|T2I零样本ID保持；视觉token因式量化

11.27-3|LLM作为评估者综述；跨模态知识迁移；多头MOE；从GPT-O1中提取长推理链

11.27-4|医疗多模态模型；多模态推荐系统

11.27-5|RAG参与故事视频生成，高一致性；扩散模型ID保持，图像编辑

11.26-1|TÜLU 3，开放后训练全过程；LLM越狱，数据无关的守卫

11.26-2|SNR采样器，T2I风格控制；DiT 图像生成控制；高质量VQA数据集构建框架；降低长视频token数量

11.26-3|SAE解构LLM多义神经元；用游戏评估VLLM复杂推理，空间理解与规划；基于SVD的新视角合成

11.26-4|面部年龄变换，面部衰老合成；机器人真实环境模仿学习与规划；云层分割

11.24-1|多模态混合偏好优化；长链多模态推理数据合成

11.24-2|自回归预训练，生成模型达到判别模型性能；Transformer和SSM头融合的小型语言模型；自动化文献检索和问答

11.24-3|DIT的不同层功能识别与图像编辑；基于DIT的复杂街景数据生成，自动驾驶

11.24-4|大规模、超稀疏内存层，推理加速；SAE实体识别，自我认知与幻觉和拒绝回答

11.24-5|Marco-o1，o1思路实验，蒙特卡罗树搜索，推理树微调；自然语言强化学习

11.24-6|低资源语言与Common Crawl数据集，自动抓取，适配器方法

11.22-1|SageAttention2，4-bit量化，硬件加速；注意力加速

11.22-2|人类感知的视频生成质量评估；文本与视频生成不一致的幻觉，错误分析与纠正

11.22-3|开放式视频分析竞技场，ELO评分；LLM智能体策略树预测

11.22-4|SAM2用于运动追踪；base64风格编码；RGBA图像生成，多层生成策略

11.22-5|BF16对RoPE负面影响，数值稳定性；不同数据分布的scaling laws

11.22-6|器官区域信息驱动的放射报告生成，多模态融合；

11.21-1|LLaMA训练数据集，高质量数据

11.21-2|连续值自回归图像生成，推测解码扩展到连续空间；增强Clip语义分割；感兴趣区域无参考图像质量评估

11.21-3|文本引导的草图动画；软体机器人转笔，自监督学习，手部模拟

11.21-4|AI安全测试，AI透明度；SUTRA分词器，印度语言分词器性能评估

11.15-1|长上下文推理自我改进，最小贝叶斯风险；特征级约束偏好优化，高效偏好优化

11.15-2|大规模第一人称视频数据集；可控动作的T2V生成

11.15-3|新版法语CamemBERT，更新知识；稀疏自编码器解释激活引导向量，大模型控制与调整

11.15-4|长结构，富有表现力符号音乐生成，多尺度注意机制

11.20-1|移动设备多模态大模型，vivo，BlueLM-V-3B；移动设备推理能力测试；MOE缓解多任务混合冲突

11.20-2|生成式世界探索，信念更新；参考视角视频生成；top-nσ采样策略，平衡准确多样；DiT缓存推理加速；视频高斯表示

11.20-3|：验证器工程，后训练范式，监督信号；从零训练的德语1B语言模型

11.20-4|Reranker模型的局限性；医学RAG评估框架

11.14-1|指令微调模型，更大模型悖论，兼容性调整奖励；校正流与自回归结果，多模态理解与生成；高质量图像文本描述数据集

11.14-2|SAMPart3D，分割3D物体不同结构；基于小波的紧凑 latent 编码方法，高压缩倍率表示

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉