移动应用与视频理解:轻量级,多模态手机控制;视频理解,token压缩
Lightweight Neural App Control
2024-10-23|Huawei Noah’s Ark Lab, UCL|🔺7
http://arxiv.org/abs/2410.17883v1
https://huggingface.co/papers/2410.17883
研究背景与意义
在智能手机的日常使用中,用户常常需要通过各种应用程序完成复杂的任务。当前的应用程序智能体(App Agents)在执行任务时面临着计算资源有限的问题,尤其是在移动设备上。传统的方法依赖于大型的基础模型(Foundation Models),这些模型虽然功能强大,但由于其庞大的计算需求和高昂的使用成本,难以在移动设备上持续运行。因此,针对这一挑战,本文提出了一种新的架构——轻量级多模态应用控制(LiMAC),旨在优化移动设备上的应用程序交互和控制。
LiMAC通过引入小型的动作Transformer(Action Transformer, AcT)和经过微调的视觉-语言模型(Vision-Language Model, VLM),实现了高效的实时决策和任务执行。这种架构不仅能显著提高任务执行的准确性,还能在保持较低计算负担的同时,提升响应速度。通过对两个开源移动控制数据集的评估,LiMAC在多个基准上展现了优越的性能,显示出其在移动设备应用程序控制领域的广泛应用潜力。
研究方法与创新
本研究的核心创新在于提出了一种结合轻量级Transformer和视觉-语言模型的混合架构。具体而言,LiMAC的工作流程包括以下几个关键步骤:
目标和状态处理:用户的文本目标和手机当前状态被输入到AcT中,AcT负责预测所需的操作类型。 动作类型预测:AcT通过分析当前的用户界面(UI)状态和用户的目标,预测出用户希望执行的操作类型,例如点击、输入文本或打开应用等。 复杂任务处理:对于需要自然语言理解的复杂任务,LiMAC会调用微调后的VLM生成相应的文本内容,从而确保任务的顺利完成。 点击目标选择:在处理点击操作时,LiMAC采用了一种对比学习的方法,通过计算UI元素之间的相似度来选择最合适的目标元素。
通过这些步骤,LiMAC不仅提高了任务执行的速度(平均速度提升至30倍),还在准确性上实现了显著提升(相较于传统方法提升了42%)。这种架构的设计使得LiMAC在资源受限的移动环境中依然能够有效地执行复杂的用户指令。
实验设计与结果分析
本文使用了两个开源移动控制数据集进行实验评估:Android Control和Android-in-the-Wild(AitW)。这些数据集包含了丰富的用户交互示例,为LiMAC的训练和评估提供了坚实的基础。
实验结果显示,在Android Control数据集上,LiMAC在任务执行的整体准确性上达到了72.2%,显著高于其他基准模型。同时,LiMAC在AitW数据集上的表现也相对优越,展示了其在不同场景下的适应性和泛化能力。通过对比不同模型的平均推理时间,LiMAC的推理时间显著低于传统的基于大型模型的方法,表明其在实际应用中的高效性。
结论与展望
LiMAC作为一种新型的轻量级应用控制框架,成功地解决了移动设备上应用程序控制的效率和准确性问题。通过结合小型Transformer和视觉-语言模型,LiMAC在保证性能的同时,降低了计算资源的需求。未来的研究可以集中在进一步优化模型的性能,例如通过在线学习技术提升模型在复杂任务中的表现。此外,LiMAC的架构也为其他领域的智能代理提供了新的思路和方法,具有广泛的应用前景。
LongVU: Spatiotemporal Adaptive Compression for Long Video-Language Understanding
2024-10-22|Meta AI, KAUST, Korea U|🔺6
http://arxiv.org/abs/2410.17434v1
https://huggingface.co/papers/2410.17434
https://vision-cair.github.io/LongVU
研究背景与意义
在多模态大语言模型(MLLMs)领域,尽管已经取得了显著进展,但处理长视频的能力仍然是一个重大挑战。传统的多模态模型在处理长视频时面临着上下文长度的限制,通常无法有效处理超过几分钟的视频内容。长时间视频中的信息量巨大,尤其是当每帧图像需要数百个标记(tokens)来表示时,处理一个小时的视频可能需要超过20万个标记,这超出了大多数现有模型的处理能力。因此,如何在保持视觉细节的同时有效压缩视频标记,成为了当前研究的重要课题。
本研究提出了一种名为LongVU的时空自适应压缩机制,旨在通过减少视频标记的数量来解决这一问题,同时尽可能保留视频的视觉细节。该方法基于跨模态查询和帧间依赖关系的利用,能够有效地减少视频中的时间和空间冗余,提高对长视频的理解能力。通过这一创新,LongVU在多个视频理解基准测试中表现优异,尤其是在处理长达一小时的视频理解任务时,展现出显著的优势。
研究方法与创新
LongVU的核心创新在于其时空自适应压缩策略,该策略分为三个主要步骤:
帧特征提取与时间压缩:使用DINOv2模型提取每帧的特征,并通过计算相似度来识别并移除冗余帧。这一过程显著减少了视频中的时间冗余,使得剩余的帧数量减少约50%。
跨模态查询选择性特征减少:在提取到的帧特征中,使用文本查询来选择性保留与文本相关的帧的完整标记,而对其他帧进行空间池化,降低其分辨率。这种方法确保了在给定的上下文长度内,保留了重要的视觉信息。
空间标记压缩:在某些情况下,经过选择性特征减少后,仍可能超过上下文长度限制。此时,通过滑动窗口机制进一步压缩空间标记,保留每个窗口中的第一个帧的完整标记,其他与其相似的帧则被剪除,从而有效减少了标记数量。
通过以上三个步骤,LongVU能够在8k的上下文长度内处理长达一小时的视频,且在多个视频理解基准测试中超越了现有的多模态模型。
实验设计与结果分析
本研究在多个视频理解基准上进行了广泛的实验,包括EgoSchema、MVBench、VideoMME和MLVU。实验结果表明,LongVU在视频理解任务中表现优异,尤其在处理长视频时,显著优于其他开源视频LLM模型。例如,在VideoMME基准上,LongVU的准确率比LLaVA-OneVision高出约5%。此外,LongVU在使用轻量级LLM(Llama3.2-3B)时,仍能保持优异的性能,进一步展示了其在视频理解任务中的潜力。
量化结果显示,LongVU在EgoSchema、MVBench和MLVU等基准上的整体表现均优于现有模型,验证了其方法的有效性。特别是在长视频子集上,LongVU的表现提升尤为显著,表明其在长视频理解方面的独特优势。
结论与展望
LongVU通过提出时空自适应压缩机制,成功解决了长视频理解中的标记处理问题,显著提高了模型在长视频理解任务中的表现。未来的研究可以考虑将图像、视频和多图像数据结合,以进一步提升模型在多模态任务中的性能。LongVU的创新为视频语言理解的研究提供了新的视角和方法,具有广泛的应用潜力。