10.25-5|移动应用与视频理解：轻量级，多模态手机控制；视频理解，token压缩

文摘 2024-10-25 17:18 西藏

移动应用与视频理解：轻量级，多模态手机控制；视频理解，token压缩

Lightweight Neural App Control

2024-10-23｜Huawei Noah’s Ark Lab, UCL|🔺7

http://arxiv.org/abs/2410.17883v1
https://huggingface.co/papers/2410.17883

研究背景与意义

在智能手机的日常使用中，用户常常需要通过各种应用程序完成复杂的任务。当前的应用程序智能体（App Agents）在执行任务时面临着计算资源有限的问题，尤其是在移动设备上。传统的方法依赖于大型的基础模型（Foundation Models），这些模型虽然功能强大，但由于其庞大的计算需求和高昂的使用成本，难以在移动设备上持续运行。因此，针对这一挑战，本文提出了一种新的架构——轻量级多模态应用控制（LiMAC），旨在优化移动设备上的应用程序交互和控制。

LiMAC通过引入小型的动作Transformer（Action Transformer, AcT）和经过微调的视觉-语言模型（Vision-Language Model, VLM），实现了高效的实时决策和任务执行。这种架构不仅能显著提高任务执行的准确性，还能在保持较低计算负担的同时，提升响应速度。通过对两个开源移动控制数据集的评估，LiMAC在多个基准上展现了优越的性能，显示出其在移动设备应用程序控制领域的广泛应用潜力。

研究方法与创新

本研究的核心创新在于提出了一种结合轻量级Transformer和视觉-语言模型的混合架构。具体而言，LiMAC的工作流程包括以下几个关键步骤：

目标和状态处理：用户的文本目标和手机当前状态被输入到AcT中，AcT负责预测所需的操作类型。
动作类型预测：AcT通过分析当前的用户界面（UI）状态和用户的目标，预测出用户希望执行的操作类型，例如点击、输入文本或打开应用等。
复杂任务处理：对于需要自然语言理解的复杂任务，LiMAC会调用微调后的VLM生成相应的文本内容，从而确保任务的顺利完成。
点击目标选择：在处理点击操作时，LiMAC采用了一种对比学习的方法，通过计算UI元素之间的相似度来选择最合适的目标元素。

通过这些步骤，LiMAC不仅提高了任务执行的速度（平均速度提升至30倍），还在准确性上实现了显著提升（相较于传统方法提升了42%）。这种架构的设计使得LiMAC在资源受限的移动环境中依然能够有效地执行复杂的用户指令。

实验设计与结果分析

本文使用了两个开源移动控制数据集进行实验评估：Android Control和Android-in-the-Wild（AitW）。这些数据集包含了丰富的用户交互示例，为LiMAC的训练和评估提供了坚实的基础。

实验结果显示，在Android Control数据集上，LiMAC在任务执行的整体准确性上达到了72.2%，显著高于其他基准模型。同时，LiMAC在AitW数据集上的表现也相对优越，展示了其在不同场景下的适应性和泛化能力。通过对比不同模型的平均推理时间，LiMAC的推理时间显著低于传统的基于大型模型的方法，表明其在实际应用中的高效性。

结论与展望

LiMAC作为一种新型的轻量级应用控制框架，成功地解决了移动设备上应用程序控制的效率和准确性问题。通过结合小型Transformer和视觉-语言模型，LiMAC在保证性能的同时，降低了计算资源的需求。未来的研究可以集中在进一步优化模型的性能，例如通过在线学习技术提升模型在复杂任务中的表现。此外，LiMAC的架构也为其他领域的智能代理提供了新的思路和方法，具有广泛的应用前景。

LongVU: Spatiotemporal Adaptive Compression for Long Video-Language Understanding

2024-10-22｜Meta AI, KAUST, Korea U|🔺6

http://arxiv.org/abs/2410.17434v1
https://huggingface.co/papers/2410.17434
https://vision-cair.github.io/LongVU

研究背景与意义

在多模态大语言模型（MLLMs）领域，尽管已经取得了显著进展，但处理长视频的能力仍然是一个重大挑战。传统的多模态模型在处理长视频时面临着上下文长度的限制，通常无法有效处理超过几分钟的视频内容。长时间视频中的信息量巨大，尤其是当每帧图像需要数百个标记（tokens）来表示时，处理一个小时的视频可能需要超过20万个标记，这超出了大多数现有模型的处理能力。因此，如何在保持视觉细节的同时有效压缩视频标记，成为了当前研究的重要课题。

本研究提出了一种名为LongVU的时空自适应压缩机制，旨在通过减少视频标记的数量来解决这一问题，同时尽可能保留视频的视觉细节。该方法基于跨模态查询和帧间依赖关系的利用，能够有效地减少视频中的时间和空间冗余，提高对长视频的理解能力。通过这一创新，LongVU在多个视频理解基准测试中表现优异，尤其是在处理长达一小时的视频理解任务时，展现出显著的优势。

研究方法与创新

LongVU的核心创新在于其时空自适应压缩策略，该策略分为三个主要步骤：

帧特征提取与时间压缩：使用DINOv2模型提取每帧的特征，并通过计算相似度来识别并移除冗余帧。这一过程显著减少了视频中的时间冗余，使得剩余的帧数量减少约50%。
跨模态查询选择性特征减少：在提取到的帧特征中，使用文本查询来选择性保留与文本相关的帧的完整标记，而对其他帧进行空间池化，降低其分辨率。这种方法确保了在给定的上下文长度内，保留了重要的视觉信息。
空间标记压缩：在某些情况下，经过选择性特征减少后，仍可能超过上下文长度限制。此时，通过滑动窗口机制进一步压缩空间标记，保留每个窗口中的第一个帧的完整标记，其他与其相似的帧则被剪除，从而有效减少了标记数量。

通过以上三个步骤，LongVU能够在8k的上下文长度内处理长达一小时的视频，且在多个视频理解基准测试中超越了现有的多模态模型。

实验设计与结果分析

本研究在多个视频理解基准上进行了广泛的实验，包括EgoSchema、MVBench、VideoMME和MLVU。实验结果表明，LongVU在视频理解任务中表现优异，尤其在处理长视频时，显著优于其他开源视频LLM模型。例如，在VideoMME基准上，LongVU的准确率比LLaVA-OneVision高出约5%。此外，LongVU在使用轻量级LLM（Llama3.2-3B）时，仍能保持优异的性能，进一步展示了其在视频理解任务中的潜力。

量化结果显示，LongVU在EgoSchema、MVBench和MLVU等基准上的整体表现均优于现有模型，验证了其方法的有效性。特别是在长视频子集上，LongVU的表现提升尤为显著，表明其在长视频理解方面的独特优势。

结论与展望

LongVU通过提出时空自适应压缩机制，成功解决了长视频理解中的标记处理问题，显著提高了模型在长视频理解任务中的表现。未来的研究可以考虑将图像、视频和多图像数据结合，以进一步提升模型在多模态任务中的性能。LongVU的创新为视频语言理解的研究提供了新的视角和方法，具有广泛的应用潜力。

AI研究前瞻

欢迎来到AI研究前瞻 - 您的人工智能研究前沿指南！我们致力于为您提供最新、最前沿的AI研究论文解读和分析，并以通俗易懂的方式呈现其核心思想和潜在影响。一起探索AI的无限可能,共同见证人工智能改变世界的每一步!

1.29-2|通用的无模型强化学习，MR.Q，状态-动作嵌入学习

1.29-3|时间混合模块代替自注意力，RWKV-7注意力，注意力蒸馏；参数 vs FLOPs，MOE模型的最优稀疏度缩放定律

1.29-4|iFormer，结合CNN和ViTs轻量化特征提取网络；VLMs视觉偏见，人类与模型感知对齐；免引导的视觉生成推理

1.29-5|issue测试基准，大模型代码编辑效率，测试时间效率

1.28-1|高挑战性人类水平的多模态测试基准；链式检索增强生成，迭代检索链；MLLM基准冗余，基准设计；LLM批判能力封闭基准

1.28-2|可重光照和可驱动的全身头像；遥感图像像素级感知；提高VLLM三维感知理解能力；基于长视频的VTON

1.28-3|一体化自适应图像恢复框架，去噪，去模糊和去雨；去噪作为适应的图像恢复框架

1.28-4|医疗记录问答，隐私保护，语义检索

1.28-5|强化学习+Transform，上下文中进行强化学习，通用问题求解器

1.25-1|多智能体长距离路径规划，共享递归记忆

1.25-2|高效注意力差异化QKV键值压缩；过程与结果二元反馈的推理奖励模型

1.25-3|人类反馈偏好对齐的视频生成；时间偏好优化，提升时间理解能力；多模态视频理解；个人身份保留的个性化视频生成

1.25-4|COT用于图像生成；文生图超全面评估；角色一致的图片生成

1.25-5|评估VLLM从视频中获取知识的能力；扩散模型进行视频物体对象移除

1.25-6|药物发现与幻觉：幻觉提高了LLM药物发现能力，SMILES字符串

1.24-1|DeepSeek-R1技术报告，使用强化学习进行自我演进；Kimi k1.5技术报告；长度协调微调，长推理链优化

1.24-2|多模态与图像视频理解：VideoLLaMA 3

1.24-3|虚拟3D空间端到端的影视自动化，多智能体框架；自动化对话性能评估框架，多智能体进行模型性能评估

1.24-4|测试时偏好优化，通过文本反馈调整模型输出；推理时候选答案选择，成对奖励模型

1.24-5|MOE模型自主路由选择，自动专家模型

1.23-1|通过反思轨迹修正来合成训练数据进行自训练；GUI智能体框架；手机智能体框架，持续学习；环境交互学习智能体

1.23-2|多概念个性化图片生成；扩散模型进行高质量3D资产合成；长视频单目深度估计一致性；T2V通过结构化噪声控制运动

1.23-3|MOE模型训练，全局Batch的负载均衡损失；专家级多学科视频理解基准；多模态奖励模型

1.23-4|o系列推理语言模型蓝图，快速原型设计与开发

1.22-1|生成式游戏引擎，场景泛化，动作可控性，Minecraft数据集

1.22-2|知识学习与视频生成：从未标注视频中学习围棋与机器人控制，LDM模型学习

1.22-3|版权保护与水印技术：融合LORA层的白盒水印，版权保护

1.21-1|进化搜索策略，提高LLM推理深度；学术搜索智能体，RL+PPO；LLM回答置信度

1.21-2|2D交互式卡通角色，文本生成live2D；人像图片动画化，提升背景动态细节；文本驱动的4D可编辑头像

1.21-3|阿拉伯语MLLM医疗能力研究，跨语言模型能力迁移

1.21-4|高保真语音超分统一框架，GAN与Transformer-CNN生成器结合；复杂功能调用评估基准

1.18-1|扩展推理时间提升性能，噪声搜索；扩展与反思写作框架，提高内容深度；大模型强化推理综述

1.18-2|基于Transformer的视觉Tokenizer；高保真的3D资产，模型与纹理生成；多主体个性化T2I

1.18-3|提高医疗问询信息获取质量，医患互动策略；无污染的多语言代码评估基准

1.18-4|高效频域动作Tokenization，减少连续动作相关性；基于反思模拟的强化学习，高层级价值观对齐

1.18-5|扩散模型进行重打光；T2V物理规律学习和理解能力研究，通过视频学习物理规律

1.17-1|多模态文档检索，文档布局分析；MLLM做艺术美学系统评估；通用符号音乐生成框架

1.17-2|无边界4D城市场景生成；视频生成跨层信息整合，提高时间，空间一致性；无调参的长视频生成，跨帧注意力主体对齐

1.17-3|参数倒置图像金字塔网络，多层信息交互的视觉感知；跨模态匹配；统一视觉信息匹配框架

1.17-4|开放数据集的最佳实践；隐私推断，可信模型隐私环境

1.17-5|多模态传感，异质对齐，机器人操作

1.16-1|MiniMax-01，4M超长上下文，性能达到先进水平，开源多模态大模型，Lightning 注意力

1.16-2|对抗性扩散后训练，单步视频生成；视频区域级理解，潜在区域标记；开放数据训练高性能文生图；SVD进行图片交互式编辑

1.16-3|文生图填充token分析；简单高效的多实例生成；大模型表示和生成概念，特征解释，可解释性分析

1.16-4|高效卡通线稿上色；使用大模型进行单细胞分析，RNA序列理解；LLM扑克游戏推理与策略评测基准

1.16-5|幻觉检测基准，幻觉错误分类与自动验证

1.15-1|数学推理过程奖励数据合成方法；张量乘积注意力；自适应大型语言模型，动态推理；峰感知梯度裁剪；参考模型进行数据选择

1.15-2|长叙事视频导演和生成；多模态无缝语音交互；生物医学多模态数据合成；高质量3D对象中心数据集

1.15-4|多层级网页遍历检索问答基准，网站浏览智能体，检索增强生成

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉