12.7-2|VLLM代码生成，机器人开放世界时空约束故障检测；跨平台纯视觉GUI智能体

文摘 2024-12-07 13:39 西藏

机器人故障检测与GUI交互：VLLM代码生成，机器人开放世界时空约束故障检测；跨平台纯视觉GUI智能体

Code-as-Monitor: Constraint-aware Visual Programming for Reactive and Proactive Robotic Failure Detection

2024-12-05｜BUAA, PKU, BAAI, Galbot|🔺30

http://arxiv.org/abs/2412.04455v1
https://huggingface.co/papers/2412.04455
https://zhoues.github.io/Code-as-Monitor/

研究背景与意义

在当今复杂的机器人系统中，自动检测与预防开放世界故障至关重要。随着机器人在长时间任务中的应用需求不断增长，确保系统能够实时识别和应对意外故障变得愈发重要。传统的故障检测方法往往只能在故障发生后进行反应，无法有效预防可预见的故障。因此，本文提出了一个新颖的框架——Code-as-Monitor（CaM），旨在通过结合视觉语言模型（VLM）来实现开放世界的反应性和前瞻性故障检测。

CaM的核心在于将故障检测任务统一建模为时空约束满足问题，通过生成可执行的代码来实现实时监控。这种方法不仅提高了故障检测的准确性和效率，还能够在动态环境中处理复杂的长时间任务。通过对比现有方法，CaM在多个模拟器和真实场景中表现出更高的成功率和更短的执行时间，显示出其在实际应用中的潜力。

研究方法与创新

CaM的创新之处在于其综合利用了反应性和前瞻性故障检测的能力。具体而言，研究者们首先将任务定义为一组时空约束满足问题，利用VLM生成的代码对这些约束进行实时监控。该方法的几个关键部分包括：

约束元素的引入：通过将约束相关实体抽象为紧凑的几何元素，简化了监控过程。这种方法通过消除无关的几何和视觉细节，使得跟踪和评估变得更加高效。
实时监控模块：该模块能够实时跟踪元素并评估它们的时空动态。如果监控代码返回失败，系统将立即停止执行并提供反馈以进行重新规划。这种闭环系统的设计使得机器人能够在动态环境中自适应调整任务。
多视角数据处理：通过结合多个视角的图像数据，CaM能够更好地应对遮挡和环境变化，提高了故障检测的准确性。

实验结果表明，CaM在多个模拟环境和真实世界场景中的表现均优于现有的基线方法，尤其是在处理复杂的动态任务时。

实验设计与结果分析

为验证CaM的有效性，研究者们在三个模拟器（CLIPort、Omnigibson和RLBench）以及一个真实环境中进行了广泛的实验。实验主要包括：

任务设置：在每个环境中设计了多种任务，如堆叠、清扫和倒茶等，涵盖了不同类型的约束和干扰。
故障引入：故意在任务中引入各种干扰（如物体倾斜、抓取失败等），以测试CaM的故障检测能力。
性能评估：通过比较成功率、执行时间和额外的计算资源使用情况，评估不同方法的表现。

实验结果显示，CaM在成功率上比基线方法高出28.7%，并且在面临严重干扰时，执行时间减少了31.8%。此外，CaM能够在实时监控中有效识别和处理故障，展示了其在开放集故障检测中的广泛适用性。

结论与展望

本文提出的Code-as-Monitor框架为机器人系统中的故障检测提供了一种新的思路。通过将反应性和前瞻性故障检测整合在一个统一的框架内，CaM不仅提高了故障检测的准确性和实时性，还为复杂任务的执行提供了强大的支持。未来的研究可以进一步探索CaM在更复杂环境中的应用，以及如何将其与其他机器人控制策略结合，以实现更高效的长时间任务执行。此外，随着技术的发展，CaM也有潜力扩展到更多类型的机器人任务和应用场景中。

Aguvis: Unified Pure Vision Agents for Autonomous GUI Interaction

2024-12-05｜HKU, Salesforce|🔺23

http://arxiv.org/abs/2412.04454v1
https://huggingface.co/papers/2412.04454
https://aguvis-project.github.io/

研究背景与意义

在当今数字化时代，图形用户界面（GUIs）是人机交互的关键组成部分，然而，自动化GUIs操作的挑战仍然显著，主要由于视觉环境的复杂性和多样性。现有方法通常依赖于文本表示，这限制了模型的泛化能力和效率。AGUVIS的提出旨在通过纯视觉框架来克服这些限制。该研究的核心在于通过图像基础的观察和自然语言指令的结合，构建一个跨平台的自主GUI智能体。此框架不仅增强了模型的通用性，还通过整合明确的规划和推理，提升了其在复杂数字环境中自主导航和交互的能力。

研究方法与创新

AGUVIS采用了一种统一的纯视觉框架，显著提高了GUI智能体的泛化能力。研究中提出的创新包括：

统一的观察与行动空间：通过将视觉观察与自然语言指令结合，避免了依赖于不同平台的文本表示，从而提升了模型的训练效率和泛化能力。
两阶段训练过程：
- 第一阶段专注于GUI的基础理解与定位，使模型能够有效处理单一界面中的多重交互对象。
- 第二阶段则引入复杂的决策制定和推理过程，训练模型在多步骤任务中进行推理与规划。
大规模数据集构建：通过整合现有的GUI智能体轨迹，构建了一个涵盖多模态推理和定位的大规模数据集，支持模型在不同平台上的训练。

这些创新共同推动了AGUVIS在离线和在线任务中的表现，展示了其在自主执行复杂任务中的潜力。

实验设计与结果分析

实验设计涵盖了多种平台的GUI基准测试，包括离线和在线评估。结果显示，AGUVIS在多个任务中均超越了现有的最先进模型，具体表现为：

在GUI定位任务中，AGUVIS展现出卓越的性能，尤其是在多种平台上进行的评估中。
在离线任务的评估中，AGUVIS的步骤成功率显著高于基于文本的模型，表明其在复杂环境下的推理能力。
在线任务的测试结果表明，AGUVIS能够实时执行任务，且成功率高于竞争对手，表明其在实际应用中的有效性。

结论与展望

AGUVIS的研究展示了通过纯视觉框架构建自主GUI智能体的可能性，为未来的研究提供了开放的数据、模型和训练资源。尽管AGUVIS已展现出强大的能力，但仍存在进一步提升的空间，例如在更复杂的交互场景中优化推理机制和增强模型的适应性。未来的研究可以集中在如何提升模型的指令理解能力以及在多样化环境中的表现，以进一步推动自主智能体技术的发展。

AI研究前瞻

欢迎来到AI研究前瞻 - 您的人工智能研究前沿指南！我们致力于为您提供最新、最前沿的AI研究论文解读和分析，并以通俗易懂的方式呈现其核心思想和潜在影响。一起探索AI的无限可能,共同见证人工智能改变世界的每一步!

12.18-2|检索生成一体的LLM；小模型生成多样化复杂指令；自我对弈和树搜索提高指令跟随；压缩特定分隔符提高LLMs推理效率

12.18-3|单视图三维场景重建；基于扩散模型的高保真换脸，遮挡和动态变化鲁棒性

12.18-4|使用 Patches 代替 token；自回归模型和扩散模型融合，双因子化框架；任意视图和光照的逆渲染

12.17-1|探究视频理解多模态模型的设计，视频理解关键因素分析；实例感知结构化视频描述框架，高保真文生视频

12.17-2|图像理解与生成模型结构设计；基于检索增强和显示控制的多模态音乐生成；无需训练的流匹配图像编辑

12.17-3|生物医学专家LLM，阿拉伯语英语双语

12.17-4|单图生成三维环境；大型动作模型，自主动作规划执行

12.17-5|高分辨率图像生成，无需调参的推理范式；物体插入和主题驱动生成任务的数据集；图片快速逆向到潜在空间，图片语义编辑

12.17-6|长上下文测试基准，KV Cache分析框架

12.16-1|感知、记忆和推理，长期多模态交互系统；评估MLLM几何准确感知能力；多模态扩散自回归结合；长语音多模态交互

12.16-2|多模态模型增强多参考图像生成；高效T2I，移动设备高分辨率图像生成

12.16-3|评估LLM排序能力；大规模带标签的Vllm真实用户交互数据集

12.16-4|多光源逆渲染，物理信息材质估计；物理信息高斯，偏微分方程求解

12.16-5|phi-4技术报告，训练过程及后训练过程公开；从网络教程中学习操作的GUI智能体

12.13-1|多机位视频生成，多视角同步，动态一致性

12.13-2|大规模场景图标注数据集；视频风格迁移；无反向流过程的文本指令图片编辑；平衡内容与风格的图片风格迁移

12.13-3|开放世界高性能VLLM；流式视频大模型交互；基于知识感知奇异值适配的PEFT

12.13-4|3DGS自适应致密化策略，高保真广义3D重建；3D空间推理基准数据集；高质量实时长序列人类动作生成

12.13-5|特定角色图像生成，姿势与外观控制，流场学习，虚拟穿衣

12.12-1|统一T2V和TI2V的视频生成；手机上生成视频；手机上通过Diffusion编辑视频；文DIT运动状态迁移

12.12-2|代码生成，人类偏好对齐，代码大语言模型

12.12-3|多角色互动的漫画生成；T2I细粒度属性控制

12.12-4|鲁棒的不失真的图像水印；RAG风险检测模型

12.12-5|通过学习真实世界动态性统一图片编辑与生成；文档内容提取基准；多实体视频生成三维运动控制

12.11-4|视觉运动策略，由粗到细的多尺度策略预测

12.11-5|线性 Transformer，门控Delta网络，提升MAmba2表现

12.11-6|文本水印，隐写术，语义保持

12.11-1|强化学习智能体记忆，分类与评估，长期记忆，短期记忆，程序性记忆，陈述性记忆，记忆标准化

12.11-2|数学推理错误识别能力评估；潜在空间推理，连续思维

12.11-3|基于视觉的全球定位；视频 Token表示；多粒度图片标注；无标注视频中3D重建；地理空间视觉嵌入；稀疏视图重建

12.10-1|InternVL 2.5，超越闭源模型的开源MLLM；多步复杂推理的多模态指令调优数据集；多智能体T2V框架

12.10-2|使用人类反馈改善T2V对齐；文本引导的实时图片编辑；生成连贯和动态的多事件视频

12.10-3| 机器人操控，从视频数据中学习动作，动作 token

12.10-4|面向实际应用场景的大语言模型；提高优化器内存效率；对话元素建模，对话能力增强

12.10-5|动量高斯自蒸馏，提高3DGS大规模场景隐式重建性能； 2DGS-Room，高质量室内场景重建

12.7-1|压缩VLLM视觉 token 数量，保持性能；VLLM不同细粒度多层次视觉特征融合

12.7-2|VLLM代码生成，机器人开放世界时空约束故障检测；跨平台纯视觉GUI智能体

12.7-3|无引导噪声空间扩散；使用Adapter让模型有多视角生成能力；高分辨率自回归图像生成；多服装虚拟穿衣

12.7-4|无需训练的对抗性引导，负提示词合并；结构化3D潜在空间表示

12.7-5|合成数据生成能力评估；LLMs容量密度评估

12.6-1|多模态模型大小，分辨率与迁移学习能力；多模态理解与生成的统一Tokenizer；韩语VLLM前沿

12.6-2|随机尺度CFG+负提示词引导的增强单步扩散模型；动态对抗训练框架的动态扩散模型

12.6-3|DF Models蒸馏，3D LiDAR场景补全；Video-3D LLM，3D场景理解；单图多实例3D重建

12.6-4|单镜头视频生成360°全景视频；未对齐的稀疏视角增强新视角合成

12.6-5|LLM大学数学能力评估基准；从单张图片构建全身可动的数字化身

12.5-2|关键 token的识别与优化，推理能力提升；过程奖励模型；多智能体通信与协助框架

12.5-3|多模态模型拟人化听觉能力基准；3D场景理解，识别、缩放任务相关区域

12.5-4|LLM端到端的事实准确性评估；OCR噪声对RAG影响的评估

12.5-5|图像Tokenizer，分组球面量化；自然语言描述的图像分割数据增强；混合CPU推理性能优化

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉

12.7-2|VLLM代码生成，机器人开放世界时空约束故障检测； 跨平台纯视觉GUI智能体

机器人故障检测与GUI交互：VLLM代码生成，机器人开放世界时空约束故障检测； 跨平台纯视觉GUI智能体

Code-as-Monitor: Constraint-aware Visual Programming for Reactive and Proactive Robotic Failure Detection

研究背景与意义

研究方法与创新

实验设计与结果分析

结论与展望

Aguvis: Unified Pure Vision Agents for Autonomous GUI Interaction

研究背景与意义

研究方法与创新

实验设计与结果分析

结论与展望

12.7-2|VLLM代码生成，机器人开放世界时空约束故障检测；跨平台纯视觉GUI智能体

机器人故障检测与GUI交互：VLLM代码生成，机器人开放世界时空约束故障检测；跨平台纯视觉GUI智能体