11.22-3|开放式视频分析竞技场，ELO评分；LLM智能体策略树预测

文摘 2024-11-22 11:32 浙江

多模态与视频分析：开放式视频分析竞技场，ELO评分；LLM智能体策略树预测

VideoAutoArena: An Automated Arena for Evaluating Large Multimodal Models in Video Analysis through User Simulation

2024-11-20｜Rhymes AI, HKBU, NUS|🔺14

http://arxiv.org/abs/2411.13281v1
https://huggingface.co/papers/2411.13281
https://videoautoarena.github.io/

研究背景与意义

在多模态模型（LMMs）快速发展的背景下，视频分析能力的提升成为研究的热点。然而，现有的评估方法多依赖于传统的选择题形式，未能深入反映真实用户的需求和复杂场景的挑战。传统的评估方法如VideoMME和LongVideoBench存在缺乏深度和灵活性的问题，无法有效捕捉真实世界用户在视频分析中的复杂需求。

因此，本文提出了VideoAutoArena，一个自动化的竞技场风格基准，旨在通过用户模拟和开放式问题生成，提供一种更为高效、可扩展且用户中心的评估方式。通过引入故障驱动的进化策略，该方法不仅提高了评估的深度，还能适应多样化的用户背景和需求。

研究方法与创新

VideoAutoArena的设计包括四个核心组件：用户模拟、对战评估、自动评分和故障驱动进化。用户模拟通过角色扮演的方式生成与视频内容相关的开放式问题，真实地反映用户在视频分析中的需求。对战评估则通过随机选择两个模型进行比较，自动判断并评估其回答的质量。自动评分采用ELO评分系统，确保模型在不同场景下的表现得到合理的排名。此外，故障驱动进化策略通过逐步增加问题的复杂性，推动模型在视频分析任务中的能力提升。相比于传统的基于能力的评估方法，VideoAutoArena通过模拟真实用户交互，提供了更具实用性的评估框架。

实验设计与结果分析

在实验中，研究者对11个先进的LMMs进行了评估，包括GPT-4o、Gemini-1.5-Pro等，涵盖了多种视频长度和复杂场景。实验结果表明，VideoAutoArena在区分不同模型的能力方面表现优异，尤其在处理长视频和复杂问题时，显著优于传统评估方法。通过对比基准，研究还发现开源模型在视频分析能力上仍存在差距，尤其在用户相关性和回答的帮助性方面。VideoAutoArena的创新性不仅在于其评估方法的多样性，还在于其为模型的未来发展提供了深入的洞察。

结论与展望

VideoAutoArena的提出为视频分析领域的模型评估提供了新的思路，强调了用户中心的评估方法的重要性。尽管该方法在评估的深度和灵活性上取得了显著进展，但仍需进一步探索其在不同应用场景下的适用性和效果。

未来的研究可以考虑结合更多的用户背景信息和实时反馈机制，以提升评估的精准度和实用性，从而推动LMMs在视频分析中的应用与发展。

Is Your LLM Secretly a World Model of the Internet? Model-Based Planning for Web Agents

2024-11-10｜OSU, OrbyAI|🔺9

http://arxiv.org/abs/2411.06559v1
https://huggingface.co/papers/2411.06559
https://github.com/OSU-NLP-Group/WebDreamer

研究背景与意义

在当前的人工智能研究中，语言智能体（Language Agents）在自动化网页任务方面展现出良好的能力。然而，现有的反应式方法在性能上与人类相比仍显不足。为了解决这个问题，研究者们开始探索将先进的规划算法，特别是树搜索方法，应用于这些智能体，以提升其性能。然而，直接在实时网站上实现树搜索面临着显著的安全风险和实际操作的限制，例如不可逆的操作（如确认购买）。

本论文提出了一种新颖的范式，通过模型驱动的规划增强语言智能体，开创性地将大型语言模型（LLMs）用作复杂网页环境中的世界模型。该方法的核心在于利用LLMs模拟每个候选动作的结果，从而评估这些结果以确定每一步的最优动作。这项研究不仅为自动化网页交互开辟了新的方向，也为未来的研究提供了新的视角。

研究方法与创新

本研究提出的 WEB-DREAMER 方法利用 LLMs 作为世界模型，基于以下几个关键创新点：

模型驱动的规划：通过模拟每个候选动作的结果，WEB-DREAMER 能够在执行之前评估潜在的结果，从而减少实际网站交互的风险。
自然语言模拟：该方法采用自然语言描述来表示状态变化，使得模拟过程更加直观且易于理解。
动态环境适应：WEB-DREAMER 通过在线规划方法，能够根据实时反馈调整其行动策略，增强了智能体在复杂动态环境中的适应能力。

与现有的反应式智能体和树搜索方法相比，WEB-DREAMER 提供了更灵活的解决方案，能够在保持高效性的同时，降低安全风险。实验结果表明，该方法在多个基准测试中表现出显著的性能提升。

实验设计与结果分析

本研究在两个具有代表性的网页智能体基准上进行了实验：VisualWebArena 和 Mind2Web-live。实验设计包括以下几个方面：

基准比较：将 WEB-DREAMER 的性能与反应式智能体和树搜索智能体进行比较，结果显示 WEB-DREAMER 在多个任务中均优于反应式智能体，并在某些情况下接近树搜索智能体的表现。
效率分析：WEB-DREAMER 在执行任务时所需的步骤数量和时间显著低于树搜索方法，展现出更高的效率。
多场景表现：在不同的网页和任务难度下，WEB-DREAMER 均表现出稳定的性能，展示了其广泛的适用性。

结论与展望

本文展示了将 LLMs 作为世界模型的强大潜力，提出的 WEB-DREAMER 方法在复杂环境中的规划效果显著优于传统的反应式方法，并提供了更灵活的选择。未来的研究可以集中在进一步优化 LLMs 作为世界模型的能力，以及开发更为稳健的模型驱动规划算法，以应对长时间规划的挑战。同时，研究者们也应关注如何降低模型的计算成本，以便于在实际应用中的推广。

AI研究前瞻

欢迎来到AI研究前瞻 - 您的人工智能研究前沿指南！我们致力于为您提供最新、最前沿的AI研究论文解读和分析，并以通俗易懂的方式呈现其核心思想和潜在影响。一起探索AI的无限可能,共同见证人工智能改变世界的每一步!

11.30-2|自动T2I，prompt生成，模型自动选择，参数自动生成

11.30-3|VTOFF，虚拟试穿，高保真重建

11.30-4|长文本多领域关键词提取；大规模泛非洲英语多专业医学问答数据集

11.30-5|无位姿信息的3DGS重建，自监督

11.29-1|ROICtrl，多实例生成，区域控制；

11.29-2|单目视频生成4D场景；不同视觉层次的高保真文本-3D数据集；3D凸点云，3D表示；3D角色绑定、蒙皮

11.29-3|交错文本-图像生成评估，场景图结构，一致性评估

11.29-4|大模型GUI自动化、GUI智能体综述，人机交互

11.29-5|无需微调的个性化图像生成；VAR解码加速；身份一致性保留视频生成；自动驾驶生成式扩散决策；T2I图像细节层次控制

11.28-1|GUI视觉智能体，操作自动化；草图绘画过程模拟；图像区域感知，区域密集描述

11.28-2|长序列高效推理注意力；免训练多模态无效 token 剔除

11.28-3|UV空间的3D纹理生成；自监督点云表示学习；3D对象生成与理解

11.28-4|多模态大语言模型评估综述；视觉-语言生成奖励模型评估

11.28-5|使用视频生成完成图像编辑；图片对象插入，身份保持，在插入时进行编辑

11.27-1|材质，纹理生成，自由光照高保真渲染；3DGS生成与编辑

11.27-2|T2I零样本ID保持；视觉token因式量化

11.27-3|LLM作为评估者综述；跨模态知识迁移；多头MOE；从GPT-O1中提取长推理链

11.27-4|医疗多模态模型；多模态推荐系统

11.27-5|RAG参与故事视频生成，高一致性；扩散模型ID保持，图像编辑

11.26-1|TÜLU 3，开放后训练全过程；LLM越狱，数据无关的守卫

11.26-2|SNR采样器，T2I风格控制；DiT 图像生成控制；高质量VQA数据集构建框架；降低长视频token数量

11.26-3|SAE解构LLM多义神经元；用游戏评估VLLM复杂推理，空间理解与规划；基于SVD的新视角合成

11.26-4|面部年龄变换，面部衰老合成；机器人真实环境模仿学习与规划；云层分割

11.24-1|多模态混合偏好优化；长链多模态推理数据合成

11.24-2|自回归预训练，生成模型达到判别模型性能；Transformer和SSM头融合的小型语言模型；自动化文献检索和问答

11.24-3|DIT的不同层功能识别与图像编辑；基于DIT的复杂街景数据生成，自动驾驶

11.24-4|大规模、超稀疏内存层，推理加速；SAE实体识别，自我认知与幻觉和拒绝回答

11.24-5|Marco-o1，o1思路实验，蒙特卡罗树搜索，推理树微调；自然语言强化学习

11.24-6|低资源语言与Common Crawl数据集，自动抓取，适配器方法

11.22-1|SageAttention2，4-bit量化，硬件加速；注意力加速

11.22-2|人类感知的视频生成质量评估；文本与视频生成不一致的幻觉，错误分析与纠正

11.22-3|开放式视频分析竞技场，ELO评分；LLM智能体策略树预测

11.22-4|SAM2用于运动追踪；base64风格编码；RGBA图像生成，多层生成策略

11.22-5|BF16对RoPE负面影响，数值稳定性；不同数据分布的scaling laws

11.22-6|器官区域信息驱动的放射报告生成，多模态融合；

11.21-1|LLaMA训练数据集，高质量数据

11.21-2|连续值自回归图像生成，推测解码扩展到连续空间；增强Clip语义分割；感兴趣区域无参考图像质量评估

11.21-3|文本引导的草图动画；软体机器人转笔，自监督学习，手部模拟

11.21-4|AI安全测试，AI透明度；SUTRA分词器，印度语言分词器性能评估

11.15-1|长上下文推理自我改进，最小贝叶斯风险；特征级约束偏好优化，高效偏好优化

11.15-2|大规模第一人称视频数据集；可控动作的T2V生成

11.15-3|新版法语CamemBERT，更新知识；稀疏自编码器解释激活引导向量，大模型控制与调整

11.15-4|长结构，富有表现力符号音乐生成，多尺度注意机制

11.20-1|移动设备多模态大模型，vivo，BlueLM-V-3B；移动设备推理能力测试；MOE缓解多任务混合冲突

11.20-2|生成式世界探索，信念更新；参考视角视频生成；top-nσ采样策略，平衡准确多样；DiT缓存推理加速；视频高斯表示

11.20-3|：验证器工程，后训练范式，监督信号；从零训练的德语1B语言模型

11.20-4|Reranker模型的局限性；医学RAG评估框架

11.14-1|指令微调模型，更大模型悖论，兼容性调整奖励；校正流与自回归结果，多模态理解与生成；高质量图像文本描述数据集

11.14-2|SAMPart3D，分割3D物体不同结构；基于小波的紧凑 latent 编码方法，高压缩倍率表示

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉