清华、北大团队推出「安卓智能体」训练评估框架AndroidLab;Meta提出视频生成加速方法AdaCache|大模型日报

学术   2024-11-06 16:04   北京  
今日值得关注的大模型前沿论文

  • 清华、北大团队推出「安卓智能体」训练评估框架 AndroidLab
  • 清华、智谱团队推出自进化在线课程强化学习框架 WebRL
  • 北大推出 DiT 架构免训练区域提示方法
  • 仅靠 scaling,无法让视频生成模型揭示基本物理定律
  • 微软推出 GenXD:生成任意 3D 和 4D 场景
  • DynaSaur:超越预定义行动的大型语言智能体
  • Meta 提出视频生成加速方法 AdaCache

想要第一时间获取每日最新大模型热门论文? 
点击阅读原文,查看“2024必读大模型论文”

ps:我们日常会分享日报、周报,后续每月也会出一期月报,敬请期待~


清华、北大团队推出「安卓智能体」训练评估框架 AndroidLab

自主 Agent 在与现实世界的交互中变得越来越重要。特别是 Android Agent,最近已成为一种经常被提及的交互方法。然而,现有的 Android Agent 训练和评估研究缺乏对开源和闭源模型的系统研究。 

来自清华大学和北京大学的研究团队推出了一个系统化的 Android Agent 框架—— AndroidLab。它包括一个具有不同模态操作环境、动作空间和一个可重现的基准。它支持同一动作空间中的大语言模型(LLM)和多模态模型(LMM)。AndroidLab 基准包括预定义的 Android 虚拟设备和基于这些设备构建的 9 个应用程序中的 138 个任务。通过使用 AndroidLab 环境,他们开发了一个 Android Instruction 数据集,并训练了六个开源 LLM 和 LMM,将 LLM 的平均成功率从 4.59% 提高到 21.50%,将 LMM 的平均成功率从 1.93% 提高到 13.28%。

论文链接:
https://arxiv.org/abs/2410.24024
Github 地址:
https://github.com/THUDM/Android-Lab



清华、智谱团队推出自进化在线课程强化学习框架 WebRL

大语言模型(LLM)已显示出作为自主 Agent 的巨大潜力,尤其是在基于网页的任务中。然而,现有的 LLM Web Agents 严重依赖昂贵的专有 LLM API,而开源 LLM 则缺乏必要的决策能力。 

来自清华、智谱的研究团队推出了自进化在线课程强化学习框架 WebRL,旨在使用开源 LLM 训练高性能 Web Agent。WebRL 解决了构建 LLM Web Agent 的三个关键挑战:训练任务稀缺、反馈信号稀少以及在线学习中的策略分布漂移。具体来说,WebRL 包含:1)从不成功的尝试中生成新任务的自进化课程;2)鲁棒的结果监督奖励模型(ORM);3)确保持续改进的自适应强化学习策略。
他们应用 WebRL 将开源 Llama-3.1 和 GLM-4 模型转化为熟练的 Web Agent。在 WebArena-Lite 上,WebRL 将 Llama-3.1-8B 的成功率从 4.8% 提高到 42.4%,将 GLM-4-9B 的成功率从 6.1% 提高到 43%。这些开源模型的性能大大超过了 GPT-4-Turbo(17.6%)和 GPT-4o(13.9%),也超过了之前在开源 LLM 上训练的 SOTA Web Agent(AutoWebGLM,18.2%)。 

研究结果表明,WebRL 能有效缩小基于开源 LLM 的 Web Agent 与基于专有 LLM 的 Web Agent 之间的差距,有利于开发更易于使用、功能更强大的自主网页交互系统。

论文链接:
https://arxiv.org/abs/2411.02337
Github 地址:
https://github.com/THUDM/WebRL



北大推出 DiT 架构免训练区域提示方法

扩散模型在文生图方面表现出了卓越的能力。通过大语言模型(如 T5、Llama),它们的语义理解(即提示跟随)能力也得到了极大的提高。

然而,现有的模型无法完美地处理长而复杂的文本提示,尤其是当文本提示包含各种具有众多属性和相互关联的空间关系的对象时。虽然针对基于 UNet 的模型(SD1.5、SDXL)提出了许多区域提示方法,但仍没有基于最近的 DiT 架构(如 SD3)的实现方法。

基于此,来自北京大学的研究团队及其合作者提出并实现了基于注意力操纵的 FLUX.1 区域提示方法,从而使 DiT 能够以免训练的方式生成细粒度的合成文生图。

论文链接:
https://arxiv.org/abs/2411.02395
Github 地址:
https://github.com/antonioo-c/Regional-Prompting-FLUX



仅靠 scaling,无法让视频生成模型揭示基本物理定律

Sora 强调了视频生成在开发遵循基本物理定律的世界模型方面的潜力。然而,视频生成模型在没有人类先验的情况下纯粹从视觉数据中发现这些规律的能力可能会受到质疑。学习真实规律的世界模型应能预测细微差别,并正确推断未见场景。

来自字节跳动、清华大学和 Technion 的研究团队对分布内、分布外和组合泛化三个关键场景进行了评估。他们为物体运动和碰撞开发了一个二维模拟测试平台,以生成受一个或多个经典力学定律支配的确定性视频。这为大规模实验提供了无限量的数据,并能对生成的视频是否符合物理定律进行定量评估。他们训练了基于扩散的视频生成模型,以根据初始帧预测物体运动。扩展实验表明,在分布范围内可以实现完美的泛化,在组合泛化方面具有可测量的扩展行为,但在超出分布范围的情况下则无法实现。

进一步的实验揭示了关于这些模型泛化机制的两个关键见解:(1)模型未能抽象出一般物理规则,而是表现出“基于案例”的泛化行为,即模仿最接近的训练实例;(2)在泛化到新案例时,观察到模型在参考训练数据时优先考虑不同的因素:颜色 > 大小 > 速度 > 形状。

研究表明,尽管 scaling 在 Sora 的广泛成功中发挥了作用,但仅靠 scaling 不足以让视频生成模型揭示基本物理定律。

论文链接:
https://arxiv.org/abs/2411.02385
项目地址:
https://phyworld.github.io



微软推出 GenXD:生成任意 3D 和 4D 场景

最近在 2D 视觉生成方面取得的进展非常成功。然而,由于缺乏大规模的 4D 数据和有效的模型设计,3D 和 4D 生成在现实世界的应用中仍面临挑战。

在这项研究中,来自微软和新加坡国立大学的研究团队提议利用日常生活中常见的相机和物体运动来共同研究一般 3D 和 4D 生成。由于社会上缺乏真实世界的 4D 数据,他们首先提出了一个数据整理管道,以从视频中获取相机姿势和物体运动强度。在此基础上,他们引入了大规模真实世界 4D 场景数据集:CamVid-30K。通过利用所有 3D 和 4D 数据,他们开发了 GenXD 框架,其可以制作任何 3D 和 4D 场景。他们提出了多视角-时态模块,将相机和物体的运动分离开来,以便从 3D 和 4D 数据中进行无缝学习。此外,GenXD 还采用了遮蔽潜条件来支持各种调节视图。GenXD 可以生成跟随相机轨迹的视频以及一致的 3D 视图,这些视图可以提升为 3D 表征。

他们在各种真实世界和合成数据集上进行了广泛的评估,证明了 GenXD 与之前的 3D 和 4D 生成方法相比,具有高效性和多功能性。

论文链接:
https://arxiv.org/abs/2411.02319
项目地址:
https://gen-x-d.github.io/



DynaSaur:超越预定义行动的大型语言智能体

现有的 LLM 智能体系统通常在每一步都从固定的预定义集合中选择行动。虽然这种方法在封闭、范围狭窄的环境中很有效,但在真实世界场景中部署 LLM 智能体时,面临两大挑战:(1)从一组固定的行动中进行选择极大地限制了 LLM 智能体的规划和行动能力;(2)这种方法需要大量人力来列举和实施所有可能的行动,这在潜在行动数量庞大的复杂环境中变得不切实际。

在这项工作中,来自马里兰大学和 Adobe Research 的研究团队提出了一种 LLM 智能体框架,它能以在线方式动态创建和组合行动。在这个框架中,智能体通过生成和执行以通用编程语言编写的程序与环境进行交互。此外,生成的操作会随着时间的推移不断累积,以便将来重复使用。

在 GAIA 基准上进行的大量实验表明,该框架具有显著的灵活性,性能优于以前的方法。值得注意的是,它允许 LLM 智能体在预定义集合中不存在相关行动或现有行动因不可预见的边缘情况而失败的情况下进行恢复。

论文链接:
https://arxiv.org/abs/2411.01747



Meta 提出视频生成加速法 AdaCache

生成具有时间一致性的高保真视频的计算成本很高,尤其是在较长的时间跨度上。最近推出的扩散 Transformers(DiTs)尽管在这方面取得了重大进展,但却加剧了这种挑战,因为它们依赖于较大的模型和较重的注意力机制,导致推理速度较慢。

为加速视频 DiTs,来自 Meta 和石溪大学的研究团队提出了一种免训练(training-free)的方法——自适应缓存(AdaCache),其灵来自于“并非所有视频都是一样的”这一事实:也就是说,与其他视频相比,有些视频只需要较少的去噪步骤就能达到预期的质量。

在此基础上,他们不仅通过扩散过程来缓存计算,还针对每一代视频设计了缓存计划,最大限度地实现了质量-延迟权衡。他们进一步引入了运动正则化(MoReg)方案,在 AdaCache 中利用视频信息,根据运动内容控制计算分配。总之,这一即插即用技术在不牺牲生成质量的前提下,在多个视频 DiT 基线上显著提高了推理速度(例如,在 Open-Sora 720p - 2s 视频生成上最高提高了 4.7 倍)。

论文链接:
https://arxiv.org/abs/2411.02397
项目地址:
https://adacache-dit.github.io/


整理:李雯靖
如需转载或投稿,请直接在公众号内留言

学术头条
致力于学术传播和科学普及,重点关注AI4Science/大模型等前沿科学进展。
 最新文章