今日值得关注的大模型前沿论文
- 周靖人团队:扩散 Transformer 的上下文 LoRA
- 综述:生成式 AI 应用中的用户界面设计与交互技术
- ROCKET-1:利用视觉-时空上下文提示掌握开放世界交互
- 苹果团队提出多模态大语言模型 Ferret-UI 2
想要第一时间获取每日最新大模型热门论文?
点击阅读原文,查看“2024必读大模型论文”
ps:我们日常会分享日报、周报,后续每月也会出一期月报,敬请期待~
Meta 推出全新视频扩散模型 MarDini
来自 Meta 的研究团队及其合作者推出了 MarDini,这是一个全新的视频扩散模型系列,它将掩码自动回归(MAR)的优势整合到一个统一的扩散模型(DM)框架中。在这里,MAR 处理时间规划,而 DM 则侧重于非对称网络设计中的空间生成:基于 MAR 的规划模型包含大部分参数,使用低分辨率输入为每个遮蔽帧生成规划信号;轻量级生成模型使用这些信号,通过扩散去噪生成高分辨率帧。MarDini 的 MAR 可以在任意帧位置的任意屏蔽帧数量上生成视频:一个模型可以处理视频插值(如屏蔽中间帧)、图生视频(如从第二帧开始屏蔽)和视频扩展(如屏蔽一半帧)。高效的设计将大部分计算资源分配给了低分辨率规划模型,从而使计算成本高但重要的时空注意力在规模上变得可行。MarDini 为视频插值技术建立了新的 SOTA;同时,只需几个推理步骤,它就能高效生成与昂贵得多的高级图生视频模型相当的视频。https://arxiv.org/abs/2410.20280https://mardini-vidgen.github.io/周靖人团队:扩散 Transformer 的上下文 LoRA最近的研究探索了如何使用扩散 Transformer(DiTs),通过简单地串联图像中的注意力 token 来生成与任务无关的图像。然而,尽管使用了大量计算资源,生成图像的保真度仍未达到最佳。在这项工作中,阿里云 CTO 周靖人团队重新评估并简化了这一框架,假设文生图 DiTs 本身具有上下文生成功能,只需极少的微调即可激活。通过各种任务实验,他们定性地证明了现有的文本到图像 DiTs 无需任何微调即可有效地进行上下文生成。在此基础上,他们提出了一个非常简单的管道来利用 DiTs 的上下文能力:(1)串联图像而不是 token;(2)对多幅图像执行联合字幕;(3)使用小数据集(例如 20∼100 个样本)而不是大数据集进行全参数微调,来应用特定任务的 LoRA 微调。他们将这些模型命名为 In-Context LoRA(IC-LoRA)。这种方法无需修改原始 DiT 模型,只需更改训练数据。值得注意的是,他们的管道能生成更符合提示的高保真图像集。https://arxiv.org/abs/2410.23775https://ali-vilab.github.io/In-Context-LoRA-Page/大语言模型(LLM)的个性化最近变得越来越重要,应用范围也越来越广泛,但大多数现有的个性化 LLM 工作要么完全集中在(a)个性化文本生成,要么(b)利用 LLM 进行与个性化相关的下游应用,如推荐系统。在这项工作中,来自达特茅斯学院和 Adobe Research 的研究团队及其合作者,首次在这两个独立的主要方向之间架起了一座桥梁,为个性化 LLM 的使用引入了一个分类标准,并总结了其中的主要差异和挑战。他们提供了个性化词法管理基础的形式化,巩固并扩展了词法管理个性化的概念,定义并讨论了个性化词法管理的个性化、使用和需求的新方面。然后,他们提出了个性化、个性化技术、数据集、评估方法和个性化 LLM 应用的系统分类法,从而将这些不同领域和使用场景的文献统一起来。最后,他们强调了有待解决的挑战和重要的开放性问题。 https://arxiv.org/abs/2411.00027综述:生成式 AI 应用中的用户界面设计与交互技术生成式 AI 的应用已变得极为引人注目,而用户与 AI 之间的交互更是如此。目前的人机交互文献对人类如何与生成式 AI 进行交互进行了广泛的研究,但对用于创建这些应用的用户界面设计和模式缺乏具体的研究。因此,来自加州大学的研究团队及其合作者提交了一份调查报告,全面介绍了人类如何与 AI 交互的分类标准,以及为满足各种相关用例的需求而设计的用户交互模式。他们主要关注用户引导式交互,调查由用户发起且不包含用户发出的任何隐含信号的交互。通过这项调查,他们旨在创建一个不同用户交互模式的汇编,供设计人员和开发人员参考。同时,他们也努力降低那些试图进一步了解生成式 AI 应用设计的人的入门门槛。https://arxiv.org/abs/2410.22370ROCKET-1:利用视觉-时空上下文提示掌握开放世界交互 视觉-语言模型(VLM)在多模态任务中表现出色,但将其应用于开放世界环境中的具身决策却面临挑战。一个关键问题是难以将低级观测中的单个实体与规划所需的抽象概念顺利连接起来。解决这一问题的常见方法是使用分层 agent,其中 VLM 可作为高级推理器,将任务分解为可执行的子任务,这些子任务通常使用语言和想象的观测结果来指定。然而,语言往往无法有效传达空间信息,而生成足够准确的未来图像仍然具有挑战性。
为了解决这些局限性,来自北京大学的研究团队及其合作者提出了视觉-时间上下文提示,这是 VLM 与策略模型之间的一种新型通信协议。该协议利用过去和现在观察到的对象分割来引导策略与环境的交互。利用这种方法,他们训练了 ROCKET-1,这是一种低级策略,可根据视觉观察和分割掩码的串联预测行动,并由 SAM-2 提供实时对象跟踪。他们的方法充分挖掘了 VLM 视觉语言推理能力的潜力,使他们能够解决复杂的创造性任务,尤其是那些严重依赖空间理解的任务。在 Minecraft 中进行的实验表明,他们的方法能让 agent 完成以前无法完成的任务,突出了视觉-时间上下文提示在具身决策中的有效性。https://arxiv.org/abs/2410.17856https://craftjarvis.github.io/ROCKET-1/大语言模型(LLM)在解决简单科学问题方面表现出良好的能力,但在解决复杂问题时往往会产生幻觉。虽然将 LLM 与工具集成可以提高可靠性,但这种方法通常会导致对工具的过度依赖,削弱模型通过基本推理解决简单问题的能力。与此相反,人类专家在选择合适的解决方法之前,首先会利用领域知识评估问题的复杂性。
受人类解决问题过程的启发,来自清华大学和加州大学的研究团队提出了一种由两部分组成的新型微调方法。在“世界知识蒸馏”(WKD)中,LLM 直接从使用工具信息生成的解决方案中学习,从而内化领域知识。在“工具使用适应”(TUA)中,他们根据模型的直接回答准确率,将问题分为简单和困难两类。在对简单问题保持与 WKD 相同的对齐目标的同时,他们对模型进行训练,使其在遇到更具挑战性的问题时智能地切换到工具使用。他们在数学、气候科学和流行病学等六个科学基准数据集上验证了他们的方法。在所有数据集上,他们的模型平均提高了 28.18% 的答案准确率和 13.89% 的工具使用精确度,超过了 GPT-4o 和 Claude-3.5 等 SOTA 的模型。https://arxiv.org/abs/2411.00412苹果团队提出多模态大语言模型 Ferret-UI 2由于平台多样性、分辨率差异和数据限制等各种基础问题,为用户界面(UI)理解建立通用模型具有挑战性。在本文中,苹果团队提出了 Ferret-UI 2,这是一种多模态大语言模型(MLLM),专为在 iPhone、Android、iPad、网页和 AppleTV 等各种平台上实现通用用户界面理解而设计。在 Ferret-UI 的基础上,Ferret-UI 2 引入了三项关键创新:支持多种平台类型、通过自适应缩放实现高分辨率感知,以及由 GPT-4o 支持的高级任务训练数据生成和 token 集视觉提示。这些进步使 Ferret-UI 2 能够执行复杂的、以用户为中心的交互,使其具有高度的通用性和适应性,以适应不断扩大的平台生态系统的多样性。在引用、grounding、以用户为中心的高级任务(包括 9 个子任务 × 5 个平台)、GUIDE 下一步行动预测数据集和 GUI-World 多平台基准测试中进行的大量实证实验表明,Ferret-UI 2 的性能明显优于 Ferret-UI,而且还显示出强大的跨平台传输能力。https://arxiv.org/abs/2410.18967来自香港科技大学、中国科学技术大学和香港中文大学的研究团队推出了 GameGen-X,它是首个专为生成式和交互式控制开放世界游戏视频而设计的扩散 Transformer 模型。该模型模拟了大量游戏引擎功能,如创新角色、动态环境、复杂动作和各种事件,有助于生成高质量的开放域视频。此外,它还提供了交互式可控性,可根据当前片段预测和改变未来内容,从而实现游戏模拟。为了实现这一愿景,他们首先从零开始收集并建立了一个开放世界视频游戏数据集。它是第一个也是最大的开放世界游戏视频生成和控制数据集,由来自 GPT-4o 的 150 多款游戏的 100 多万个不同游戏视频片段组成,并附有详细的说明。GameGen-X 的训练过程分为两个阶段,包括基础模型预训练和指令微调。首先,通过文生视频和视频延续对模型进行预训练,使其具备生成长序列、高质量开放域游戏视频的能力。此外,为了实现交互可控性,他们在设计 InstructNet 时纳入了与游戏相关的多模式控制信号专家。这样,模型就能根据用户输入调整潜在表征,首次在视频生成中将角色交互和场景内容控制统一起来。在指令微调过程中,只有 InstructNet 会被更新,而预训练的基础模型则会被冻结,这样就能在不损失生成视频内容的多样性和质量的情况下,整合互动可控性。https://arxiv.org/abs/2411.00769https://github.com/GameGen-X/GameGen-X在回答问题的场景中,人类可以评估可用信息是否充分,并在必要时寻求更多信息,而不是提供一个强制答案。相比之下,视觉语言模型(VLM)通常会直接生成单一样本的答案,而不会评估信息的充分性。为了研究这一差距,来自加州大学的研究团队在视觉问答(VQA)场景中确定了一项关键且具有挑战性的任务:当视觉信息不足以回答问题时,视觉语言模型能否指出如何调整图像?这种能力对于帮助视障人士尤其有价值,因为他们往往需要指导才能正确捕捉图像。为了评估当前 VLM 的这种能力,他们引入了一个人类标记的数据集作为这项任务的基准。此外,他们还提出了一个自动框架,通过模拟“where to know”的场景来生成合成训练数据。他们的实证结果表明,当使用这种合成数据进行微调时,主流 VLM 的性能有了显著提高。这项研究表明,VLM 有可能缩小信息评估与获取之间的差距,使其性能更接近人类。https://arxiv.org/abs/2411.00394由于 GPT 令人印象深刻的生成能力,其在游戏中的应用正在迅速扩大。为了让研究人员全面了解当前的应用情况,并确定新兴趋势和未开发领域,美国东北大学的研究团队对 131 篇文章(其中 76 篇发表于 2024 年)进行了最新范围综述,以探索 GPT 在游戏中的应用潜力。通过对论文进行编码和综合,他们确定了 GPT 在当前游戏研究中的五大应用:程序化内容生成、混合主动性游戏设计、混合主动性游戏玩法、玩游戏和游戏用户研究。借鉴这些应用领域和新兴研究的见解,他们建议未来的研究应侧重于拓展 GPT 模型的技术边界,并探索它们与用户之间复杂的交互动态。本综述旨在说明 GPT 在游戏中的创新应用现状,为丰富游戏开发和通过前沿人工智能创新提升玩家体验奠定基础。https://arxiv.org/abs/2411.00308整理:李雯靖
如需转载或投稿,请直接在公众号内留言