ICML 2024 | Best Paper新鲜出炉!AIGC持续霸榜中... ...

文摘   2024-07-26 09:06   上海  


ICML Best Paper?

喽早上好!今天又是美好的调参的一天!

本期我们暂时撇开自动驾驶模型,膜拜膜拜最近的人工智能领域的巅峰大作。不知道大伙儿是否对这方面的内容感兴趣呢?

ICML 是 International Conference on Machine Learning的缩写,即国际机器学习大会。ICML如今已发展为由国际机器学习学会(IMLS)主办的年度机器学习国际顶级会议。

ICML2024于当地时间7.21在奥地利召开,并且于7.24正式公开best paper与test of time奖项,多项工作为AIGC方向的成就,其中半数以上获奖一作来自Google AI。

接下来让我们来膜拜一下这些经典之作~

Scaling Rectified Flow Transformers for High-Resolution Image Synthesis 

模型包括两个主要模块:左图(a)展示了整体组件的概览,右图(b)展示了一个MM-DiT块的细节。输入的图像和文本首先通过CLIP模型和T5模型编码为高维向量,然后通过MLP和时间步编码进行处理。处理后的向量经过多层MM-DiT模块,模块内部使用注意力机制和MLP进行特征提取和变换。最终,输出表示经过调制和线性变换,再转换回图像补丁,生成最终的图像输出。

这篇文章探讨了扩散模型在生成高分辨率图像和视频方面的应用,尤其是从自然语言输入生成数据的能力。扩散模型通过将数据逐步转化为噪声,再反向生成新数据点,从而实现高效的生成建模。尽管这种方法在高维感知数据(例如图像)建模中表现出色,但其迭代性质和高计算成本引发了对更高效训练和更快采样方法的研究。

文章重点介绍了一种称为“矫正流”的前向路径选择,这种方法将数据和噪声连接在一条直线上。尽管该模型类具有更好的理论特性,但在实际应用中尚未普及。通过对噪声尺度的重新加权,作者提出了一种新的改进模型,并在大规模实验中比较了不同的扩散模型和矫正流模型。

此外,文章提出了一种新的文本到图像生成架构,该架构结合了图像和文本令牌的双向信息流,从而实现更好的生成效果。通过大规模研究,作者展示了验证损失的可预测缩放趋势,并证明较低的验证损失与自动和人工评价的改进密切相关。

核心贡献包括:1.进行大规模系统研究,确定最佳扩散模型和矫正流模型设置,并引入新的噪声采样器;2.设计了新颖且可扩展的文本到图像生成架构,实现文本和图像令牌流的双向混合;3.展示了模型的可预测缩放趋势,证明较低的验证损失与改进的文本到图像性能相关。

模型结果十分感人,有兴趣的同学可以自行阅读~

论文arxiv网页https://arxiv.org/pdf/2403.03206

VideoPoet: A Large Language Model for Zero-Shot Video Generation

VideoPoet :一个多功能的视频生成器,可调节多种类型的输入并执行各种视频生成任务

本文提出了VideoPoet,一种从多种条件信号合成高质量视频的模型。VideoPoet采用仅解码器的Transformer架构,处理包括图像、视频、文本和音频在内的多模态输入。训练过程分为两个阶段:预训练和任务特定的适应。在预训练阶段,VideoPoet结合了多模态生成目标,并在自回归Transformer框架内进行训练。预训练的LLM作为基础,被适用于各种视频生成任务。该模型在零样本视频生成方面表现出色,特别是在生成高保真运动方面。与现有的主要基于扩散的方法不同,VideoPoet使用语言模型进行视频生成,具有集成现有LLM框架的优势,能够重用LLM基础设施,并利用多年来为LLM开发的优化技术。

文章的核心贡献包括:

  1. 提出了一种专门用于视频生成的LLM训练方法,使用包括文本配对和未配对视频在内的标记化数据。

  2. 提出了一种视频超分辨率方法,在潜在令牌空间中使用双向Transformer和高效的窗口化局部注意力来提高空间分辨率。

  3. 通过评估和演示,展示了VideoPoet在生成真实且有趣的运动视频方面的竞争力和先进性能。

通过这些技术,VideoPoet不仅能够在训练数据分布之外处理新的文本、图像或视频输入,还能够执行其训练中未包含的新任务,如通过顺序连接任务进行新的编辑任务。总之,VideoPoet展示了一种高质量视频生成的新方法,与传统的扩散模型方法不同,开辟了利用LLM进行视频生成的新方向。

首先,VideoPoet通过对多模态输入进行编码来生成离散标记序列。文本输入使用T5编码器,将文本转换为离散的文本标记(text tokens)。图像、深度图和光流数据则使用MAGVIT-v2编码器转换为视觉标记(visual tokens)。裁剪或掩码视频同样通过MAGVIT-v2编码器处理。音频数据使用Sound Stream编码器转换为音频标记(audio tokens)。

在编码阶段,所有模态输入被编码成离散标记并按特定顺序排列。使用特殊标记,如<bos>(序列开始),<task>(任务标记),<bot_i>(文本开始),<eot_i>(文本结束),<bov_i>(视觉开始),<eov_i>(视觉结束),<boa_i>(音频开始),<eoa_i>(音频结束),和<res>(结果标记)来标识不同部分的开始和结束。这些编码后的序列经过双向注意力(bidirectional attention)处理,生成前缀标记(prefix)。

随后,VideoPoet模型使用解码器(decoder-only LLM)进行自回归生成,通过因果注意力机制(causal attention)生成输出标记序列(output tokens)。生成的输出标记序列通过各自的解码器解码,生成相应的输出。视觉标记通过MAGVIT-v2解码器解码为输出视频,音频标记则通过Sound Stream解码器解码为输出音频。

论文arxiv网页:https://arxiv.org/pdf/2312.14125

Genie: Generative Interactive Environments

Genie,一个用于生成交互环境的生成模型。近年来,生成式人工智能取得了显著进展,尤其是在Transformer架构、硬件进步以及模型和数据集规模扩展的推动下,使得现在能够生成连贯的语言和美观的图像。视频生成被视为下一个前沿领域,但目前视频生成模型与语言工具如ChatGPT相比,在互动性和参与度上仍有差距。

本文提出了生成交互环境的新范式,通过从单一文本或图像提示生成交互环境。Genie从超过20万小时的公开游戏视频中训练而来,尽管没有动作或文本注释,仍能通过学习的潜在动作空间进行逐帧控制。这个具有11B参数的模型能够从未见过的图像提示生成虚拟世界,用户可以通过提供潜在动作生成下一帧,实现丰富多样的角色动作。

Genie采用时空Transformer和创新的视频标记器,通过因果动作模型提取潜在动作。视频标记和潜在动作被传递给动态模型,使用MaskGIT自回归预测下一帧。本文进行了关于架构的规模分析,发现随着计算资源的增加,模型表现优异。Genie在过滤后的3万小时2D平台游戏视频上训练,展示了其通用性。此外,本文还在RT1数据集上的无动作机器人视频上训练了另一个模型,学习了生成环境。最终结果表明,Genie可以用从互联网视频中学习的潜在动作推断未见过的动作视频的策略,可能是训练下一代通用智能体的关键。

文章的核心创新点包括:

1.Genie是第一个在无监督方式下,从无标签的互联网视频中训练生成的交互式环境。它能够根据文本、图像、草图和其他提示生成可操作的虚拟世界。

2.Genie使用了一个潜在动作模型,该模型推断出每一对帧之间潜在的动作,允许逐帧控制生成的环境。


Genie可以将多种不同类型的提示转换为可交互的、可玩耍的环境。这些环境可以轻松创建、进入并探索。图片中展示了三种类型的提示:文本生成的图像、手绘草图和现实世界的照片。图片右侧展示了两个潜在动作生成的几个步骤,说明了如何在虚拟环境中执行这些动作。

Genie 将视频的 T 帧作为输入,通过视频标记器将它们标记为离散的标记 z,并使用潜在动作模型推断每一帧之间的潜在动作 a。然后,两者都被传递到动力学模型,以迭代方式生成对下一帧的预测。

论文arxiv网页:https://arxiv.org/pdf/2402.15391

Debating with More Persuasive LLMs Leads to More Truthful Answers

将大型语言模型 (LLM) 与期望行为对齐的常用方法在很大程度上依赖于人工标记的数据。然而,随着模型变得越来越复杂,它们将超越人类的专业知识,人类评估的角色将演变为非专家监督专家。

文章探讨了在大语言模型(LLMs)越来越复杂时,如何利用较弱的模型来评估较强的模型,以解决依赖人工标注数据的问题。文章提出了“辩论”这一方法,两个专家模型(强模型)各自为不同答案辩护,而较弱的模型(非专家)则选择正确答案。在QuALITY理解任务中,辩论帮助非专家模型和人类更好地回答问题,分别达到了76%和88%的准确率,远高于基线的48%和60%。研究还发现,通过无监督方式优化专家辩手的说服力,可以提高非专家识别真相的能力。实验结果表明,辩论在没有真实答案的情况下,提供了一种可行的方法来对齐模型。文章强调了未来需要进一步研究对抗性监督方法,以实现模型能力的可扩展监督。

这张图展示了文章中处理数据的流程,通过三个不同的协议来评估较强模型(专家)在QuALITY数据集中的表现。图中的数据来源于Gutenberg科学小说的文本片段,问题如“Parks如何来到Morgan星球?”并给出两个答案选项A和B。专家模型(LLM专家)可以访问并分享这些文本片段,而非专家评判则没有阅读过文本,只能根据专家提供的辩论信息做出判断。

图中展示了三种不同的协议:咨询(Consultancy)、辩论(Debate)和互动辩论(Interactive Debate)。咨询协议中,非专家评判仅听取一方专家的论点,并根据单方面信息选择答案。在图中,评判选择了错误答案B。在辩论协议中,非专家评判会听取来自两方专家的论点。专家模型同时呈现多个回合的论点,评判根据双方的论点选择答案。在图中,评判选择了正确答案A。在互动辩论协议中,非专家评判参与到辩论对话中,可以在每一轮后提出澄清问题。专家模型与评判进行互动,进一步解释和辩护其论点。在图中,评判选择了正确答案A。

通过这些协议,研究者评估了专家模型和非专家评判在阅读理解任务中的表现,并探索了辩论是否能帮助较弱的模型更准确地评估较强模型的答案。

论文arxiv网页https://arxiv.org/pdf/2402.06782

余下的几篇Best Paper偏向于数学基础研究,在此不再展开讲解哦~感兴趣的宝子请点击:

通过估计数据分布比率进行离散扩散建模:Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution

arxiv:https://arxiv.org/pdf/2310.16834

立场:衡量数据集的多样性,而不仅仅是声称它:Position: Measure Dataset Diversity, Don’t Just Claim It

arxiv:https://arxiv.org/pdf/2407.08188

随机凸优化的信息复杂度:在泛化和记忆中的应用:Information Complexity of Stochastic Convex Optimization: Applications to Generalization and Memorization

arxiv:https://arxiv.org/pdf/2402.09327

立场:通过大规模公共预培训进行差异化私人学习的注意事项:Position: Considerations for Differentially Private Learning with Large-Scale Public Pretraining

arxiv:https://arxiv.org/pdf/2212.06470

模型窃取攻击方法:Stealing Part of a Production Language Model

arxiv:https://arxiv.org/pdf/2403.06634

如果对你的开发、科研有帮助,拜托拜托关注我们,我们将持续奉上优秀的端到端自动驾驶领域研究的分享干货!

温馨提示:点赞=学会,收藏=精通

点击在看,我们一起充电!

端到端自动驾驶
关注AD(Autonomous Driving)行业最前沿的人工智能解决方案,致力于打造为一个自动驾驶从业者及相关科研学者们的课外充电,技术分享,以及社区交流的服务平台!
 最新文章