11.20-2|生成式世界探索,信念更新;参考视角视频生成;top-nσ采样策略,平衡准确多样;DiT缓存推理加速;视频高斯表示

文摘   2024-11-20 08:15   浙江  

生成与推理技术:生成式世界探索模型,信念更新框架;可控参考运动视角视频生成;top-nσ采样策略,平衡准确性和多样性;DiT缓存,推理加速;视频高斯表示

Generative World Explorer

2024-11-18|JHU|🔺26

http://arxiv.org/abs/2411.11844v1
https://huggingface.co/papers/2411.11844
https://generative-world-explorer.github.io/

研究背景与意义

在 embodied AI 领域,部分观测环境下的决策一直是核心挑战。传统方法主要通过物理探索更新环境状态,但这种方法耗时且危险。相比之下,人类能够通过心智探索未见环境,更新信念并做出更明智的决策。

为了实现类似人类的能力,本文提出了生成世界探索者(Generative World Explorer, Genex),一种可以通过生成想象观测更新信念的框架。该研究不仅提升了智能体在部分观测环境中的决策能力,还为多智能体决策提供了新方法。

研究方法与创新

技术描述

Genex 是一个以自我为中心的世界探索框架,能够生成高质量且一致的视频观测,支持大规模3D环境中的长期探索。其核心技术包括:

  1. 视频生成模型

    • 基于当前的RGB观测和探索配置,生成未来的自我中心视频。
    • 采用稳定的视频扩散模型(SVD)进行视频生成,并通过时空VAE编码器增强视频的一致性。
  2. 球面一致性学习(Spherical-Consistent Learning, SCL)

    • 解决了生成视频在球面边缘的不一致问题,通过随机旋转相机位置实现连续性。
    • 训练目标结合了原始噪声预测损失和球面一致性损失,确保生成视频的全局一致性。

方法创新

  1. 想象驱动信念更新

    • 在部分观测的决策过程中引入生成视频,通过想象探索更新信念,从而做出更明智的决策。
    • 扩展了传统的部分可观测马尔可夫决策过程(POMDP),使得智能体能够在想象空间中进行信念更新。
  2. 多智能体决策

    • Genex 可以扩展到多智能体场景,一个智能体可以想象其他智能体的位置和观测,通过聚合多个智能体的信念进行决策。

对比现有方法

Genex 的生成视频质量和想象探索一致性显著优于现有方法。通过多种评估指标(FVD、SSIM、LPIPS、PSNR)的对比,Genex 在视频生成质量和场景理解方面表现卓越。此外,Genex 在零样本泛化到真实世界场景中的能力也得到了验证。

实验设计与结果分析

实验描述

本文通过多个实验验证了 Genex 的有效性:

  1. 视频生成质量评估

    • 采用 FVD、SSIM、LPIPS 和 PSNR 等指标评估生成视频的质量。
    • Genex 在所有指标上均优于现有方法,特别是在长距离想象探索中的一致性表现突出。
  2. 想象探索质量评估

    • 提出了新的评估指标“想象探索循环一致性(IECC)”,用于评估长时间想象探索的 coherence 和 fidelity。
    • Genex 在多种场景下的 IECC 表现优异,显示了其在长距离探索中的一致性。
  3. embodied QA 评估

    • 定义了决策准确性、黄金行动置信度和逻辑准确性等指标,用于评估单智能体和多智能体决策的有效性。
    • Genex 在 embodied QA 任务中显著提高了决策的准确性和逻辑一致性,特别是在多智能体场景中表现突出。

对比基准

与多种现有方法(如 CogVideoX、SVD 六视图等)进行对比,Genex 在视频生成质量和想象探索一致性上均表现最佳。特别是在长距离探索和多智能体决策中,Genex 的优势更加明显。

多场景表现

Genex 在多种场景(如街景、室内场景、动画场景等)中均表现出了优异的泛化能力。实验结果显示,Genex 不仅在合成数据上表现良好,还能零样本泛化到真实世界场景中。

结论与展望

总结贡献

本文提出了 Generative World Explorer (Genex),一个能够通过生成想象观测更新信念的框架。主要贡献包括:

  1. 引入了高生成质量和探索一致性的世界探索框架。
  2. 提出了想象驱动信念更新的新方法,并成功应用于部分观测决策过程。
  3. 验证了 Genex 在单智能体和多智能体决策任务中的有效性。

分析局限

尽管 Genex 在多种场景中表现优异,但仍存在一些局限性:

  1. Genex 的训练依赖于大规模合成数据,可能在极少数真实场景中泛化能力有限。
  2. 想象探索的时间复杂度较高,对于极长时间的探索可能存在性能瓶颈。

方法展望

未来工作可以从以下几个方向展开:

  1. 进一步优化生成视频的效率和质量,探索更高效的视频生成模型。
  2. 扩展 Genex 的应用场景,如自动驾驶、机器人导航等领域。
  3. 结合更多感知模态(如声音、触觉等),提升智能体在复杂环境中的决策能力。

AnimateAnything: Consistent and Controllable Animation for Video Generation

2024-11-16|ZJU, THU, BUAA, ZJGSU, ShengShu|🔺9

http://arxiv.org/abs/2411.10836v1
https://huggingface.co/papers/2411.10836
https://yu-shaonian.github.io/Animate_Anything/

研究背景与意义

随着视频生成技术的快速发展,特别是Sora等模型在视频生成上的突破,使得控制视频生成过程中的相机轨迹和物体运动成为可能。这些技术不仅推动了文本到视频(T2V)生成的进展,还为电影制作和虚拟现实等应用开辟了新的可能性。然而,当前的视频生成方法在处理复杂的相机和物体运动时,仍然面临精确控制的挑战。

现有方法如MotionCtrl和CameraCtrl虽然能支持相机轨迹操作,但依赖于文本输入,无法精确传达视频细节。而基于图像引导的方法如Motion-I2V仅支持轻微的物体运动,无法处理相机运动。为解决这些问题,本文提出了一种统一的可控视频生成方法AnimateAnything,它能够同时处理多种控制信号(如箭头注释、相机运动和参考视频),从而实现精确且一致的视频操作。

研究方法与创新

方法概述

AnimateAnything采用了双阶段的设计,首先将多种视觉控制信号转换为统一的光流表示,然后利用该光流指导最终的视频生成。具体来说,第一阶段通过显式和隐式注入模块,将不同的控制信号(如箭头注释和相机轨迹)转换为统一的光流表示。第二阶段则使用光流作为条件引导,生成与输入图像和注释一致的视频。

显式注入模块

显式注入模块用于处理可以直接转换为稀疏光流的控制信号,如箭头注释。通过从参考图像中提取控制点,并使用双三次插值生成稀疏光流,然后通过Flow Generation Model(FGM)将稀疏光流转换为密集光流。

隐式注入模块

隐式注入模块用于处理难以直接转换为像素级光流的控制信号,如相机轨迹。本文采用了渐进式条件注入设计,将相机轨迹嵌入到参考图像特征中,并通过Camera Reference Model(CRM)逐步引导FGM的 denoising 过程,生成统一的密集光流。

视频生成阶段

在第二阶段,利用压缩后的光流表示作为条件引导,通过Vision Transformer(ViT)块将视频潜在变量与文本嵌入结合,生成最终视频。为了解决视频生成中的闪烁和不稳定性问题,本文引入了一种基于频率的稳定化模块,通过修改频域特征,保持场景特征在时间方向上的一致性。

频率稳定化模块

频率稳定化模块通过快速傅里叶变换(FFT)提取视频生成任务中的频域特征,并自适应地修改这些特征以保持视频的稳定性。具体来说,在Diffusion Transformer(DiT)架构中应用FFT,将时域特征转换为频域特征,并通过参数化权重矩阵修改频域特征,然后通过逆FFT恢复时域特征,确保视频生成过程中场景特征的一致性。

训练策略

本文使用了大规模数据集Real10K和DL3DV10K进行光流生成阶段的训练,并利用WebVid10M和OpenVid数据集进行视频生成阶段的训练。通过仔细的数据搜索和增强,本文方法在动态场景下的视频生成表现出良好的泛化能力。

实验设计与结果分析

视频质量评估

本文方法在多个图像和视频质量指标上优于现有方法。具体来说,与Motion-I2V、MOFA-Video、DynamiCrafter、CogVideoX、PyramidFlow和OpenSora等方法相比,AnimateAnything在FID、PSNR、SSIM、LPIPS和FVD等指标上取得了最佳性能。

控制信号驱动视频生成

在相机轨迹控制方面,本文方法在基本轨迹和困难轨迹上均优于CameraCtrl和MotionCtrl,相机轨迹的对齐精度更高。在用户箭头注释驱动动画方面,AnimateAnything能够将各种用户注释转换为相应的光流,生成稳定且一致的视频。

消融实验与分析

消融实验验证了本文方法中各个组件的有效性。实验结果表明,使用统一光流表示、频率稳定化模块和噪声应用都能显著提升视频生成的质量和稳定性。

结论与展望

本文提出了一种统一的可控视频生成方法AnimateAnything,通过将多种视觉控制信号转换为统一的光流表示,实现了精确且一致的视频操作。实验结果验证了该方法在视频质量和控制信号驱动生成上的优越性。未来工作将进一步探索更多样的控制信号和更复杂的场景应用,以推动视频生成技术的发展。

通过本文方法,不仅可以实现精确的视频控制,还能在电影制作和虚拟现实等领域中发挥重要作用。AnimateAnything展示了视频生成技术在多条件控制下的巨大潜力,为未来的研究提供了新的方向。

Top-: Not All Logits Are You Need

2024-11-12|USTC, SIAR, USTC|🔺9

http://arxiv.org/abs/2411.07641v1
https://huggingface.co/papers/2411.07641

研究背景与意义

背景简述:大型语言模型(LLMs)在自然语言处理领域取得了显著进展,展现了在代码生成、数学推理和复杂问题解决等方面的强大能力。这些模型的成功很大程度上归功于其复杂的文本生成机制,而采样策略在文本生成中起到了至关重要的作用。然而,现有的采样方法在保证生成多样性的同时,往往牺牲了推理的准确性。因此,如何在多样性和准确性之间取得平衡,成为了一个重要的研究课题。

意义阐明:本文提出了一种新的采样方法——top-nσ,该方法直接作用于预softmax的logits,通过统计阈值有效区分噪声区域和信息区域。该方法不仅在理论上提供了深刻的见解,还在实验中展示了优越的性能。这为LLM的采样策略开发提供了新的方向,并可能对模型训练方法的改进产生积极影响。

研究方法与创新

技术描述:top-nσ方法的核心思想是基于logits的分布特性。通过观察logits的分布,可以发现其呈现出高斯分布的噪声区域和显著突出的信息区域。传统的采样方法如top-p和min-p在高温下会引入更多的噪声token,而top-nσ方法则能够在不同温度下保持稳定的采样空间。

创新突出:

  1. 新颖的logit分析框架: 本文首次提出了从logits分布的角度来分析采样方法,这为采样策略的开发提供了新的视角。
  2. 高效的top-nσ算法: 该方法直接作用于logits,无需排序操作或额外的softmax变换,具有计算效率高的优点。
  3. 温度不变性: top-nσ方法在不同温度下保持稳定的候选token集合,这一特性在现有采样方法中是独一无二的。
  4. 理论分析: 本文提供了全面的理论分析,包括累积概率质量特性和温度不变性证明,为方法的实现和理解奠定了坚实的理论基础。

优势解释:top-nσ方法通过统计属性识别信息token,避免了复杂的概率操作,实现了有效且高效的采样过程。其温度不变性特性使得在高温下仍能保持良好的性能,这在其他采样方法中是难以实现的。

对比现有方法:与top-k、top-p和min-p等方法相比,top-nσ方法在高温下仍能保持稳定的性能,而其他方法在高温下往往会引入更多的噪声token,导致性能下降。具体来说:

  • top-k: 固定选择前k个token,无法动态调整。
  • top-p: 在高温下会引入更多噪声token。
  • min-p: 虽然在某些数据集上表现良好,但在高温下性能下降明显。

理论基础讨论:本文通过理论分析和实验验证,详细探讨了logits分布的特性和top-nσ方法的行为。特别是对于logits的分布,本文提出了高斯分布和均匀分布的假设,并在此基础上进行了推导和证明。

实验设计与结果分析

实验描述:本文在四个推理任务数据集(AQuA、MATH、GSM8K、GPQA)上对top-nσ方法进行了实验验证。实验设置包括与多种基线方法(如top-k、top-p、min-p、温度采样)的对比,并在不同温度下评估了各方法的性能。

结果分析:实验结果表明,top-nσ方法在不同数据集和温度下均表现优异,尤其是在高温下仍能保持良好的性能。例如,在GSM8K数据集上,top-nσ方法在温度3.0时仍能达到74.61%的准确率,而其他方法则几乎完全失败。

对比基准:top-nσ方法在所有数据集上均取得了最佳或接近最佳的性能,尤其是在高温下表现尤为突出。这挑战了传统观点,即推理任务最适合使用低温确定性解码方法。

多场景表现:实验还验证了top-nσ方法在多次采样下的表现,结果显示该方法在多数数据集上仍能保持较高的准确率。这表明top-nσ方法具有良好的探索能力,能够在不同场景下有效区分有效token和噪声token。

结论与展望

总结贡献:本文提出了top-nσ采样方法,通过直接作用于logits,有效区分噪声和信息区域,实现了在不同温度下的稳定性能。该方法不仅在理论上提供了深刻的见解,还在实验中展示了优越的性能。

分析局限:top-nσ方法虽然在实验中表现优异,但其性能依赖于参数n的选择,过高或过低的n值可能会引入噪声或丢失有效信息。此外,本文的实验主要集中在推理任务上,未来可以进一步验证该方法在其他任务上的表现。

方法展望:未来工作可以探索如何在训练过程中利用logits的统计特性,以进一步提升模型性能。此外,top-nσ方法的温度不变性和高效计算特性使其在测试时扩展技术中具有广阔的应用前景。

SmoothCache: A Universal Inference Acceleration Technique for Diffusion Transformers

2024-11-15|Roblox, Queen’s University|🔺7

http://arxiv.org/abs/2411.10510v1
https://huggingface.co/papers/2411.10510
https://github.com/Roblox/SmoothCache

研究背景与意义

扩散变换模型(Diffusion Transformers, DiT)在图像、视频和语音合成等生成任务中展现出了强大的能力。然而,由于推理过程中需要反复评估资源密集型的注意力和前馈模块,其推理计算成本高昂。为了解决这一问题,本文提出了SmoothCache,一种与模型无关的推理加速技术。该技术利用相邻扩散时间步之间层输出的高相似性,通过自适应缓存和重用关键特征来加速推理过程。SmoothCache的提出旨在加速多种DiT架构的推理过程,同时保持或提升生成质量。

研究方法与创新

技术背景

扩散模型通过逐步去噪的过程生成数据,这一过程通常需要大量的计算资源。为了加速推理过程,已有的研究主要集中在两个方向:减少采样步数和降低每步的计算成本。然而,这些方法在不同模态和架构上的有效性有限。

方法创新

SmoothCache的核心思想是利用相邻时间步之间层输出的高余弦相似性,通过缓存和重用这些输出特征来减少计算冗余。具体而言,SmoothCache通过分析来自小校准集的层级表示误差,自适应地确定在去噪过程的不同阶段的最优缓存强度。这一过程无需重新训练模型,且适用于多种扩散模型和求解器配置。

技术细节

  1. 层输出缓存

    • 定义当前时间步 和先前时间步 的层输出
    • 通过比较层输出的L1相对误差,决定是否使用缓存的输出。
    • 缓存决策仅依赖于校准误差,不影响模型运行时决策。
  2. 缓存策略

    • 对于每个DiT架构,观察到不同样本间的层表示误差在95%置信区间内非常小,表明可以利用这一特性进行缓存。
    • 定义单个超参数 来指导所有层的缓存决策。
  3. 实现细节

    • 应用于DiT-XL-256x256、OpenSora和StableAudioOpen等多个模型。
    • 在每个架构的推理过程中,仅需一次校准推理过程即可获得缓存调度。

对比现有方法

SmoothCache相较于其他缓存技术(如FORA和L2C)具有以下优势:

  • 通用性:无需针对特定模型进行训练,适用于多种模态和架构。
  • 性能:在不同推理时间和质量指标上,SmoothCache表现出色,优于现有技术。

实验设计与结果分析

实验设置

为了验证SmoothCache的有效性,本文在多个候选扩散模型和不同采样步数上进行了实验评估:

  • 文本到图像生成:使用DiT-XL-256x256模型,生成50,000张256x256图像。
  • 文本到视频生成:使用OpenSora模型,生成946个480p 2秒视频。
  • 文本到音频生成:使用StableAudioOpen模型,生成10秒音频样本。

结果分析

实验结果表明,SmoothCache在不同模态和架构上均能有效加速推理过程,同时保持或提升生成质量。具体而言:

  • DiT-XL-256x256:在50个DDIM采样步上,SmoothCache实现了8%到71%的加速,同时保持或提升了生成质量。
  • OpenSora:在30个Rectified Flow采样步上,SmoothCache实现了10%的推理加速和16-22%的MAC减少。
  • StableAudioOpen:在100个DPM-Solver++采样步上,SmoothCache实现了显著的推理速度/质量权衡。

#定性分析

视觉和听觉结果进一步验证了SmoothCache的有效性。对于图像生成,即使在高缓存阈值下,生成质量的下降也非常有限。对于音频生成,波形图显示缓存前后的音频几乎没有 perceptible 差异。对于视频生成,缓存前后的帧间差异也很小。

结论与展望

本文提出了SmoothCache,一种简单且通用的缓存技术,能够显著加速DiT模型的推理过程。实验结果表明,SmoothCache在多种模态和架构上均能有效加速推理过程,同时保持或提升生成质量。未来的工作可以进一步探索以下方向:

  • 缓存策略优化:研究如何进一步减少缓存决策对不同层类型的依赖。
  • 模型泛化:探索SmoothCache在更多不同类型模型上的应用效果。

VeGaS: Video Gaussian Splatting

2024-11-17|Jagiellonian U|🔺5

http://arxiv.org/abs/2411.11024v1
https://huggingface.co/papers/2411.11024
https://github.com/gmum/VeGaS

研究背景与意义

视频编辑和处理一直是计算机视觉和图形学中的重要问题。随着深度学习的发展,隐式神经表示(Implicit Neural Representations, INRs)在图像和视频的连续表示上展现出了巨大的潜力。然而,现有的INRs方法在视频编辑任务中表现不足,特别是在处理非线性动态场景时。为了解决这一问题,本文提出了视频高斯溅射(Video Gaussian Splatting, VeGaS)模型,旨在通过引入一种新型的Folded-Gaussians分布来更好地捕捉视频中的非线性结构,从而实现高质量的视频重建和编辑。

传统的3D高斯溅射(3D Gaussian Splatting, 3DGS)方法虽然能够有效地表示静态场景,但在处理视频数据时存在一定的局限性。VeGaS模型通过扩展3DGS框架,引入Folded-Gaussians分布,使得模型能够更精确地表示视频中的动态变化。本文的核心贡献在于:

  1. 提出了Folded-Gaussians分布,能够捕捉视频中的非线性动态结构。
  2. 构建了VeGaS模型,利用Folded-Gaussians分布对视频数据进行处理,实现了高质量的视频重建和编辑。
  3. 实验证明了VeGaS模型在视频重建任务中优于现有方法,并展示了其在视频编辑中的潜力。

研究方法与创新

3D高斯溅射(3DGS)方法回顾

3DGS方法通过一组三维高斯分布来表示三维场景,并在图像重建和场景几何处理中展现出了良好的效果。该方法的核心思想是将像素坐标和帧发生时间转换为RGB颜色值,从而对图像结构进行编码。然而,3DGS方法在处理视频数据时,其编辑能力被限制在一些基本的线性变换和位移上。

Folded-Gaussians分布

为了解决3DGS方法在视频编辑中的局限性,本文提出了Folded-Gaussians分布。这种分布是对经典高斯分布的推广,能够捕捉视频中的非线性结构。具体来说,Folded-Gaussians分布通过引入时间变量t的函数f(t)和缩放函数a(t),实现了对空间变量的非线性变换。

理论推导:

  1. 条件分布: 对于给定的时间变量t,空间变量s的条件分布仍然是高斯分布,其参数为:
  2. 联合分布: 通过链式法则,可以得到Folded-Gaussians分布的概率密度函数:

VeGaS模型

VeGaS模型基于Folded-Gaussians分布,对视频数据进行处理。模型的核心思想是利用三维高斯分布对视频帧进行建模,并通过条件分布对帧发生时间进行调整。具体步骤如下:

  1. 初始化: 利用均匀采样初始化高斯分布的均值和协方差矩阵。
  2. 训练过程: 利用多项式函数f(t)和缩放函数a(t)对高斯分布进行调整,通过最大化似然函数进行优化。
  3. 视频编辑: 通过调整高斯分布的参数,实现对视频中特定对象的全局修改(如缩放和旋转)以及单帧内的局部修改。

实验设计:

  1. 数据集: 本文在Bunny和DAVIS数据集上进行了实验,验证了VeGaS模型在不同视频处理任务中的效果。
  2. 对比方法: 对比了Omnimotion、CoDeF、VGR等现有方法,实验结果表明VeGaS模型在视频重建和编辑任务中均取得了最佳效果。

实验设计与结果分析

数据集

  • Bunny数据集: 包含132帧,分辨率为720×1280。
  • DAVIS数据集: 包含多个高分辨率视频,用于视频对象分割任务。

实验结果

  1. 帧重建任务: 在DAVIS数据集上的实验结果表明,VeGaS模型在PSNR指标上优于现有方法,具体数值如下表所示:

  2. 帧插值任务: 在DAVIS数据集上的定性实验结果表明,VeGaS模型在帧插值任务中生成的视频帧质量优于VGR方法。

  3. 视频编辑任务: 实验结果表明,VeGaS模型能够实现对视频中特定对象的全局修改和单帧内的局部修改,展示了其在视频编辑中的潜力。

结论与展望

本文提出了VeGaS模型,通过引入Folded-Gaussians分布,实现了对视频数据的高质量重建和编辑。实验结果表明,VeGaS模型在视频重建和编辑任务中均取得了优于现有方法的效果。

然而,本文方法仍存在一定的局限性,如在处理复杂动态场景时的计算开销较大。未来的工作将集中在以下几个方面:

  1. 效率优化: 通过改进算法和优化计算资源,提升VeGaS模型在处理大规模视频数据时的效率。
  2. 扩展应用: 将VeGaS模型应用于更多的视频处理任务,如视频超分辨率和视频去噪等。
  3. 理论研究: 进一步研究Folded-Gaussians分布的理论性质,探索其在其他领域的应用潜力。


AI研究前瞻
欢迎来到AI研究前瞻 - 您的人工智能研究前沿指南! 我们致力于为您提供最新、最前沿的AI研究论文解读和分析,并以通俗易懂的方式呈现其核心思想和潜在影响。 一起探索AI的无限可能,共同见证人工智能改变世界的每一步!
 最新文章