视觉与视频生成技术:无边界4D城市场景生成;视频生成跨层信息整合,提高时间,空间一致性;无调参的长视频生成,跨帧注意力主体对齐
CityDreamer4D: Compositional Generative Model of Unbounded 4D Cities
2025-01-15|NTU, NTU S-Lab|🔺11
http://arxiv.org/abs/2501.08983v1
https://huggingface.co/papers/2501.08983
https://haozhexie.com/project/city-dreamer-4d
研究背景与意义
在近年来,3D和4D场景生成技术的快速发展引发了广泛关注,尤其是在城市规划、环境模拟及游戏资产开发等领域。尽管已有多个研究在3D场景生成方面取得了显著进展,但4D城市生成却面临更大的挑战。这是因为4D城市不仅需要处理复杂的建筑和交通动态,还要确保在视觉上保持一致性。CityDreamer4D的提出,旨在填补这一空白,提供一种新的生成方法,能够有效地分离动态对象和静态场景,从而提升城市生成的质量和多样性。
研究方法与创新
CityDreamer4D的核心创新在于其模块化设计,分为三个主要生成模块:静态场景生成(Unbounded Layout Generator)、动态交通场景生成(Traffic Scenario Generator)和实例生成(Building Instance Generator和Vehicle Instance Generator)。这种设计允许模型在处理复杂城市场景时,更加灵活和高效。具体而言,该模型采用了基于鸟瞰图的场景表示,结合自定义的生成哈希网格和周期性位置嵌入,有效地捕捉了背景物体和实例的多样性。
此外,CityDreamer4D还引入了针对背景物体和实例的神经场,这种方法不仅提升了生成质量,还增强了模型的可扩展性和适应性。通过对比现有方法,CityDreamer4D展示了在生成真实4D城市方面的卓越能力,尤其是在实例编辑、城市风格化和城市模拟等下游应用中,表现出色。
实验设计与结果分析
在实验设计中,研究团队构建了一个全面的数据集,包括来自OpenStreetMap、Google Earth和CityTopia的真实世界城市布局和图像。这些数据集不仅提供了丰富的训练数据,还涵盖了3D实例标注,为模型的训练和评估奠定了基础。实验结果表明,CityDreamer4D在生成4D城市时,能够有效地保持动态与静态元素之间的协调,且在多个场景下均表现出显著的统计显著性,验证了其方法的有效性。
结论与展望
CityDreamer4D的贡献在于其创新的生成框架,成功地将动态与静态场景分离,提供了一种全新的4D城市生成方法。尽管该研究在多个方面取得了成功,但仍存在局限性,例如对复杂场景的处理能力和生成质量的进一步提升。未来的研究可以集中在优化生成算法、扩展数据集以及探索更为复杂的城市环境,以推动4D城市生成技术的进一步发展。
RepVideo: Rethinking Cross-Layer Representation for Video Generation
2025-01-15|NTU, Shanghai AI Lab|🔺10
http://arxiv.org/abs/2501.08994v1
https://huggingface.co/papers/2501.08994
https://vchitect.github.io/RepVid-Webpage
研究背景与意义
在视频生成领域,随着扩散模型的引入,研究者们取得了显著进展,尤其是在文本到视频生成(T2V)方面。然而,当前的研究主要集中在模型规模的扩大上,而对中间层特征的直接影响探讨较少。视频生成的复杂性在于它不仅需要生成静态图像的细节,还要保持帧间的时间连续性和空间一致性。因此,提升视频生成的质量和一致性成为了研究的关键。
本论文提出了RepVideo,一个增强的表示框架,旨在通过汇聚相邻层的特征来改善视频生成的空间表现和时间一致性。该方法不仅提升了生成视频的视觉吸引力,还增强了视频内容与文本描述之间的语义一致性。这一研究不仅为视频生成提供了新的视角,也为未来的相关研究奠定了基础。
研究方法与创新
RepVideo的核心创新在于其特征缓存模块和门控机制的引入。通过在多个相邻变换层之间聚合特征,RepVideo能够生成更稳定和丰富的中间表示。这一过程确保了每一帧不仅与文本输入保持一致,而且在时间上与前后帧保持一致,从而提高了视频生成的质量。
特征缓存模块:该模块允许每个变换层存储其输出的标记序列,通过汇聚来自多个层的特征,RepVideo能够捕捉更丰富的语义信息和结构细节。 门控机制:通过动态调整聚合特征与原始输入的相对影响,RepVideo有效平衡了语义增强与层特定细节的保留。
这些创新显著改善了视频生成的空间细节和时间一致性,使得生成的视频在质量和一致性上都优于现有方法。
实验设计与结果分析
在实验中,RepVideo在多个定量和定性指标上表现出色。通过与基线模型CogVideoX-2B的比较,RepVideo在运动平滑性、对象分类和空间关系等指标上均取得了显著提升。具体结果如下:
自动评估:RepVideo在VBench上获得了81.94%的总分,超出基线模型0.4%。 人类评估:在视频-文本一致性、时间一致性和空间外观等方面,RepVideo的平均胜率超过75%。 消融研究:分析发现,RepVideo的特征聚合机制在保持空间一致性和提升时间一致性方面起到了关键作用。
这些结果表明,RepVideo不仅在生成质量上优于现有模型,还在保持语义一致性和时间流畅性方面具有显著优势。
结论与展望
本研究提出的RepVideo框架为文本到视频生成领域提供了一种新的解决方案,通过改进中间表示的聚合方式,提高了生成视频的空间细节和时间一致性。未来的研究可以集中在进一步优化特征聚合机制、提高人类中心内容生成的能力以及探索与其他预训练模型的结合,以推动视频生成技术的进步。
Ouroboros-Diffusion: Exploring Consistent Content Generation in Tuning-free Long Video Diffusion
2025-01-15|U Rochester, HiDream.ai|🔺4
http://arxiv.org/abs/2501.09019v1
https://huggingface.co/papers/2501.09019
研究背景与意义
在当今的人工智能领域,视频生成技术的快速发展为内容创作带来了前所未有的机遇。然而,尽管已有多种生成模型相继被提出,它们在长视频生成中的一致性和质量仍面临挑战,特别是在长时间序列中保持视觉和内容一致性。FIFO-Diffusion(Kim et al. 2024)作为一种新兴的生成方法,虽然在无调优的情况下实现了长视频的生成,但在处理长时间序列时,往往由于缺乏跨帧的对应建模,导致生成视频的时间一致性不足。因此,本文提出了Ouroboros-Diffusion框架,旨在通过引入新的采样技术和跨帧注意机制,提升长视频生成的内容一致性和视觉质量。
研究方法与创新
Ouroboros-Diffusion框架的创新点主要体现在以下几个方面:
一致性建模:通过引入一种新的潜在采样技术,Ouroboros-Diffusion在队列尾部进行结构一致性增强,确保生成的每一帧之间保持视觉上的平滑过渡。
主观一致性:提出了Subject-Aware Cross-Frame Attention(SACFA)机制,该机制通过对短时间段内的主体进行对齐,提升了跨帧的视觉一致性。
自回归指导:利用历史清晰帧的信息指导噪声帧的去噪过程,从而增强了全局信息的交互,确保生成视频在时间维度上的一致性。
通过这些创新,Ouroboros-Diffusion在VBench基准测试中表现出色,尤其在主体一致性、运动平滑度和时间一致性等指标上均超越了现有的其他方法。
实验设计与结果分析
在实验设计中,本文对Ouroboros-Diffusion进行了全面的性能评估。通过对比FIFO-Diffusion和其他最新的生成模型,结果显示,Ouroboros-Diffusion在生成的单场景视频中,主体一致性得分达到96.06%,背景一致性得分达到96.90%。在多场景视频生成中,Ouroboros-Diffusion同样表现优异,尤其在运动平滑度和时间闪烁方面,分别达到了97.77%和95.82%的高分。
实验设置:在VBench基准上,使用128帧的单场景视频和256帧的多场景视频进行评估。
对比分析:与FIFO-Diffusion相比,Ouroboros-Diffusion在时间一致性方面表现更佳,减少了生成视频中的视觉不一致性和背景变化。
性能贡献:通过消融实验,分析了每个组件对整体性能的贡献,验证了结构一致性和主观一致性在长视频生成中的重要性。
结论与展望
本文提出的Ouroboros-Diffusion框架有效解决了长视频生成中的一致性问题,通过引入潜在采样和跨帧注意机制,显著提升了生成视频的视觉质量和内容一致性。未来的研究可以进一步探讨如何在更大规模的数据集上进行模型的训练和优化,以实现更高质量的长视频生成。同时,探索Ouroboros-Diffusion在其他生成任务中的应用潜力也是一个值得关注的方向。