1. Track4Gen: Teaching Video Diffusion Models to Track Points Improves Video Generation
尽管最新的视频生成模型能创造出视觉效果丰富的输出,但在处理外观漂移问题时仍存在挑战——即物体在不同帧之间逐渐退化或出现不一致的变化,破坏了视觉连贯性。我们认为这一问题是由于在特征层面缺少明确的空间跟踪监督所致。为了解决这个问题,我们提出了一种名为Track4Gen的空间感知视频生成模型,它结合了视频扩散损失和帧间点跟踪技术,为扩散特征提供了强化的空间监督。
Track4Gen通过对现有视频生成架构进行最小限度的修改,成功地将视频生成和点跟踪任务融合到了一个单一的网络中。该模型基于Stable Video Diffusion构建,证明了视频生成与点跟踪这两种通常独立处理的任务是可以被统一的。大量实验结果显示,Track4Gen有效减少了外观漂移现象,确保了视频在时间维度上的稳定性及视觉上的连贯性,显著提升了视频生成的效果。
项目页面:hyeonho99.github.io/track4gen
论文:https://arxiv.org/pdf/2412.06016
2. MIT-10M: A Large Scale Parallel Corpus of Multilingual Image Translation
图像描述(Image Translation, IT)技术在多个领域展示了巨大的潜力,可以将图像中的文本内容描述成多种语言。然而,当前可用的数据集往往在规模、多样性和质量方面存在局限,限制了IT模型的发展和评估。为了解决这些问题,我们推出了一款名为MIT-10M的大规模多语言图像描述译平行语料库,它包含超过1000万对图像-文本对,来源于真实场景的数据,并经过严格的数据清理和多语言翻译验证过程。
MIT-10M 数据集包括84万张图片,涵盖三种不同的分辨率,涉及28个不同类别,任务难度分为三级,且提供了14种语言的图像-文本对,这大大优于现有的数据集。通过在MIT-10M上进行广泛实验,我们发现该数据集对于评估模型处理现实中复杂的图像描述任务的能力具有更高的适应性。实验结果显示,利用MIT-10M进行微调后的模型性能比基线模型提高了三倍,进一步证明了MIT-10M的优势。
论文:https://arxiv.org/pdf/2412.07147
3. SynCamMaster: Synchronizing Multi-Camera Video Generation from Diverse Viewpoints
随着视频扩散模型的最新进展,这些模型展现了在模拟真实世界动态和保持三维一致性上的杰出能力。受此启发,我们探索了这些模型在确保不同视角下动态一致性方面的潜力。不同于现有的专注于单个物体多视角生成以实现四维重建的方法,我们的关注点是从任意视角生成开放世界的视频,并结合六自由度(6 DoF)摄像机位置。
为此,我们开发了一种即插即用模块,它能增强预训练的文字到视频模型,以支持多摄像机视频生成,确保各视角间内容的一致性。特别是,我们引入了多视角同步模块,用来保持视角间的外观和几何一致性。考虑到高质量训练数据的匮乏,我们设计了一套混合训练方案,通过使用多摄像机图像和单目视频来补充由Unreal Engine渲染的多摄像机视频。此外,我们的方法支持一些引人入胜的扩展功能,如从新视角重新渲染视频。我们还发布了名为SynCamVideo-Dataset的多视角同步视频数据集,以促进相关研究。
项目页面:https://jianhongbai.github.io/SynCamMaster/
论文:https://arxiv.org/pdf/2412.07760
4. LAION-SG: An Enhanced Large-Scale Dataset for Training Complex Image-Text Models with Structural Annotations
近年来,文本到图像(Text-to-Image, T2I)生成技术在创建高质量图像方面取得了显著成就。然而,当涉及到多个物体和复杂关系的组合图像生成时,现有的T2I模型性能有所下降。我们认为这主要是因为当前图像-文本对数据集缺乏精确的对象间关系标注,仅仅依靠提示词无法充分捕捉复杂场景中的语义结构。
为了解决这一问题,我们构建了LAION-SG——一个包含高质量场景图(Scene Graph, SG)结构化注释的大规模数据集。LAION-SG详细描述了多个对象的属性及它们之间的关系,从而有效地表达了复杂场景中的语义结构。基于这个数据集,我们训练了一个新的基础模型SDXL-SG,它能够在生成过程中整合结构化注释信息。大量实验证明,在LAION-SG上训练的模型在复杂场景生成方面相比使用现有数据集训练的模型有显著的性能提升。
此外,我们还推出了一套名为CompSG-Bench的基准测试平台,专门用于评估模型在组合图像生成任务上的表现,为这一领域设定了新的评价标准。
论文:https://arxiv.org/pdf/2412.08580
知识星球,新人优惠券来袭,结识一群志同道合的小伙伴一起成长。
下一个风口会不会是生成式AI 与具身智能的时代,我们特意创建了生成式AI与具身智能交流社区,关于大模型,机器人的相关业界动态,学术方向,技术解读等等都会在社区与大家交流,欢迎感兴趣的同学加入我们(备注具身智能)!
自动驾驶之星知识星球主打自动驾驶量产全技术栈学习,并包括: 学习板块,求职面试,有问必答,论文速递,行业动态五大板块!星球内部包括端到端大模型,VLM大模型,BEV 障碍物/车道线/Occ 等的学习资料!
生成式AI与具身智能知识星球,我们相信生成式AI 与具身智能会碰撞出出乎我们意料的内容,本知识形象并包括: 学习板块,求职面试,有问必答,论文速递,行业动态五大板块!星球内部包括生成式AI大模型,具身智能,业界资料整理等的学习资料!
👇点个“赞”和“在看”吧