1.18-2|基于Transformer的视觉Tokenizer;高保真的3D资产,模型与纹理生成;多主体个性化T2I

文摘   2025-01-18 08:22   浙江  

视觉生成与重建技术:基于Transformer的视觉Tokenizer;高保真的3D资产,模型与纹理生成;多主体个性化T2I

Learnings from Scaling Visual Tokenizers for Reconstruction and Generation

2025-01-16|UT Austin, Meta GenAI, Meta , Meta FAIR, Stanford|🔺16

http://arxiv.org/abs/2501.09755v1
https://huggingface.co/papers/2501.09755
https://vitok.github.io

研究背景与意义

在现代高保真图像和视频生成方法中,视觉Tokenizer作为关键组件,负责将像素编码为低维潜在空间,并随后进行解码。尽管近年来对生成器的研究取得了显著进展,尤其是在Transformer架构的扩展上,但视觉Tokenizer的扩展却鲜有关注。本文旨在探讨视觉Tokenizer在生成任务中的重要性,尤其是通过对自动编码器设计的扩展来提升重构和生成性能。研究的意义在于填补这一领域的空白,推动图像和视频生成技术的进一步发展。

研究方法与创新

本文提出了一种名为ViTok的增强视觉Transformer架构,替代传统的卷积神经网络作为Tokenizer。ViTok通过以下几个方面进行创新:

  1. 架构设计:将卷积骨干网络替换为Transformer架构,提升了模型的可扩展性。
  2. 大规模训练:在超出ImageNet-1K的数据集上进行训练,避免了数据规模对Tokenizer扩展的限制。
  3. 瓶颈分析:研究了自动编码器瓶颈的规模对重构和生成性能的影响,发现瓶颈大小与重构质量高度相关,但对生成性能的影响则更为复杂。
  4. 解码器优化:通过扩展解码器的规模,显著改善了重构效果,但对生成任务的影响则需要进一步优化。

这些创新为视觉Tokenizer的设计提供了新的视角,推动了生成模型的性能提升。

实验设计与结果分析

在实验中,ViTok在多个数据集上进行了广泛的评估,主要包括图像和视频重构任务。实验结果显示:

  1. 重构性能:通过调整潜在空间的浮点数,ViTok在256p和512p的图像重构任务中表现出色,重构质量与浮点数呈现出明显的正相关关系。
  2. 生成性能:在生成任务中,优化浮点数和通道大小的组合,发现最佳的配置能够平衡重构与生成能力,避免过高的通道数导致模型收敛困难。
  3. 视频重构:ViTok在视频任务中展现出更好的压缩能力,证明了视频数据的冗余性使得其在相同的浮点数下能够实现更高的重构质量。

结论与展望

本研究揭示了视觉Tokenizer在生成模型中的重要性,并通过ViTok的设计和实验验证了其潜力。尽管取得了一定的成果,但仍存在局限性,如生成性能与重构性能之间的权衡。未来的研究可以进一步探索不同损失函数对生成质量的影响,以及如何在更复杂的生成任务中优化模型的架构。

总结来说,ViTok不仅为视觉Tokenizer的设计提供了新的方法论,也为图像和视频生成领域的研究开辟了新的方向。

CaPa: Carve-n-Paint Synthesis for Efficient 4K Textured Mesh Generation

2025-01-16|NC Research|🔺7

http://arxiv.org/abs/2501.09433v1
https://huggingface.co/papers/2501.09433
https://ncsoft.github.io/CaPa/

研究背景与意义

在现代生成建模领域,从文本或视觉输入合成高质量的3D资产已成为一个核心目标。随着游戏、电影和虚拟现实/增强现实等行业对高质量、可扩展的3D资产需求的快速增长,现有的3D生成算法面临着多视图不一致、生成速度慢、低保真度和表面重建等挑战。尽管已有研究尝试解决这些问题,但仍缺乏一个全面的解决方案。因此,本文提出的CaPa(Carve-n-Paint)框架,旨在高效生成高保真的3D资产,以满足商业应用的需求。

研究方法与创新

CaPa框架采用两阶段的生成过程,将几何生成与纹理合成解耦。首先,利用3D潜在扩散模型生成几何体,该模型通过多视图输入引导几何生成,确保结构一致性。其次,采用一种新颖的空间解耦交叉注意机制,合成高分辨率的纹理(最高可达4K)。这种方法有效解决了多视图不一致性问题,尤其是“雅努斯问题”(即视图间纹理不一致),并且不需要对现有模型进行架构调整或广泛重训练。这种创新的设计使得CaPa在生成高质量3D资产时,不仅提高了效率,还提升了生成结果的保真度。

实验设计与结果分析

CaPa的实验设计包括对比基准测试和统计显著性分析。通过对比现有的3D生成方法,CaPa在纹理保真度和几何稳定性方面均表现出显著优势。实验结果表明,CaPa在生成高保真3D资产方面,所需时间不到30秒,且生成的资产在多视图下保持一致性,极大地推动了实际可用3D资产生成的标准。

结论与展望

本文提出的CaPa框架在3D资产生成领域展现了显著的贡献,通过有效的几何与纹理生成解耦、创新的空间解耦交叉注意机制以及高效的3D感知遮挡修复算法,推动了3D生成技术的发展。未来的研究可以进一步探索如何将该框架与其他生成模型结合,以实现更高效的3D资产生成,并扩展到更多的应用场景中。

AnyStory: Towards Unified Single and Multiple Subject Personalization in Text-to-Image Generation

2025-01-16|InstituteforIntelligentComputing, Alibaba Tongyi Lab, BUPT|🔺6

http://arxiv.org/abs/2501.09503v1
https://huggingface.co/papers/2501.09503
https://aigcdesigngroup.github.io/AnyStory/

研究背景与意义

随着生成模型的快速发展,文本到图像生成的能力已经取得了显著进展。然而,生成高保真度的个性化图像仍然面临许多挑战,尤其是在涉及多个主题的情况下。传统方法通常依赖于针对特定主题的微调,这不仅耗时且对训练数据的多样性要求高。为了解决这一问题,本文提出了AnyStory,一个统一的个性化生成框架,旨在提高单一和多个主题的生成质量。AnyStory通过采用“编码-再路由”的方法,利用强大的ReferenceNet和CLIP视觉编码器,实现了对主题特征的高保真编码,同时增强了生成的灵活性和可控性。

研究方法与创新

AnyStory的核心在于其创新的框架设计,主要包括两个关键模块:增强的主题表示编码器和解耦的实例感知路由模块。

  1. 增强的主题表示编码器

  • 采用简化的ReferenceNet与CLIP视觉编码器相结合,能够处理更高分辨率的输入,从而保留更多的主题细节。
  • 通过对ReferenceNet的结构优化,减少了参数数量和计算复杂度,提高了编码效率。
  • 解耦的实例感知路由模块

    • 通过独立的分支预测主题在潜在空间中的可能位置,确保主题条件的灵活注入,避免了传统方法中常见的特征混合问题。
    • 该模块的设计使得在多主题生成中,可以更精确地控制每个主题的影响区域,从而提升生成图像的质量。

    通过这两个模块,AnyStory不仅能够实现对单一和多个主题的个性化生成,还能在背景、姿势和视角等方面保持一致性。

    实验设计与结果分析

    在实验设计中,AnyStory的有效性通过与现有技术的对比进行验证。实验结果表明,AnyStory在保留主题细节、对齐文本描述以及多个主题的个性化生成方面表现优异。具体实验设置包括:

    • 使用Stable Diffusion XL作为基础模型。
    • 训练过程中采用了大规模的多主题图像数据集,确保了模型的泛化能力。
    • 通过定量指标和主观评估相结合的方式,全面评估生成图像的质量。

    结果显示,使用ReferenceNet编码器显著提升了主题细节的保留,而解耦的路由模块有效避免了特征混合现象,提升了生成图像的整体质量。

    结论与展望

    AnyStory作为一个统一的个性化生成框架,展示了在单一和多个主题生成中的强大能力。尽管目前在生成个性化背景方面仍存在一定局限,未来的研究将致力于拓展AnyStory的控制能力,以实现更为复杂的场景生成。此外,针对生成过程中的“复制粘贴”效应,研究团队计划通过数据增强和更强大的生成模型来进一步优化生成效果。


    AI研究前瞻
    欢迎来到AI研究前瞻 - 您的人工智能研究前沿指南! 我们致力于为您提供最新、最前沿的AI研究论文解读和分析,并以通俗易懂的方式呈现其核心思想和潜在影响。 一起探索AI的无限可能,共同见证人工智能改变世界的每一步!
     最新文章