对抗性特征与3D生成:无需训练的对抗性引导,负提示词合并; 结构化3D潜在空间表示
Negative Token Merging: Image-based Adversarial Feature Guidance
2024-12-02|U Washington, ANU, Allen Institute for AI|🔺13
http://arxiv.org/abs/2412.01339v2
https://huggingface.co/papers/2412.01339
https://negtome.github.io
研究背景与意义
在当今的图像生成领域,基于文本的扩散模型(T2I)取得了显著进展,然而,生成过程中避免不必要概念的挑战依然存在。尤其是,当前的负提示方法在捕捉复杂视觉概念时往往显得不足,尤其是在处理版权内容时更是如此。本文提出的“负令牌合并”(NegToMe)方法,旨在通过直接利用视觉特征进行对抗性引导,从而提高生成图像的多样性和质量。此方法不仅减少了生成图像与版权内容的相似性,还在保持图像质量的同时,提升了不同种族、性别等多样性。
研究方法与创新
NegToMe是一种简单且无需训练的对抗性引导方法,它通过在逆扩散过程中将生成图像的视觉特征与参考图像的特征相推开,来实现对抗性引导。具体而言,NegToMe的核心在于:
视觉特征引导:通过直接使用参考图像的视觉特征,而不是单纯依赖文本提示,来进行对抗性引导。 多样性提升:在生成过程中,通过将每幅图像的特征推开,显著提高输出的多样性,特别是在处理同一批次图像时。 版权内容减少:通过引导特征远离版权图像,NegToMe实现了对版权内容的有效规避,减少了视觉相似性。
这种方法的创新性在于它的简单性和广泛适用性,能够与多种扩散模型兼容,并且只需少量代码即可实现。
实验设计与结果分析
在实验中,研究者们通过构建包含多个对象类别的输入数据集,评估NegToMe在提高输出多样性和减少与版权角色相似性方面的有效性。结果表明:
输出多样性:NegToMe显著提高了生成图像的多样性,尤其是在种族、性别等方面。 版权相似性降低:在与版权图像的比较中,NegToMe成功减少了34.57%的视觉相似性,同时保持了生成图像的质量。 应用广泛性:该方法不仅适用于提高多样性,还能够改善图像美学,尤其是在使用低质量参考图像时。
结论与展望
NegToMe为对抗性引导提供了一种新的思路,展示了如何通过视觉特征提升图像生成的多样性和质量。未来的研究可以探索该方法在其他生成模型中的应用,以及如何进一步优化其性能。通过不断的创新,NegToMe有望成为图像生成领域的重要工具,帮助用户更好地利用先进的扩散模型进行创作。
Structured 3D Latents for Scalable and Versatile 3D Generation
2024-12-02|THU, USTC, Microsoft Research|🔺13
http://arxiv.org/abs/2412.01506v1
https://huggingface.co/papers/2412.01506
https://trellis3d.github.io
研究背景与意义
在近年来,AI生成内容(AIGC)在3D生成领域取得了显著进展,但现有的3D生成模型在生成质量上仍然不及其2D前身。传统的3D生成方法面临着多样化场景下的质量不足和灵活性不足的问题。为了解决这些挑战,本文提出了一种统一的结构化潜在表示(SLAT),旨在通过稀疏的3D网格与强大的视觉基础模型相结合,提升3D生成的质量与多样性。SLAT的核心在于将几何和外观信息编码为局部潜在变量,基于此,我们的研究目标是开发一种高质量且多功能的3D生成方法,能够灵活应对不同的下游需求。
研究方法与创新
本文提出的SLAT方法通过引入稀疏结构,允许在局部体素周围对属性进行解码,从而实现多种3D表示的生成。具体而言,SLAT结合了稀疏3D网格和密集的多视图视觉特征,确保生成的3D资产在形状和纹理细节上都能达到高质量标准。该方法的创新点主要体现在以下几个方面:
高质量生成:SLAT能够生成具有复杂形状和细致纹理的多样化3D资产,显著提升了3D生成的视觉质量。 多样化生成:该方法支持从文本或图像提示生成多种最终3D表示,包括但不限于辐射场、3D高斯体和网格。 灵活编辑:SLAT允许对3D资产进行灵活的调整和编辑,例如通过文本或图像提示进行局部区域的删除、添加和替换。 无需拟合训练:在整个过程中,无需对3D对象进行拟合,从而简化了训练流程。
实验设计与结果分析
在实验设计中,本文通过构建一个包含50万个高质量3D资产的大型数据集,采用两阶段生成管道来训练SLAT模型。实验结果表明,SLAT在生成质量、灵活性和可编辑性方面均显著优于现有方法。具体结果包括:
重建质量:在多个评估指标上,SLAT均表现出色,超越了当前最先进的3D生成方法。 生成多样性:通过不同的输入提示,SLAT能够生成多种风格和形状的3D资产,显示出其强大的适应能力。 用户偏好:通过用户研究,SLAT生成的3D资产在视觉质量上获得了用户的高度认可。
结论与展望
本文提出的SLAT方法为3D生成领域提供了新的思路,展示了在多样性和质量上的巨大潜力。尽管当前模型在生成质量上已经取得了显著进展,但未来仍需进一步优化模型结构和训练流程,以提升生成效率和适应性。此外,随着3D生成技术的不断发展,SLAT有望在数字内容创作、虚拟现实和游戏开发等多个领域发挥重要作用。