【扩散模型】拿下CVPR两篇最佳论文,它究竟有何特别之处?我直呼牛批克拉斯!

文摘   2025-01-08 11:16   安徽  

【扩散模型(Diffusion Models)】是一种基于概率过程的生成模型,它通过逐步引入噪声并在反向过程中去除噪声来生成数据。这种方法在图像、音频和3D内容生成等多个领域展现出了卓越的性能。扩散模型的核心优势在于其能够生成高质量且高逼真度的合成数据,同时保持对输入条件(如文本描述)的敏感性,使其在条件生成任务中尤为有效。此研究方向推动了人工智能在创意和设计领域的应用,提高了自动内容创作的灵活性和可控性,为虚拟现实、游戏开发和电影制作等产业带来了革命性的工具。

为了帮助大家全面掌握【扩散模型】的方法并寻找创新点,本文总结了最近两年【扩散模型】相关的20篇顶会论文研究成果,这些论文、来源、论文的代码都整理好了,希望能给各位的学术研究提供新的思路。


需要的同学扫码添加我
回复“扩散模型20”即可全部领取


1、DiffIR: Efficient Diffusion Model for Image Restoration

方法

  • DiffIR架构:DiffIR提出了一种高效的扩散模型,用于图像恢复(IR),包括一个紧凑的图像恢复先验提取网络(CPEN)、动态图像恢复变换器(DIRformer)和去噪网络。
  • 两阶段训练:DiffIR的训练分为两个阶段,即预训练和扩散模型(DM)训练。在预训练阶段,将真实图像输入到CPEN中以捕获紧凑的IR先验表示(IPR),以指导DIRformer。在第二阶段,训练DM直接从低质量(LQ)图像估计相同的IPR。
  • 迭代去噪:DiffIR利用较少的迭代次数来获得准确的估计,与传统的扩散模型相比,可以生成更稳定和逼真的结果。
  • 联合优化:由于迭代次数较少,DiffIR可以采用CPEN、DIRformer和去噪网络的联合优化,进一步减少估计误差的影响。

创新点

  • 紧凑的IR先验表示(IPR):与传统的扩散模型不同,DiffIR专注于生成一个紧凑的向量IPR,而不是整个图像或特征图,这使得模型可以用更少的迭代次数获得准确的估计。
  • 动态IRformer(DIRformer):DiffIR采用了一个动态变换器结构,能够模拟长距离像素依赖性,并通过Unet形状堆叠变换器块来提取和聚合多级特征。
  • 高效的迭代过程:DiffIR的迭代过程比传统DM更高效,因为它只需要少量迭代就可以达到与传统DM相似或更好的性能。
  • 联合优化策略:DiffIR提出了一种联合优化策略,允许去噪网络和解码器(即DIRformer)一起优化,以进一步提高估计误差的鲁棒性。
  • 实验验证:通过在多种图像恢复任务上的广泛实验,DiffIR证明了其在保持较低计算成本的同时,能够达到或超越现有最先进技术的性能。

2、FreeControl: Training-Free Spatial Control of Any Text-to-Image Diffusion Model with Any Condition

方法

  • FreeControl框架:提出了一个无需训练的方法,用于控制预训练的文本到图像(T2I)扩散模型,支持多种条件、模型架构和检查点。
  • 分析阶段:FreeControl通过生成少量种子图像并对其进行主成分分析(PCA),构建线性特征子空间,以此作为语义结构的表示。
  • 合成阶段:在合成阶段,FreeControl使用结构引导和外观引导。结构引导促进生成图像与引导图像在结构上的对齐,而外观引导则从未经控制的生成图像中借用外观细节,以丰富生成图像的视觉效果。
  • 特征子空间建模:通过在T2I模型生成过程中捕获输入文本描述的空间结构和局部外观,FreeControl能够在引导图像的结构下生成与文本描述一致的图像。
  • 无需额外训练:FreeControl不需要对预训练的T2I模型进行额外训练,即可实现对多种控制条件的支持。

创新点

  • 无需训练的控制方法:FreeControl是首个支持多种控制条件、模型架构和定制检查点的通用无需训练的解决方案。
  • 多条件支持:支持包括草图、法线图、深度图、边缘图、人体姿态、分割掩模、自然图像等在内的多种输入条件。
  • 结构与外观分离:通过特征子空间的建模,FreeControl能够在保持文本描述的外观概念的同时,实现与引导图像的空间结构对齐。
  • 广泛的适用性:FreeControl能够适应多种预训练的T2I模型架构和检查点,包括Stable Diffusion的不同版本,以及通过DreamBooth和LoRA等方法定制的检查点。
  • 竞争性能:与基于训练的方法相比,FreeControl在保持图像-文本对齐的同时,提供了可比的图像合成质量,并且在具有挑战性的控制条件下表现出色。
  • 特征空间利用:FreeControl利用了T2I模型在生成过程中的特征空间,通过分析阶段的PCA来获取语义结构的表示,这一点在以往的无需训练方法中尚未被充分利用。


需要的同学扫码添加我
回复“扩散模型20”即可全部领取



3、HumanNorm: Learning Normal Diffusion Model for High-quality and Realistic 3D Human Generation

方法

  • 文本到3D人类模型生成:HumanNorm通过文本描述作为输入,生成具有优越几何质量和逼真纹理的3D人类模型。
  • Normal-adapted扩散模型:提出一种新的扩散模型,能够根据用户提示生成高保真的法线贴图,这些贴图对应于依赖视图和身体感知的文本。
  • Normal-aligned扩散模型:学习生成与法线贴图对齐的颜色图像,将物理几何细节转化为逼真的外观。
  • 多步骤得分蒸馏采样(SDS)损失:引入多步骤SDS损失,用于增强3D人类生成的性能,包括减少过饱和纹理和增强几何质量。
  • 渐进式几何生成策略:设计了一种渐进式策略,用于减少几何噪声并提高几何质量。
  • 3D表示和渲染:使用DMTET作为3D表示,并通过可微分渲染函数进行渲染。

创新点

  • 法线适应扩散模型:HumanNorm引入了一种新的法线适应扩散模型,这种模型能够根据文本提示生成与3D几何结构相匹配的法线贴图。
  • 法线对齐扩散模型:提出了一种法线对齐的扩散模型,该模型利用法线贴图作为条件,确保生成的纹理与几何结构对齐,从而避免假3D细节和过饱和外观。
  • 多步骤SDS损失:创新地使用多步骤得分蒸馏采样损失,用于在纹理生成阶段从多个扩散步骤中恢复图像分布,确保生成的纹理更自然。
  • 渐进式几何生成:提出了一种新的渐进式策略,通过逐步引入高频细节来增强几何质量,同时避免了噪声和不真实的身体比例。
  • 高质量的3D人类模型:HumanNorm能够生成具有复杂几何细节和逼真外观的3D人类模型,超越了现有的文本到3D方法在几何和纹理质量上的表现。
  • 应用潜力:HumanNorm生成的3D模型可以导出为网格和纹理贴图,适用于下游应用,如AR/VR、全息通信和元宇宙等。


需要的同学扫码添加我
回复“扩散模型20”即可全部领取




欢迎投稿

想要让高质量的内容更快地触达读者,降低他们寻找优质信息的成本吗?关键在于那些你尚未结识的人。他们可能掌握着你渴望了解的知识。【AI前沿速递】愿意成为这样的一座桥梁,连接不同领域、不同背景的学者,让他们的学术灵感相互碰撞,激发出无限可能。

【AI前沿速递】欢迎各高校实验室和个人在我们的平台上分享各类精彩内容,无论是最新的论文解读,还是对学术热点的深入分析,或是科研心得和竞赛经验的分享,我们的目标只有一个:让知识自由流动。

📝 投稿指南

  • 确保文章为个人原创,未在任何公开渠道发布。若文章已在其他平台发表或即将发表,请明确说明。

  • 建议使用Markdown格式撰写稿件,并以附件形式发送清晰、无版权争议的配图。

  • 【AI前沿速递】尊重作者的署名权,并为每篇被采纳的原创首发稿件提供具有市场竞争力的稿酬。稿酬将根据文章的阅读量和质量进行阶梯式结算。

📬 投稿方式

  • 您可以通过添加我们的小助理微信(aiqysd)进行快速投稿。请在添加时备注“投稿-姓名-学校-研究方向”


    长按添加AI前沿速递小助理


AI前沿速递
持续分享最新AI前沿论文成果
 最新文章