灵活精确可控编辑！Dice:首个离散扩散模型精确反演方法！

文摘 2024-10-25 00:01 上海

点击下方卡片，关注“AI生成未来”

后台回复“GAI”，免费获取最新AI相关行业报告和资料！

作者：Xiaoxiao He等

解读：AI生成未来

文章链接：https://arxiv.org/pdf/2410.08207
项目链接：https://hexiaoxiao-cs.github.io/DICE/

亮点直击
引入了DICE，一种用于离散扩散模型（包括多项扩散和mask生成模型）的反演算法。通过记录并注入噪声序列或mask模式，DICE能够在无需预定义mask或注意力操作的情况下，实现对离散数据的精确重构和可控编辑。
通过在图像和文本两种模态上的全面实验验证了DICE的有效性，展示了其在不同类型的离散生成模型中的通用性。
证明了该方法可以将主要用于理解任务（如RoBERTa）的模型转化为具有竞争力的文本生成和编辑生成模型，展示了扩展离散扩散模型至新应用的潜力。

总结速览

解决的问题:
离散扩散模型虽然在图像生成和mask语言建模等任务中取得了成功，但在精确控制内容编辑方面存在局限性。当前方法无法实现对离散数据的灵活编辑和准确重构。

提出的方案:
提出了DICE（可控编辑的离散反演），这是首个针对离散扩散模型（包括多项扩散和mask生成模型）的精确反演方法。DICE通过记录在反向扩散过程中的噪声序列和mask模式，实现了无需预定义mask或注意力操作的精确重构和灵活编辑。

应用的技术:
DICE 方法利用了在反向扩散过程中记录的噪声序列和mask模式，应用于离散数据的精确反演和可控编辑。其评估对象包括VQ-Diffusion、Paella和RoBERTa等模型，跨越图像和文本领域。

达到的效果:
DICE 保留了较高的数据保真度，并增强了离散空间中细粒度的内容编辑能力，展示了在图像和文本领域的有效性，提供了新的内容操控机会。

方法

可控编辑离散反演

基于非ODE的反演：基于ODE的生成模型，例如DDIM和流匹配，定义了一个ODE轨迹。由于ODE的确定性特性，可以通过使用欧拉法在正向方向上求解ODE来实现反演，确保根据ODE的固有性质进行重构。相比之下，另一类研究关注基于SDE的模型，如CycleDiffusion和DDPM Inversion。广义上讲，这些方法通过记录噪声或残差来确保重构，这些噪声或残差是重现随机轨迹所需的。CycleDiffusion 在从后验进行采样时记录高斯噪声，并通过输入真实的来注入信号信息。另一方面，DDPM Inversion通过将反演过程拟合到由独立的采样得到的人工随机轨迹中，将信息引入。对于CycleDiffusion和DDPM Inversion，两者的关键思想是利用高斯重参数化技巧，，并跟踪“噪声”，这些噪声可能是从均值生成样本的来源。对于离散扩散模型，我们使用Gumbel-Max技巧，。下图2提供了所提方法的直观解释。

多项扩散的反演：类似于Huberman-Spiegelglas et al.，首先通过从进行独立的采样，得到一个随机轨迹序列 (沿着的维度填充以下采样操作)。

请注意，在此使用了Gumbel Softmax技巧，这等同于从类别分布中采样。

请注意，此处的潜在变量。

在这个反演过程中，潜在空间与固定的离散扩散模型一起唯一地定义了相同的随机轨迹。详细算法见算法2。

反演mask生成模型：在mask生成建模中，随机轨迹是根据所使用模型的特定推理算法构建的。例如，在Paella中，mask是包含性的，这意味着随着时间步的增加，被掩盖的tokens集合会增加。相比之下，Unleashing Transformer在每一步采用随机mask，其中mask是通过采样函数独立生成的。为简便起见，定义一个去噪函数（由参数化）。该去噪函数根据噪声token 输出预测的未掩盖数据的logits。由于在这种情况下，分类采样发生在对去噪器预测的采样中，因此我们定义一个相应的潜在序列。

通过潜在空间，保证了准确的重构。然而，对于编辑任务而言，如果潜在变量主导了生成过程，这种精确度可能并不理想。详细算法见下算法1。

为了提供更多灵活性，引入超参数、和，它们允许对编辑过程进行更精细的控制。具体来说，表示编辑过程开始时（也是最大）时间步，控制从原始输入中注入的信息量，而则管理随机噪声的引入。

分析：描述一个简单但典型的DDPM示例，并计算编码潜变量与输入信号之间的互信息。

备注 3.1：给定一个简单的高斯DDPM，，潜变量通过DDPM反演获得 (Huberman-Spiegelglas et al., 2024)，则与之间的互信息为：

与之间的互信息在图3中进行了说明。观察到，从编码到的信息量随着的增加而减少，这促使我们探索不同的调度策略（见下图7）。

实验

本节展示了反演方法在图像和语言扩散模型上的有效性。实验表明，这些方法能够在视觉和语言任务中保持身份，同时成功进行预期的更改。

图像扩散模型

对于图像扩散模型，主要研究吸收状态离散模型，包括一个mask生成模型Paella和一个多项式扩散模型VQ-Diffusion。我们展示了DICE在两个类别中的反演重构能力和图像编辑性能。

数据集：由Ju等提出的基于提示的图像编辑基准（PIE-Bench）是一个最近推出的数据集，旨在评估文本到图像（T2I）编辑方法。该数据集在9种不同场景中评估语言引导的图像编辑，共有700幅图像。基准的详细注释和各种编辑任务对于全面评估我们方法的能力至关重要，确保与现有方法的公平一致的比较。

反演重构

本节评估不进行编辑时的反演准确性。这是通过首先反转图像，然后使用记录的潜在编码重构原始图像来实现的。

评估指标：在此，评估DICE和掩蔽生成下原始图像与生成图像的图像相似性，指标包括PSNR、LPIPS、MSE和SSIM。

定量分析：本文的方法的重构性能，如下表1所示，远远超过了基线插补 + Paella模型的所有指标。在掩蔽插补的情况下，所有图像token都被随机抽样的token替换，意味着模型缺乏关于原始图像的任何先验信息。因此，重构图像与被反转的图像存在显著差异，导致相似性评分较低。相比之下，本文的方法展示了近乎完美的重构，正如指标所示，显著生成了一幅与原图完全相同的图像，而不会引入VQ-VAE/GAN量化过程通常带来的错误，如（†）token的结果所示。这突显了本文的方法在生成高保真重构方面的卓越准确性和一致性。

编辑性能

本节讨论本文提出的方法的编辑性能。由于不存在离散扩散反演，因此将本文的方法与原文中指出的掩蔽生成进行比较。此外，还展示了来自连续模型的指标。

评估指标：为了展示我们提出的反演方法的有效性和效率，采用了涵盖三个关键方面的八个指标：结构距离、背景保留和编辑提示与图像的一致性，如Ju等（2023）所述。利用Tumanyan等（2023）提出的结构距离指标来测量原始图像和生成图像之间的结构相似性。为了评估背景在标注的编辑掩膜之外的保留效果，我们使用峰值信噪比（PSNR）、学习感知图像块相似性（LPIPS）、均方误差（MSE）和结构相似性指数（SSIM）。还使用CLIP相似性得分来评估编辑提示与生成图像之间的一致性，该得分是在整幅图像和由编辑掩膜定义的区域内计算的。

结果：下表2展示了使用Paella和VQ-Diffusion的DICE定量结果，并与连续扩散模型以及插补进行了比较。值得注意的是，本文的方法在Paella模型下实现了最低的结构距离11.34，超越了包括连续扩散模型在内的所有其他方法。此外，虽然Stable Diffusion v1.4的DDPM反演在整体和编辑区域的CLIP相似性得分中显示出最高，但本文的方法与Paella保持了竞争力的CLIP相似性。考虑到结构距离的显著降低，本文的方法在结构保留和语义对齐的平衡上表现出色。此外，结合VQ-Diffusion后，本文的方法继续展现出强劲的性能。

表3中的结果清晰地展示了本文的方法在背景保留能力上优于DDIM+SDv1.4。所有四个指标强调了本文的方法在保留图像未编辑区域的结构一致性。这些结果展示了本文的方法在编辑过程中保持背景完整性的有效性，并提供了原始图像信息注入DICE潜在空间的证据。

图下4展示了使用DICE的Paella和VQ-Diffusion的编辑结果。两个模型都成功地根据目标提示修改了真实图像。在所有情况下，我们的结果都展现出对输入图像的高保真度和对目标提示的遵循。

语言扩散模型

研究者们在RoBERTa上评估DICE，这是一种文本离散扩散模型，用于生成对立情感的句子，同时保留结构相似性。我们从两个提示开始——一个是积极情感，另一个是消极情感。每个提示包含两个句子：第一个句子指示情感类型并设置上下文背景，第二个句子是反转和生成的目标。最初，我们使用整个提示作为上下文，反转消极情感提示的第二个句子，生成该句子的噪声标记表示。接下来，我们通过将积极情感提示的第一个句子与反转的消极句子的噪声标记拼接在一起，来对模型进行条件设置。这一设置引导模型生成一新第二句，该句反映了原始消极句的结构，但表达积极情感。

评估模型在保持原始句子结构元素的同时，反转并生成与指定情感一致的文本的能力。

反演过程

实验中，特别关注于反转第二个句子（在下表6中以红色标出），同时保持第一个句子（黑色）不变，因为它通常包含重要的上下文信息。在反演过程中，我们的目标是通过从反转阶段获得的噪声标记中恢复第二个句子，以进行重建/编辑。

数据集生成

为了评估编辑性能，设计并提出了一个新数据集，称为情感编辑（Sentiment Editing）。该数据集的目标是在保持句子结构的同时编辑句子的情感，并且遵循句子的主题。这里展示了数据集中两组句子。

反演重建

与图像生成部分类似，首先展示所提方法的反演和重建能力。该过程包括反演句子，然后使用相同的提示生成第二个句子的重建版本。

评估指标对于重建，使用命中率（Hit Rate），定义为每种方法生成与原句相同的句子的比例。此外，我们计算语义文本相似度（Semantic Textual Similarity，STS）得分，通过测量句子嵌入之间的余弦相似度，使用Reimers等人（2019）提出的模型。

定量分析下表4比较了DICE与使用RoBERTa的mask生成在两个指标上的表现：准确率和语义文本相似度。我们的方法在这两个指标上显著超过了mask生成，证明我们的zt潜在空间有效捕捉了被反演句子的信息，并促进了其后续的重建。

句子编辑

在这一部分，我们评估所提反演方法在RoBERTa上的编辑性能。在表6中，负向提示列下以黑色显示的句子是在反演过程中输入的。被反演的句子以红色显示。对于编辑，提示随后被替换为右侧的黑色句子，并在末尾添加噪声以进行正向过程。正向过程中噪声的输出以蓝色呈现。

评估指标

对于句子编辑任务，我们根据两个标准评估生成的句子：(1) 结构保留，评估句子的结构是否得以保留，(2) 情感正确性，评估编辑后句子的情感是否与原始提示的情感一致。结构保留率和情感正确率均使用ChatGPT-4作为分类器进行计算。关于使用ChatGPT进行评估的详细信息可以在补充材料中查看。

结果下表5展示了两种文本编辑方法的比较分析，这两种方法均采用RoBERTa，重点关注在结构保留和情感正确性方面的有效性。我们的方法在这两个指标上显著优于mask生成。这一差异突显了我们反演方法在潜在空间中编码原始文本结构的卓越能力，以及更准确地调整情感的灵活性。

前面表6展示了初始提示和编辑结果。本文的方法在保留负向提示的句子结构的同时，将其情感修改为更积极的情感。

结论

DICE（可控编辑的离散反演），一种用于离散扩散模型的反演算法，包括多项式扩散和mask生成模型。通过在逆扩散过程中利用记录的噪声序列和mask模式，DICE实现了对离散数据的准确重构和灵活编辑，而无需预定义的mask或交叉注意力操作。在多个模型和模态（如图像和文本）上的实验展示了DICE在保持数据保真度的同时增强编辑能力的有效性。此外，还展示了DICE将RoBERTa这一传统上专注于数据理解的模型转变为文本生成和编辑的生成模型的潜力。我们相信，DICE增强了离散生成模型的能力，为在离散空间中的精细内容操控提供了新的机会。

参考文献

[1] DICE: Discrete Inversion Enabling Controllable Editing for Multinomial Diffusion and Masked Generative Models

致谢

如果您觉得这篇文章对你有帮助或启发，请不吝点赞、在看、转发，让更多人受益。同时，欢迎给个星标⭐，以便第一时间收到我的最新推送。每一个互动都是对我最大的鼓励。让我们携手并进，共同探索未知，见证一个充满希望和伟大的未来！

技术交流

加入「AI生成未来社区」群聊，一起交流讨论，涉及 图像生成、视频生成、3D生成、具身智能等多个不同方向，备注不同方向邀请入群！可添加小助手备注方向加群！

http://mp.weixin.qq.com/s?__biz=Mzg3Njk3NDkyNQ==&mid=2247510065&idx=1&sn=b16f48cb72a5b259bd28e33c739b824d

AI生成未来

领先的AIGC和具身智能、大模型技术交流社区，关注LLM、CV、深度学习、生成式等AI领域前沿技术

Ollama v0.4 可运行 Llama 3.2 Vision 啦

掌管OpenAI安全的那个人离职了，离职信曝光

你的LoRA需要更新了！科大讯飞等提出MiLoRA：新颖且高效的LoRA变体

LLM之数据的重要性

智能体首次达到Kaggle Grandmaster水平，华为用结构化推理补齐思维链短板

谷歌&Mistral AI发布TIPS：具有空间意识的文本-图像预训练（适配各种计算机视觉任务）

vLLM这一年的新特性以及后续规划（总结版!）

免费可商用！腾讯混元大语言模型和3D模型正式开源！

FGM：刷新流匹配模型单步文本到图像生成纪录！(浙大&卡内基梅隆&北大&西湖大学)

ROSCon首次落子中国内地！享誉全球的机器人精英盛会马上开始了

ECCV'24 | SAM4MLLM：多模态大语言模型和SAM强强联合

英伟达&斯坦福大学发布GRS：从真实世界观测中生成机器人仿真任务

告别庞然大物,拥抱小巧精悍！面向移动和边缘设备的小语言模型综述

满血版o1倒计时！奥特曼完整专访流出：o系列疯狂迭代，马上起飞

突破个性化图像生成局限！MagicTailor：组件可控个性化图像生成创新框架！

NeurIPS`24震撼发布:Diff-eRank大模型评估新指标，精准衡量LLM去噪！

三年前的AI设计芯片造假？谷歌深陷学术不端丑闻，吹哨人被开除!

清华大学最新！2万字长文全面解读多模态生成式AI的前世今生！

大模型推理优化技术-KV Cache量化理论到实战

2024 AI年度报告发布，附十大预测：人形机器人热度下降

2024年大模型LLM还有哪些可研究的方向？听听大佬怎么说

红外图像合成技术综述

谷歌Agent首次发现真实世界代码漏洞！抢救全球数亿设备，或挽回数十亿美元损失？

港理工&OPPO&Stability AI联合发布一致且高效的3D场景编辑方法——SyncNoise

突发！OpenAI正式发布ChatGPT网络搜索，彻底颠覆谷歌！

登上生图排行榜第一的red_panda，是家创业公司，不是国产模型

定制化视频生成新模范！零样本主体驱动，精确运动控制！复旦&阿里等发布DreamVideo-2

基于Gemini！Waymo提出端到端自动驾驶多模态模型EMMA！

苹果最强芯M4 Max首发！官方定位可开发大模型

无需昂贵标注！大幅提升SDXL和SD3-Medium效果！文生图偏好优化新宠来了 | TUM&Snap

从文本RAG到多模态RAG！LMU | 构建多模态RAG系统的最佳配置

AI「长脑子」了？LLM惊现「人类脑叶」结构并有数学代码分区，MIT大牛新作震惊学界！

4B和34B精度相当？xGen-MM-Vid (BLIP-3-Video)：你只需32个tokens来表示一个视频

VILA-U：统一多模态理解与生成模型！多模态任务新架构！

神秘模型“小熊猫”一夜刷屏：排名超Flux、Midjourney，网友：一看就中国的

教机器人"倒水"是融入生活的第一步！AR收集和生成演示(ARCADE)框架发布

NeurIPS`24 | 防御对抗性提示攻击!AdvUnlearn让图片生成风险骤降

大模型引领6G革命！最新综述探索「未来通信方式」：九大方向

颜水成团队新作:AI手机迎来重大技术进展！Meissonic:让移动成像技术飞跃

7B新王登基！Zamba 2推理效率比Llama 3提升20%，内存用量更少

初探大模型压缩

首篇！全面解读高效Segment Anything模型变体：各种图像分割加速策略和核心技术展示

一文读懂：从RAG到多模态RAG

大模型生成RPG游戏，情节角色全自定义！谷歌出品，一作上海交大

图像编辑多任务一网打尽！PromptFix，新型扩散模型&大规模视觉指令数据集（罗切斯特大学&微软）

训练扩散模型比你想象的更简单！谢赛宁老师：Representation matters！

与OpenAI o1技术理念相似，TDPO-R算法有效缓解奖励过优化问题

灵活精确可控编辑！Dice:首个离散扩散模型精确反演方法！

大模型面经—RAG工程实践经验总结

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉