CVPR2024 | 面向大图像生成的学习表示引导扩散模型!

文摘   2024-09-25 09:28   天津  

关注+标星,邂逅每一篇经典!


文章摘要

为了合成高保真样本,扩散模型通常需要辅助数据来指导生成过程。然而,在组织病理学和卫星图像等专业领域获取繁琐的局部级别标注工作是不切实际的;这些工作通常由领域专家执行,并且涉及数亿个局部。现代自监督学习(SSL)表示编码了丰富的语义和视觉信息。在本文中,作者认为这样的表示足够表达,可以作为精细人类标签的代理。作者引入了一种新的方法,训练扩散模型的条件是来自SSL的嵌入。扩散模型成功地将这些特征投影回高质量的组织病理学和遥感图像。此外,通过组装从SSL嵌入推断出的空间一致的局部,构建更大的图像,保持了长距离依赖性。通过生成真实图像的变化来增强真实数据,提高了局部级别和更大图像规模分类任务的下游分类器准确性。该模型即使在训练过程中未遇到的数据库上也有效,展示了它们的鲁棒性和泛化能力。从学习到的嵌入生成图像与嵌入的来源无关。用于生成大图像的SSL嵌入可以是从参考图像中提取的,也可以是从任何相关模态(例如类别标签、文本、基因组数据)的条件辅助模型中采样的。作为概念验证,作者引入了文本到大图像合成范式,成功地根据文本描述合成了大型病理学和卫星图像。

学术地址:

https://arxiv.org/pdf/2312.07330

代码地址:

https://github.com/cvlab-stonybrook/Large-Image-Diffusion

前世今生


扩散模型在一系列生成任务中产生了高质量和多样化的样本。这一飞跃得益于大规模多模态数据集的同时策划和高效调节机制的发展。解锁模型能力的关键是在训练和推理过程中整合辅助信息。大规模人类标注的数据集大多限于图像-标题对,这些数据集来自容易访问的在线资源库,并由非专家标注者标注。然而,在数字组织病理学和遥感等领域,千兆像素规模的图像提供了大量的未标注数据,标注工作证明是具有挑战性的。此外,该过程需要专家知识,并且在更细的尺度上更加困难,即,对千兆像素图像的大区域进行标注比对更小的局部进行标注要简单。根据作者估计,用标题标注整个TCGA-BRCA数据集将需要大约40,000小时的病理学家时间。在这些领域复制扩散模型的令人印象深刻的结果受到了细粒度每图像调节的稀缺性的限制,这对于高质量的图像合成至关重要。

现代自监督学习(SSL)表示编码了丰富的语义和视觉信息。训练有素的自监督模型的特征作为紧凑的图像表示,并被广泛用于成功执行区分性下游任务,证明这些压缩表示确实编码了关于图像的有用的语义信息。假设这样的SSL表示已经足够表达,可以作为细粒度人类标签的代理。如果这是真的,这些表示应该能够调节这些领域中有效的扩散模型的训练。在这种新方法中,作者使用自监督特征提取器作为图像标注器;这些特征提供了扩散模型训练所需的最高分辨率的每图像调节信号。

实验表明,用表达性强的自监督特征调节可以精确控制图像内容。SSL特征擅长识别图像中的复杂模式和结构,而扩散模型学会将它们准确地转化为视觉组件(图3)。这激励通过局部控制外观使用SSL调节,并通过对条件的空间排列来指导全局结构,进行大图像合成。

作者的方法以基于局部的方式合成大图像,使用单个图像扩散模型在最高分辨率。将大图像表示为SSL嵌入的网格,每个嵌入都作为大图像邻域的表示。然后通过生成一致的局部来合成整个图像,这些局部既捕捉了由局部局部调节给出的局部属性,也捕捉了调节特征的空间排列。如果改变这种空间排列,实际上是在编辑大图像中语义元素的全局排列方式。这种策略使得在不显著增加与基础局部模型相比的计算量的情况下,可以控制地生成几乎任何大小的图像。

要生成大图像,作者方法需要局部扩散模型和空间排列的条件。可以从参考大图像作为源开始,并从不重叠的段中提取SSL嵌入,使该方法能够合成原始图像的变化(图1)。

图1. 提议使用SSL特征来调节扩散模型。这使能够通过组装从SSL嵌入的空间排列推断出的一致局部来构建大图像。生成的图像保留了用作条件的嵌入的语义,保持了参考图像中的森林和开阔区域。放大查看效果最佳。

使用SSL嵌入作为条件允许对图像生成进行必要的控制,以换取一个可解释和易于使用的条件机制。尽管如此,作者认为,由于从学习到的嵌入生成图像与嵌入源无关,有简单的方法可以结合对生成图像的控制和可解释性。建议训练辅助模型将更高级别的调节信号(如文本标题)转换为学习到的局部表示。

为了展示这种多功能性,作者通过训练辅助模型从文本描述中采样空间排列的嵌入,引入了文本到大图像合成。使用自监督特征作为条件,在数字组织病理学(TCGA [4])和卫星图像(NAIP [44])数据集上训练局部扩散模型。作者进行了广泛的评估,并展示了SSL调节和大图像生成框架在合成和分类任务上的优势。该模型实现了卓越的局部级别和大图像质量,通过数据增强提高分类器的能力,即使是在合成分布外的数据时,以及有效地融合扩散和SSL特征用于下游应用。最后,作者是第一个执行文本到大图像合成的,这应该引起社区的极大兴趣,因为病理学和卫星图像的视觉-语言模型(VLMs)越来越受欢迎。

总结来说,贡献如下: 

• 开发了一种新的方法,使用自监督学习特征作为条件来训练扩散模型,并在组织病理学和卫星图像领域生成高质量的图像。 

• 提出了一个基于自监督引导扩散的大图像合成框架,该框架在大面积上保持了上下文完整性和图像现实性。

• 展示了该模型在各种分类任务中的适用性,并展示了其独特的能力,即使在合成分布外的数据时,也能增强数据集。

• 为数字组织病理学和卫星图像引入了文本到大图像生成,突出了方法的多功能性。

匠心独运

图2. (a) 训练扩散模型,这些模型是基于从大图像中提取的局部I(例如绿色框中的局部)并使用SSL嵌入作为条件。(b) 以4个步骤介绍大图像生成框架:(i) 从参考图像中提取一组空间排列的嵌入,或者从辅助模型中对它们进行采样。(ii) 对于每个位置(i,j),通过插值空间嵌入网格来计算调节向量λi,j。(iii) 在每一步扩散过程中,使用调节λi,j对局部F(i,j)进行去噪。(iv) 下一步是通过平均所有在(i,j)处重叠的局部的去噪更新来计算的。

卓越性能

图3. (顶部)模型生成的局部(256×256),以及用于生成它们的相应参考真实局部。SSL引导的LDM复制了参考局部的语义。(底部)模型生成的大图像(1024×1024),以及用于生成它们的相应参考真实图像。保留了参考图像中定义的语义的全局排列。

总结展望

作者提出了一种新颖的方法来训练大图像领域的扩散模型,例如数字组织病理学和遥感。通过引入自监督表示引导的扩散模型,克服了对细粒度标注的需求,在局部级别上取得了显著的图像合成结果。该方法还使能够合成高质量的大图像,在这些图像中,有能力通过控制条件的空间排列来决定全局结构。在许多局部和大图像级别的任务上评估了合成图像的有用性,并引入了一个文本到大图像生成框架。简单地增强整个幻灯片图像是一个耗时的过程。将探索适应性增强策略,选择要增强的图像部分,作为未来工作。作者相信这些结果展示了这项技术的巨大潜力,可以为专业领域带来定制的基础模型,与现有的自然图像模型相媲美。

参考:

https://arxiv.org/pdf/2312.07330


关注+标星,邂逅每一篇经典!

群函数
分享前沿的开源技术以及有趣的科普知识。敬请关注!
 最新文章