TPAMI 2024 | 扩散模型中的测量指导：来自医学图像合成的见解

文摘 2024-11-18 19:00 中国香港

点击下方“PaperEveryday”，每天获得顶刊论文解读
点击加入论文投稿、写作、阅读分享交流群
论文信息

题目：Measurement Guidance in Diffusion Models: Insight from Medical Image Synthesis

扩散模型中的测量指导：来自医学图像合成的见解

作者：Yimin Luo; Qinyu Yang; Yuheng Fan; Haikun Qi; Menghan Xia

源码链接：https://github.com/yangqy1110/MGDM

论文创新点

不确定性引导：我们引入了两种类型的不确定性指导（熵和边际）在采样步骤中，并设计了一个旨在解决生成过多分布内样本挑战的扩散模型。
两阶段采样过程：提出了一个两阶段采样过程，每个阶段都由特定的测量梯度指导，以生成具有可靠标签和高信息量的样本。
感知优先权重（P2W）：为了学习更丰富的视觉概念，同时减少扩散步骤，我们在训练过程中利用了感知优先权重（P2W）。
理论保证：为扩散模型中的一般梯度指导提供了理论保证，这有助于未来研究其他形式的测量指导，以用于特定的生成任务。

摘要

在医疗保健领域，样本的获取通常受到成本、劳动密集型注释、隐私问题和辐射危害等多种考虑的限制，因此，合成感兴趣的图像是数据增强的重要工具。最近，扩散模型在各种合成任务中取得了最先进的结果，并且通过嵌入能量函数，已被证明可以有效地指导预训练模型合成目标样本。然而，我们注意到，当前的方法开发和验证仍然局限于提高指标，如Fréchet Inception Distance分数（FID）和Inception Score（IS），并没有对下游任务，如疾病分级和诊断，进行更深入的调查。此外，现有的分类器指导，可以被视为能量函数的一个特例，只能对合成数据集的分布产生单一影响。这可能导致在分布内的合成样本对下游模型优化的帮助有限。所有这些限制都提醒我们，要实现可控生成还有很长的路要走。在这项工作中，我们首先从数据分布的角度对先前的指导及其对进一步应用的贡献进行了分析。为了合成可以帮助下游应用的样本，我们随后引入了不确定性指导，并设计了一个不确定性引导的扩散模型。在四个医学数据集上的广泛实验，以及在增强样本集上训练的十个经典网络上的实验，为我们的方法论的实际贡献提供了全面的评估。此外，我们为扩散模型中的一般梯度指导提供了理论保证，这将有助于未来研究其他形式的测量指导，以用于特定的生成任务。

关键词

扩散模型，测量，不确定性指导，医学图像合成，可控生成。

I. 引言

随着诊断智能化的发展，医学图像已成为现代医疗中日益重要的工具。然而，在临床环境中，大规模医学图像样本的获取通常受到注释成本、隐私问题和辐射危害等多种考虑的限制。因此，人们越来越有兴趣使用先进的生成模型来合成医学图像，以获得无需实际扫描和专业注释的样本。

扩散模型采用显式的似然表征和渐进的采样过程来合成数据，是计算机视觉中最近出现的一个话题，展现出了从高水平的细节到合成样本多样性的令人印象深刻的生成能力。迄今为止，基于扩散模型的方法已被应用于图像相关任务，如图像/视频生成、图像超分辨率、图像编辑和图像到图像的翻译。扩散模型被证明是生成对抗网络（GANs）在各种生成任务中的一个有希望的替代方案，并且已被有效地采用到一些著名的大型文本到图像生成基础模型中，如Imagen和DALL-E 2。

尽管扩散模型在生成生动样本方面具有巨大潜力，其在医学图像合成中的价值尚未被深入探索。一方面，追求高性能的扩散模型对于生成任务是非平凡的，挑战可能来自多个因素，从训练目标到采样过程。另一方面，从实用性的角度来看，临床医生对视觉感知以及在下游应用中的性能提升有更高的要求，如疾病分级和诊断。因此，扩散模型的发展不仅应关注快速和大规模生产，还应关注高质量生成。毕竟，对准确诊断或治疗计划没有实际贡献的合成医学样本的价值是有限的。

我们的扩散模型应该被引导生成什么样的样本？从自动诊断的角度来看，例如，高质量的样本是那些具有可靠标签和高信息量的样本。合成这些样本可以使分类器避免过拟合，从而提高诊断的准确性和可靠性。对于第一个要求，先前的扩散模型尝试通过在训练过程中嵌入类别信息来拟合特定类别的样本条件分布。不幸的是，对于医学图像合成任务，这种策略不能完全保证可靠性，因为合成的样本有时与标签不匹配。例如，一个预训练的扩散模型将生成一个胸部X光肺炎样本，但实际上它是一个没有感染的健康样本。合成样本中的错误在临床环境中是一个严重的问题，它直接影响临床医生对生成模型的信心。因此，为了进一步保证合成样本的标签可靠性，可以在扩散模型的采样过程中采用分类器指导，以生成类别一致的图像样本。[5]中的作者通过结合扩散模型的分数估计和预分类器的概率梯度提出了这种采样策略。然而，这也引发了一个问题，即这种分类器指导是否可能过度执行，导致冗余的分布内样本。根据我们的调查，分类器提供的概率梯度有时可能在渐进采样过程中将合成结果带到不同的极端。也就是说，扩散模型倾向于产生更健康或更恶化的样本。图1展示了分类器引导的扩散模型合成的一些易于诊断的分布内样本。显然，这些分布内样本对下游模型优化的影响有限，可能在一定程度上浪费了计算资源。在实际诊断中，即使是同一种疾病，不同患者的严重程度也不同，那些中间案例是样本集中最有信息量的资源。因此，通过另一种指导合成不同等级的样本在临床上具有重要的意义，将分类器指导扩展到一般测量指导对可控生成是有益的。在本文中，高质量医学图像合成的关键是在扩散模型的采样过程中使用适当的指导，以生成对下游任务更有利的样本。我们引入了两种类型的不确定性指导（熵和边际）在采样步骤中，并设计了一个旨在解决生成过多分布内样本挑战的扩散模型。以前的分类器指导只能对增强数据集的分布产生单一影响，而我们的不确定性指导提供了相反的效果，使这个分布更加可控。

对于评估，以前的生成任务中，合成图像通常通过视觉评估和定量评估进行分析，包括Fréchet Inception Distance分数（FID）和Inception Score（IS）。然而，在实际中，这些指标不足以证明合成样本的实际优越性。此外，这些合成数据对不同下游模型的适应性和价值也需要被调查。在本文中，我们在四个医学基准数据集上进行了我们的扩散模型实验，我们的方法可以减少合成样本的类间可分性。由于单个下游模型的验证结果通常存在偏差，为了进一步评估这些合成样本的确切贡献，十个流行的网络在增强样本集上的训练提供了更直接的分级或诊断准确性比较。我们的扩散模型的有效性与这些网络无关，所选的验证网络，如VGG和ResNet，都是具有巨大影响力和市场前景的网络。与最近提出的网络相比，它们提供的准确性享有更高的可靠性和更广泛的接受度。因此，明显更高的平均胜率表明了我们模型产生的合成样本的高质量和接受度。

我们的贡献总结如下：我们对以前的分类器指导及其对增强数据分布的影响进行了全面分析。为了实现可控生成，我们将之扩展到任何测量，并为一般梯度指导提供了理论保证。进一步，我们利用两种不确定性测量（熵和边际）并在扩散模型的每个采样步骤中提出不确定性指导。我们提出了一个新的高质量医学图像合成的扩散模型，即不确定性引导的扩散模型（UGDM）。为了在学习更丰富的视觉概念的同时减少扩散步骤，我们在训练过程中利用感知优先权重（P2W）和可学习的方差。此外，为了产生具有可靠标签和高信息量的样本，我们设计了一个两阶段采样过程，每个阶段都由特定测量梯度指导。为了评估合成医学图像样本对进一步任务的实际贡献，除了常用的指标外，十个经典网络在增强数据集上的训练提供了更直接的准确性比较。在四个公共医学图像数据集上的实验结果表明，我们提出的扩散模型可以实现更高的平均胜率。据我们所知，这项工作是第一个部署大规模下游网络以全面评估生成模型有效性的工作。

剩余的论文结构如下：第II节和III节回顾了扩散模型的相关作品和背景。第IV节详细介绍了我们的方法论。第V节展示了实验结果和全面分析。此外，第VI节强调了局限性和未来的工作。最后，第VII节总结了整篇论文。

II. 相关工作

我们将我们独特的生成模型与现有的扩散模型和医学图像合成任务的方法联系起来。我们还强调了不确定性作为模型优化的关键策略。

A. 扩散模型

扩散模型是一类新兴的生成模型，在计算机视觉领域引起了相当大的关注。与以前的深度学习方法（如GANs）相比，它具有更完善的数学解释、无需对抗训练策略以及实现稳定和可控生成的能力。[32]中的作者首次介绍了扩散概率模型的原理，该模型使用生成马尔可夫链将一个简单的已知分布转换为目标分布。Denoising Diffusion Probabilistic Models（DDPM）[2]将这种设计应用于高质量的图像生成。然而，DDPM的主要限制是其在马尔可夫链上的长时间渐进采样。[33]中的作者提出了Denoising Diffusion Implicit Models（DDIM）以实现采样加速。DDIM提供了一种通过确定性采样噪声隐藏变量的有条件生成策略，然后[4]中的作者从随机微分方程（SDEs）的角度创新地检查了扩散模型。这项工作开启了有条件生成的研究。为了促进生成性能，[5]中的作者最近提出了分类器指导，以在条件扩散模型训练后权衡模式覆盖和样本保真度。由于生成样本的卓越质量和丰富多样性，这些扩散模型在各种图像相关应用中取得了显著的成功，特别是在生成任务中。为了缓解数据稀缺并实现更好的分类，扩散模型也被用作数据增强工具，如[35]、[36]、[37]所述，以生成用于进一步分类任务的合成训练样本。

为了进行全面回顾，扩散模型在图像相关任务中的更多尝试，包括重建、配准、分割、去噪、2/3D生成、异常检测以及扩散模型的未来挑战，可以在[38]中找到。

B. 医学图像合成

数据增强对于训练健壮的深度学习模型至关重要，然而传统的图像增强方法，如缩放、旋转、仿射和变形变换，很难提供医学图像数据集的内在多样性。为了解决这些问题，需要开发更好的医学图像合成方法。[2]中的作者强调，当需要大规模数据进行深度学习训练时，合成数据可以有效地补充传统的数据增强。此外，合成数据还可以用于其他多种目的，例如虚拟临床试验。根据[37]中的作者，理想的合成数据应该在形态和纹理上与真实数据相似，但同时在视觉表现和数据特征上具有更大的多样性。受对抗学习启发，基于GAN的方法[1]、[39]自2018年以来受到了医学研究界的越来越多的关注，希望利用它们来合成看起来真实的医学图像。随后，许多基于GAN的优化被提出并广泛应用于医学图像合成任务[40]、[41]、[42]、[43]。

最近的扩散模型避免了GANs通常需要的对抗训练，因此它们可以提高训练稳定性并生成更真实的图像。利用扩散模型在生成任务中的显著进展，医疗保健领域，特别是医学图像合成，也对扩散模型产生了越来越多的兴趣。例如，[26]中的作者提出了一个用于医学领域图像合成的条件潜在DDPM，过多的实验表明这种方法是GANs在涉及视网膜图像、结直肠癌组织彩色图像和胸部X光图像的生成任务中的优越替代品。类似的基于扩散模型的MRI和PET生成工作可以在[44]和[45]中找到。目前，扩散模型在医学图像合成中尚未被充分考虑，这是本文的主要关注点。

C. 不确定性

基于学习的模型中的不确定性表示模型对其预测的确定程度。这可以作为评估判别模型对其正确输出的无知或模糊性的指标。在以前的研究中，提出了几种估计深度神经网络中不确定性的方法，如确定性方法[46]、集成方法[47]、[48]和基于贝叶斯的方法[49]、[50]。广泛的实验表明，将不确定性理论引入以进行可信的分类和分割在医学图像中可以实现显著的优异性能[51]、[52]、[53]、[54]。在医学视觉和医学生物学任务中不确定性的更多尝试可以在[55]中找到。这些方法的成功激励我们进一步优化我们的扩散模型，以实现高质量的医学图像合成。

III. 预备知识

扩散模型[2]提供了可追踪的概率参数化，用于描述模型。这类模型的目标是将先验数据分布转换为随机噪声，然后逐步修正这些转换以生成与先验数据相同分布的新样本。

扩散模型学习一个马尔可夫链，逐渐将高斯噪声分布转换为模型训练的数据分布。训练过程通常涉及两个阶段：前向过程和反向过程。首先，前向过程从数据分布开始，并通过定义的马尔可夫扩散核将其逐步腐蚀为，固定方差计划。该过程可以表示为：

其中样本随着步骤的增大逐渐失去其可区分的特征。同时，我们可以使用重参数化技巧以封闭形式采样为，其中和。随后，反向（生成）过程被定义为另一个由参数化的马尔可夫链，描述相同但相反的过程，从任意高斯噪声样本去噪到干净的数据样本：

其中。训练是通过最大化模型对数似然来执行的，通过最小化负的变分上界。通过这样做，给定一个随机高斯噪声样本，我们可以通过这个模型合成一个样本。经典的目标是通过一些参数化和简化得出的：

IV. 方法论

[5]中的作者创新性地指导了一个预训练的扩散模型，以生成具有强烈类别条件的样本。这项开创性的研究启发我们假设分类器指导只是一个特例。在本节中，我们将分类器指导扩展到一般测量，以实现可控生成。接下来，我们详细介绍了我们在医学图像合成案例中的扩散模型，特别关注其不确定性指导。

A. 模型

如我们在引言部分所述，用于准确诊断的高质量样本应该既有可靠的标签，又有高信息量。也就是说，我们需要在可靠的类别信息条件下引入一些不确定性。为了满足这两个要求，如图2所示，我们提出了一种新的基于扩散模型的医学图像合成方法，并设计了一个两阶段采样过程，每个阶段都由特定的梯度指导。在获得扩散模型和在原始样本集上预训练的分类器后，我们使用这个两阶段采样过程进行大规模数据增强，以用于下游应用。在第一阶段，即生成阶段，我们利用分类器指导在每个采样步骤中从随机高斯噪声生成具有可靠标签的初始样本（分布内样本）。在第二阶段，即扰动阶段，分布内结果被转换到潜在空间，然后通过我们的不确定性指导采样合成为它们的分布外对应物。值得注意的是，我们基于第一阶段使用的预训练分类器在其采样过程中引入不确定性指导。

从数据集分布的角度来看，第一阶段的分类器指导是指增加接近原始样本集类别中心的样本。相反，第二阶段的不确定性指导是指适当地将合成样本推向类别边界。

B. 训练目标

首先，如图2所示，我们应该在具有类别信息的原始样本集上训练一个扩散模型。以前的扩散模型采用了经典目标。对于每个步骤，去噪分数匹配损失是两个高斯分布之间的距离，可以改写为噪声预测器的术语。在扩散模型训练中嵌入类别信息可以有效地拟合与类别相关的条件分布[56]。在训练过程中，类别信息和真实标签成对输入网络，因此网络可以学习输入和输出之间的相关性。当模型容量足够且数据分布合理时，合成样本的标签可靠性可以在很大程度上得到保证。

在本文中，为了进一步确保生成稳定性并提升学习能力，扩散模型应该关注学习更多的视觉概念。在扩散模型训练过程中，图像样本仅在低噪声水平下受到轻微损坏，恢复它不需要图像上下文的先验知识。然而，当样本受到严重损坏时，其内容是可识别的，我们需要优先解决这些重要噪声水平的预文本任务。[57]中的作者发现，恢复某些噪声水平损坏的数据为扩散模型提供了一个适当的预文本任务，以学习更丰富的视觉概念，并在扩散模型训练中使用它，可以显著提高扩散模型在生成任务中的性能。基于[6]中提出的学习方差的策略，此外，我们的大型模型可以产生明显较少扩散步骤的样本。

受这些技术的启发，为了在本文中进一步改进我们的扩散模型训练，我们优化了，然后使用以下扩散训练目标：

其中代表P2W，并在我们的训练目标中引入以学习更丰富的视觉概念。因此，的计算如下：

另一方面，为了实现我们的指导采样，我们应该在原始样本集上预训练一个分类器，其中代表样本标签。在本文中，我们使用的分类器架构是U-Net模型的下采样部分，带有注意力池，训练目标函数如下：

其中表示交叉熵损失函数。

C. 测量指导

分类器指导是最近提出的一种技术，通过使用预训练分类器模型的梯度，改进样本质量的同时减少类条件扩散模型中的多样性，其中是类别标签。这是一个简单且计算效率高的方法，可以帮助扩散模型生成可靠的样本。

具体来说，对于给定的类别标签，分类器指导执行分类器指导采样，通过在每个采样步骤中将替换为：

正如我们之前假设的，分类器指导只提供了指导采样的特殊测量，扩展它以利用任何测量具有重要意义。

具体来说，前向SDE是：

和其对应的反向SDE是：

当时，它是我们使用的DDIM的反向SDE：

其中，

数学上，指导是指将先验数据分布与条件（即类别标签或图像/文本嵌入）进行条件化，得到。

[22]中的作者通过在扩散模型的采样中嵌入跨域相似性有效地处理了图像翻译任务。同时，我们注意到了这项工作与分类器引导采样之间的相关性。

因此，对于本文中的测量指导，有条件的反向SDE是：

其中，利用贝叶斯公式，我们可以得到：

为了获得具有更高价值的采样结果，我们使。随后，它有：

进一步，

类似于之前的分类器指导，我们执行测量指导采样，通过在每个采样步骤中将替换为：

这里，新的采样过程倾向于生成具有更大值的，最终导致一个具有更大的。

具体来说，在每个采样步骤中：

其中，

理论上，为了确保（14）中的反向时间SDE具有唯一的平滑解，相应地，由（19）中的离散近似描述的域转移过程具有一定的平滑性[4]，应该满足相对于状态和时间的可微性[58]。根据实分析中的Rademacher定理，[22]中的作者利用Lipschitz条件的符号来描述平滑且唯一解存在的必要条件。我们遵循这个符号系统，并希望为扩散模型的受控生成提供更多理论应用的例子。因此，我们采用了[22]附录中提出的充分条件的描述，即应该满足的规律性条件为：

考虑原始采样过程：

我们可以将（21）和（22）插入（19）中，

总之，这相当于在每个采样步骤中对进行梯度上升。

之后，我们可以使用与常规DDIM相同的采样程序。为扩散模型中的一般梯度指导提供了理论保证，为未来研究特定于生成任务的其他形式的测量指导铺平了道路。

D. 采样和不确定性指导

我们用于指导的两阶段采样过程在算法1中说明，结合图2可以更好地理解。

在第一阶段，即生成阶段，我们选择较大的分类器指导强度（本文中为s = 10）以合成具有高类别信心的样本。随后，在第二阶段，我们使用DDIM采样的反向过程和不确定性指导采样，以及适当的指导比例，进一步合成高信息量样本。由于这个阶段的扰动，合成样本在数据集分布方面可以更接近类别边界。顺便说一下，我们的第二阶段也可以作为数据增强工具，应用于手动标记的样本集。我们的第二阶段包含DDIM反演和不确定性指导采样。根据[59]，使用DDIM采样对于重建输入图像的微小细节以及实际图像操作是有益的。受到启发，我们推断出通过运行DDIMs的确定性生成过程的反向来推断出一个随机潜在代码：

这里，我们的目标是通过另一种指导合成不同等级的医学图像样本，以用于下游任务，如疾病分级和诊断。如图2所示，第一阶段中的分类器指导指导采样从随机高斯噪声生成类别一致的图像。在第二阶段，另一个指导将这些可靠的样本引导到稍微类别不确定的一个。因此，适合假设（20）的不确定性测量应该用于提供第二采样过程中的相反指导。基于预训练的分类器，我们引入了两种不同的不确定性测量，即熵和边际：

其中和分别代表最有可能属于每个类别的两个最大类别概率。由于这两种测量都是基于预训练的分类器，它们显然符合（20）的假设，然后我们可以使用这些指导获得高质量的样本。由于这两种指导（分类器和不确定性）在某种程度上是相互排斥的，同时设置两个超参数是不方便的。我们设计了这个两阶段采样过程，并在不同阶段使用特定的指导。

关于引入不确定性指导是否会改变样本属性的问题，当参数设置和数据分布合理时，我们的答案是不会。在第二阶段，基于预训练分类器的不确定性梯度只是对采样过程的扰动。当不确定性比例（没有扰动）时，扩散模型本身将合成属于的样本。当不确定性比例时，梯度随着的增加而变小，并逐渐接近0。因此，在采样的后期阶段，条件是绝对主导的。如果一个函数的定义域和值域是有限的，那么它的倒数可以被证明是有界的。因此，我们提出的扩散模型中的不确定性指导是可控的。

随着的增加，合成样本的类别信心度降低。然而，这种降低不能动摇DDIM采样下的类别属性。图3提供了在不同不确定性比例（从0到10）下合成的胸部X光肺炎样本及其类别概率，使用VGG19。可以清楚地看到，在这种情况下，样本的类别属性没有被改变。

E. 评估

通常使用FID[28]和Inception Score[29]来评估生成模型的视觉质量。由于它们的计算成本相对较低，这些指标被广泛用作生成模型训练和调整的代理。然而，这两种方法往往对非GAN模型的惩罚过于严厉，Inception Score在具有采样修改的方法中产生过于乐观的分数[56]、[60]。更重要的是，Ravuri和Vinyals[60]认为这些指标与评估下游任务性能的指标没有一致的相关性。

为了全面评估这些合成样本对它们自己下游任务的确切贡献，我们使用十个著名的网络进行比较，以分级或诊断准确性为依据。我们的扩散模型的有效性与这些网络无关，这些选定的十个网络对验证来说具有巨大的影响力和市场前景。与最近提出的网络相比，它们提供的准确性享有更高的可靠性和更广泛的接受度。

V. 实验

在本节中，我们使用四个医学数据集，十个在新增强数据集上训练的经典网络为我们的方法提供了全面的实际贡献评估。此外，我们全面分析了我们不确定性指导的有效性。

A. 数据集和设置

Messdior[61]有1200张彩色眼底图像，这些图像是由三个眼科部门使用彩色视频3CCD摄像机捕获的。数据集中的每张图像都由眼科医生提供了DR等级，以衡量DR的严重程度。DR的严重程度分为0到3四个阶段。DR的等级由MA、HE和RNV等病变的数量决定。我们随机选择了数据集中五分之四的图像作为训练集，并使用剩余的图像作为测试集。考虑到数据集中样本数量较少，我们通过将每种类型的样本扩展到500来执行数据增强。

ISIC[62]已经开发出来，为临床医生和教育工作者提供了一个大型公共存储库，用于提高诊断技能，并在识别皮肤癌方面提供临床支持。这是一个典型的不平衡分类任务，标记为“良性”或“恶性”。因此，我们只合成10000个恶性样本以缓解这种不平衡。此外，我们随机取一半的数据形成训练集，其余的作为验证集。

PneumoniaMnist[63]有胸部X光图像（前后位），这些图像是从广州妇女儿童医疗中心的儿科患者中选出的。临床医生收集并标记了总共5232张胸部X光图像，包括3883张被描述为描绘肺炎的图像（2538张细菌性和1345张病毒性）和1349张正常图像，来自5856名患者，以训练AI系统。然后使用来自624名患者的234张正常图像和390张肺炎图像（242张细菌性和148张病毒性）进行模型测试。考虑到这个数据集中类别的平衡分布，我们每类别产生1000个增强图像。

BreastMnist[64]是一个著名的乳腺超声图像数据集，收集自25至75岁之间的女性。这些数据是在2018年收集的。患者数量为600名女性患者。数据集包括780张图像，平均图像大小为500×500像素。图像为PNG格式。图像分为三类，即正常、良性和恶性。然后使用218张正常图像、105张良性和66张恶性图像进行模型测试。考虑到这个数据集中类别的平衡分布，我们增强图像以确保每类别250张。

表I显示了本文中实验数据和设置的详细总结。对于基线，我们使用原始样本集进行下游网络训练，以提供对样本贡献的基本评估。对于消融研究，我们将原始样本集与由无指导和分类器引导的扩散模型合成的样本混合，以创建新的样本集，用于下游网络训练。如果网络在原始和我们的合成样本上训练能够击败基线和消融研究，我们将相信提出的不确定性指导有助于高质量样本合成。此外，分类器自由指导[56]和分类器指导具有相同的理论表示，这两种方法之间的主要区别在于分类器自由指导涉及与空集一起训练，而分类器指导利用预训练的分类器。为了提供全面的验证比较，我们还在实验部分包括了分类器自由指导。以下展示了深入分析和消融研究的结果。为了实验的公平性，本文中的随机种子都设置为20。

B. 结果

在我们的实验中，无指导是我们的基线，它只在扩散模型训练中嵌入类别信息，但在其采样过程中既没有使用分类器也没有使用不确定性指导。随后，分类器指导是仅在采样过程中使用分类器。对于我们的UGDM采样过程，如图2所示，我们首先使用分类器指导，然后在第二阶段使用不确定性（熵和边际）指导。我们使用了四个医学数据集，十个经典网络全面验证了我们的方法。

Messidor数据集是一个典型的连续等级的疾病分级任务。图4(a)比较了由无指导、分类器指导、熵引导和边际引导的扩散模型分别合成的典型增殖性视网膜样本。可以清楚地看到，两个不确定性引导的扩散模型使病变区域变小，对肉眼不太明显。此外，表II比较了使用不同样本集训练的十个经典网络的分级准确性。显然，通过我们的熵和边际引导的扩散模型合成的样本使超过一半的验证网络的准确性高于基线和消融研究。准确性最多可以通过熵和边际引导的扩散模型分别提高5.00%和4.00%。

ISIC档案是一个知名的皮肤病变数据集，标记为“良性”或“恶性”，这是一个典型的不平衡分类任务。因此，我们只合成恶性样本以缓解这种不平衡。图4(b)比较了由无指导、分类器指导、熵引导和边际引导的扩散模型分别合成的典型恶性皮肤镜图像。可以看出，提出的不确定性指导稍微减少了第一个样本中的病变区域。请注意，对于无指导的皮肤癌结果，这个合成的恶性样本是错误的。此外，表III比较了使用不同样本集训练的十个经典网络的皮肤病变诊断准确性。可以看出，在大多数情况下，我们的方法可以提高诊断准确性，只有一小部分有轻微的下降。由于基线本身就很高，整体准确性的提升并不显著，这些合成样本对这些样本集的贡献空间不大。

PneumoniaMnist是一个典型的二分类任务。图4(c)比较了由无指导、分类器指导和我们的两个不确定性引导扩散模型生成的典型感染胸部X光图像。我们的不确定性指导显著缩小了感染样本中白色肺部的范围。表IV比较了使用不同方法训练的十个经典网络的肺炎诊断准确性。我们的熵引导在诊断上表现出明显更好的性能，而我们的边际引导则表现出相对较差的结果。值得注意的是，在SqueezeNet和VGG13的结果中，由仅分类器引导的扩散模型合成的样本几乎没有贡献，甚至降低了诊断准确性。这种情况证明了过度自信样本的存在。最后，我们的熵引导通过实现更高的准确性解决了这个缺点。然而，边际引导在这项基准测试中没有表现出与熵引导相同的优越性，这可能是因为熵在不确定性评估方面更全面。

BreastMnist是一个典型的多类分类任务。图4(d)比较了由无指导、分类器指导和我们的两个不确定性引导扩散模型生成的典型恶性超声图像。我们的不确定性指导显著缩小了样本中的病变范围。表V比较了使用不同方法训练的十个经典网络的乳腺癌诊断准确性。总体而言，提出的熵和边际引导扩散模型在下游诊断方面都比其他方法表现出显著更好的性能。

在我们的广泛实验中，四个医学数据集和十个在原始和增强数据集上训练的经典网络为我们的方法提供了全面的实际贡献评估。对于所有网络的平均准确性，如表II至V所示，提出的UGDM（熵和边际）在这些四个数据集上都显示出比其他方法更好的结果。此外，如表VI所示，熵和边际引导的扩散模型以7.25/10和6/10的平均胜率击败了以前的扩散模型，熵的表现更好且更稳定。由于数据差异化低和类别更多，熵和边际在DR分级问题上表现不佳，合成数据对复杂网络如ResNet34、ResNet50的适应性差。这些结果表明，实现高质量医学图像自动合成仍有很长的路要走。

此外，在定量指标方面，表VII显示了无指导、分类器指导和提出的不确定性引导扩散模型在四个医学数据集上的FID[28]和IS[29]。可以清楚地看到，这四个生成模型的FID和IS之间没有显著差异，与之前的诊断准确性也没有明显的相关性。总体而言，FID和IS与评估下游应用性能的指标一致性有限，这在一定程度上支持了Ravuri和Vinyals[60]的观点。虽然FID和IS通常用于评估现有工作中与生成模型相关的合成性能，但它们在本文中对以诊断为导向的医学图像合成任务的评估价值有限。

C. 分析

在本小节中，我们从三个因素：信息量、指导比例和扩展到分类器自由指导，全面评估了提出的不确定性指导对实际贡献。

不确定性指导真的有助于增强样本信息量吗？最好对合成样本进行类别信心分析。如果我们的不确定性指导能够降低分类器的信心，我们可以确认这种指导可以增加样本的信息量。如表VIII所示，我们分析了采样过程中分类概率的变化。可以清楚地看到，大多数平均分类概率的变化是负的。也就是说，提出的不确定性指导可以有效地降低分类器引导合成样本在统计总体上的分类信心，并且它可以导致从分布内样本到更复杂样本的合成。这种方法可以缓解医学影像领域中不平衡样本集的流行问题，并优化辅助医学诊断模型的训练数据质量。此外，以肺炎实验为例，图5可视化并比较了这些基准与原始样本集和原始合成混合样本集的数据分布，其中合成数据分别由分类器引导扩散模型和我们的熵引导扩散模型产生。首先，原始数据分布的颜色比其他三个要浅，这表示样本量的明显增加。其次，对于无指导结果，一些合成样本位于相反的类别，这意味着它们的类别信息是错误的。也就是说，无指导采样过程生成了一个带有健康标签的感染样本。随后，分类器指导纠正了这个错误，两个类别之间的样本距离变得更远。这就是为什么我们必须在第一阶段添加分类器指导来使类别正确。最后，对于我们的不确定性指导结果，没有样本错误，与之前的分类器指导相比，两个类别之间的样本距离已经缩小。总体而言，我们的方法可以确保样本的可靠性，并减少合成样本的类间可分性。

指导比例是否影响下游诊断？为了与分类器自由指导进行公平比较，并探索我们不确定性对其的扩展，我们重新训练了扩散模型，并在不同参数下对诊断促进进行了详细分析。由于指导比例的选择对可控生成很重要，我们初步调查了其对合成样本及下游诊断的影响。图6显示，我们可以使用不同的指导比例对同一类别的样本进行不同程度的多样性控制。在类别概率变化方面，我们进一步使用四个原始数据集的预训练分类器作为基线，计算分类器引导样本和不确定性引导样本在不同下的预测概率，并选择整体诊断样本中的平均相对变化来确定不确定性指导对统计总体的作用。实际上，图像合成的性能有时对敏感，有时则不敏感。另一方面，如表2至5所示，不同的分类网络在不同合成数据集上的诊断性能差异显著，很难确定我们当前研究中的最佳指导比例。此外，就分类器引导在不同指导比例下的比较而言，表IX在PneumoniaMnist数据集上提供了对指导比例=5、10、20的进一步比较。使用不同分类器指导比例在采样过程中的平均诊断准确性没有显著差异，无论我们如何选择分类器指导比例，它都不会影响我们第二阶段不确定性指导的平均有效性。值得注意的是，当我们将分类器指导比例设置为较大的值20时，我们的方法在所有分类网络上表现出更好的促进性能。然而，不同的分类网络在不同合成数据集上的诊断性能差异显著。
不确定性指导是否可以扩展到分类器自由引导扩散模型？分类器自由指导[56]通常在许多最先进的扩散模型中使用，如Imagen[8]和DALL-E 2[27]。因此，进一步探索我们的不确定性指导在分类器自由引导上的扩展性是必要的。分类器自由指导和分类器指导具有相同的理论表示，这两种方法之间的主要区别在于分类器自由指导涉及与空集一起训练，而分类器指导利用预训练的分类器。理论上，分类器自由指导也可以与我们的不确定性指导一起有效工作。如表IX所示，我们进一步调查了使用我们的不确定性指导（熵和边际）在分类器自由引导扩散模型上的可行性。可以清楚地看到，熵和边际指导在PneumoniaMnist数据集上对分类器自由指导表现出更好的促进。同时，我们提供了在PneumoniaMnist数据集上对不同分类器自由参数w=0.5、1、2的进一步比较。类似于表IX中的分类器指导结果，使用不同的w在采样过程中的平均诊断准确性没有显著差异。然而，当我们将w设置为2时，我们的方法比其他方法表现出更低的平均诊断准确性。

总体而言，我们的不确定性指导对可控生成具有重要意义。根据我们的分析，提出的不确定性指导可以通过合成更具信息量的样本来有效改善数据分布，以用于诊断，并且在采样过程中使用不同的指导比例不会改变其平均有效性。不幸的是，不同的分类网络在不同指导比例的合成数据集上的诊断性能差异显著，很难确定我们当前研究中的最佳指导比例。根据表IX，对于诊断促进而言，使用分类器指导只是略微优于使用分类器自由指导在PneumoniaMnist数据集上的表现。此外，我们的不确定性指导也可以有效地扩展到分类器自由引导。分类器引导和分类器自由引导都可以在第一阶段使用，以确保样本的可靠性。

VI. 局限性和未来工作

尽管合成结果充满希望，我们希望强调我们的扩散模型仍然存在几个局限性，以及未来工作的方向。

A. 局限性

首先，从自动生成的角度来看，我们扩散模型的指导比例参数仍然需要手动设置，这使得它难以成为一个广泛和主流的数据增强工具。此外，从泛化性的角度来看，不同的诊断网络，如VGG、ResNet和随机深度网络，在不同参数的合成样本上的适应性存在显著差异，我们还没有找到指导比例设置的内在规律。根据我们对四个不同数据集的初步调查，此外，基于不同合成样本的诊断结果有时对指导比例敏感，有时则不敏感，没有与这些参数相对应的明确趋势。

其次，从评估的角度来看，当前的合成结果通常通过视觉性能的定性比较和定量比较（FID和IS）在现有论文中进行评估。然而，一方面，组织足够的合格观察员完成相对公平的测试是一项耗时的任务。另一方面，如表VII所示，当前的指标对于以应用为导向的合成任务的评估价值有限。此外，没有特定的合成医学图像评分。

第三，从理论的角度来看，本文中的分类器和不确定性指导都是测量指导的特例。我们假设未来在扩散模型中将有各种测量指导，如相似性、不规则性和轮廓信息，以用于更多的下游应用。

最后，从工业应用的角度来看，我们本文中的2D合成技术无法支持3D医学体积合成，这在MRI、US和CT等更常用的医学图像领域中更为常见。实现具有时间和空间信息的高质量3D合成是一个具有挑战性的任务。目前，我们的研究只关注为特定的成像方式和特定疾病的样本开发医学生成模型。随着人工智能生成内容（AIGC）的快速发展，更用户友好的合成技术可能在医院和学术机构中有更多的潜力。

B. 未来工作

我们希望本文能够吸引更多的研究人员参与医学图像合成的关键问题研究，并为这个快速发展的领域提供一些启示。基于我们的详细调查和广泛实验，以下是关于基于扩散模型的医学图像技术的未来发展的一些展望。

我们的未来展望总结如下：

需要进一步研究指导比例参数及其对诊断的贡献。自适应指导和自动调整指导比例无疑是未来的发展趋势。
希望能够嵌入文本信息，如解剖、模态和疾病类别信息，并预训练多样化的医学数据集，以产生更用户友好的医学图像合成工具。
希望能够整合和发展当前的合成方法，以支持3D医学体积合成，以拓宽临床应用，如异常检测、分割、配准和重建。
建议开发针对医学图像合成的具体指标，这些指标应与视觉性能一致，并能全面反映合成性能。
为了实现更多样化和可控的生成，未来扩散模型中将有各种测量指导。
扩散模型的一个主要特点是需要大量的步骤来获得高质量的样本。因此，探索高效的采样过程以提高生成速度对该领域非常有利。
由于提出的扩散模型，研究人员可以轻松获得无限量的样本。在如此大规模的情况下，即使是存储和处理数据也变得负担重重，需要专门的基础设施。因此，需要进一步有效的数据集压缩技术。

VII. 结论

医学图像合成是医学图像分析中的一个重要话题，因为合成医学数据有许多优点，如保护隐私和降低注释成本。自2022年以来，扩散模型被引入到这一领域，并声称可以作为数据增强工具。然而，这带来了两个问题：（1）我们真的能信任合成医学图像样本吗？（2）合成医学图像样本真的有助于诊断吗？毕竟，训练扩散模型使模型能够逐步模拟训练数据集的分布，理论上合成样本很难跳出这个分布。由于这些局限性，我们很难将扩散模型作为数据增强的主流产工具。在本文中，我们对扩散模型产生的增强图像样本的分布进行了深入分析。为了提高合成数据的质量并使其分布更灵活地控制以用于下游应用，我们提出了两种不确定性指导（熵和边际）并设计了一个不确定性引导的扩散模型。在我们的广泛实验分析中，四个医学数据集和十个在原始合成混合数据上训练的经典网络为我们的方法论的实际贡献提供了全面评估。总之，熵和边际引导的扩散模型以相对较高的平均胜率击败了仅分类器引导的扩散模型。因此，我们认为这表明我们的提议是一个易于复制但非常有效的工具，用于实现高质量的医学图像合成。

目前，关于生成模型的研究主要集中在提高生成稳定性或某些指标上。据我们所知，本文是第一个关于应用导向图像合成的工作，其主要目标是合成促进诊断的医学图像样本。此外，我们为扩散模型中的一般梯度指导提供了理论保证和未来趋势，为研究特定于生成任务的其他形式的测量指导铺平了道路。

声明

本文内容为论文学习收获分享，受限于知识能力，本文对原文的理解可能存在偏差，最终内容以原论文为准。本文信息旨在传播和学术交流，其内容由作者负责，不代表本号观点。文中作品文字、图片等如涉及内容、版权和其他问题，请及时与我们联系，我们将在第一时间回复并处理。

#论文推广#

让你的论文工作被更多人看到

你是否有这样的苦恼：自己辛苦的论文工作，几乎没有任何的引用。为什么会这样？主要是自己的工作没有被更多的人了解。

计算机书童为各位推广自己的论文搭建一个平台，让更多的人了解自己的工作，同时促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。 计算机书童 鼓励高校实验室或个人，在我们的平台上分享自己论文的介绍、解读等。

稿件基本要求：

• 文章确系个人论文的解读，未曾在公众号平台标记原创发表，

• 稿件建议以 markdown 格式撰写，文中配图要求图片清晰，无版权问题

投稿通道：

• 添加小编微信协商投稿事宜，备注：姓名-投稿

△长按添加 PaperEveryday 小编

http://mp.weixin.qq.com/s?__biz=MzI3NzI0MTk1OQ==&mid=2247503443&idx=1&sn=eac930a1afdbf638a6af15b32192178c

PaperEveryday

为大家分享计算机和机器人领域顶级期刊