Nat. Mach. Intell. | 协调人工智能在医学影像中的隐私性和准确性

学术   2024-08-16 00:01   韩国  

DRUGAI

今天为大家介绍的是来自Georgios Kaissis团队的一篇论文。人工智能(AI)模型容易泄露其训练数据的信息,这些数据可能非常敏感,例如在医疗影像中。隐私增强技术,如差分隐私(DP),旨在规避这些脆弱性。差分隐私是为训练模型提供最强保护的技术,同时限制了推断训练样本包含与重建原始数据的风险。差分隐私通过设定可量化的隐私预算(privacy budge)来实现这一目标。虽然较低的隐私预算减少了信息泄露的风险,但通常也会降低模型的性能。这就带来了稳健性能与严格隐私之间的权衡。此外,隐私预算的解释仍然抽象且难以具体化。在此,作者对比了不同隐私预算下人工智能模型的性能,并将其与理论风险界限和重建攻击的实际成功率进行了比较。结果显示,使用非常大的隐私预算可以使重建攻击变得不可能,而性能下降则可以忽略不计。因此,作者得出结论,在应用人工智能模型于敏感数据时,完全不使用差分隐私是不负责任的。作者认为这些结果为进一步讨论如何在隐私风险与模型性能之间取得平衡奠定了基础。


人工智能(AI)在医学领域的快速应用有望改变医疗保健,从更精确的病理检测或结果预测等具体应用,到广泛的医疗AI的前景,带来了显著的改进。然而,最近的研究结果突显了一个重大漏洞:AI模型可能会泄露其训练数据的细节。这种情况可能是无意中发生的,也可能是恶意第三方(也称为对手)通过攻击强迫发生的。最关键的攻击之一是数据重建攻击,对手试图从模型或其梯度中提取训练数据。这类攻击带来了明显的风险。


常用的去标识化技术如匿名化、假名化或k匿名,容易受到重新识别攻击。这在医学影像数据中同样适用。例如,即使病人的名字已经从记录中删除,但通过重建的核磁共振成像扫描可以获得病人的面部轮廓,从而能通过公开的照片重新识别他们。因此,作者认为,处理敏感数据的AI系统不仅应依赖去标识化技术,还应实施隐私增强技术(PETs),即能够提供客观或正式隐私保护保证的技术。


DP是最优的隐私保护技术


在隐私增强技术中,差分隐私(DP)被认为是训练AI模型的最佳保护方法,同时能够调节参与患者面临的隐私风险。尽管差分隐私(DP)具有诸多优势,但在大规模AI系统中有效且高效地实现DP也面临一系列挑战。DP的一个主要批评点在于,选择合适的隐私预算非常敏感。较高的预算意味着较少的隐私保护,从而增加成功攻击的风险,而较低的预算则限制了训练所需的信息。这带来了隐私与模型性能之间的新挑战,即在特定用例中的诊断准确性。


在这篇文章中,作者研究了上述典型的差分隐私(DP)威胁模型是否对于实际用例过于悲观,从而带来了不必要的隐私/性能权衡。为验证这一假设,作者研究了在更现实的威胁模型下,使用大规模医学影像数据集训练的AI模型的隐私/性能特征。在这项工作中,作者区分了三种威胁模型,分别称为最坏情况(Worst case)、放松情况(Relaxed)和现实情况(Realistic),这三种模型的概述见表1。


表1


作者的主要贡献在于研究一种对手带来的实际风险,这种对手虽然非常强大,但在现实世界的医疗AI模型训练用例中可以合理地假设其存在。概述如图1所示。在下一节中,作者将展示在保持与未使用任何隐私保护的模型相媲美的诊断性能的同时,如何完美地防御这种对手。


图1


不同隐私级别下的模型性能


表2


作者的评估重点在于,多种现实世界特征数据集(参见表2)上的各种隐私风险与算法性能之间的关系。


表3


在表3中,作者列出了所有数据集和隐私预算下最佳可能的AI模型性能及其对应的重建风险。风险分为三个层次:(1)最坏情况对手的上限风险。这是在这种设置下的最大风险,不能通过后处理或附加信息增加。(2)引入的最低放松对手的上限风险。(3)现实世界对手的重建成功率。作者认为,对于实际用例来说,防护这种现实世界的攻击者已经足够。通过列出这三种情况,作者提供了关于通过改变对攻击者的假设,风险如何变化的概述。


对于小数据集,隐私对性能的影响显著。首先,作者分析了非常严格(小)隐私预算ε = 1对数据集预测AI性能的影响(表3)。总体来看,在这些预算下,模型性能受到的影响很大。具体来说,作者发现,在RadImageNet数据集上,标准的非隐私AI模型平均达到71.83%,而在如此严格的隐私保证下训练时,平均Matthews相关系数(MCC)为64.95%,仍达到非隐私MCC分数的90%。在HAM10000数据集上,这个差距变得更大,当隐私预算ε = 1时,模型性能仅略高于机会水平,MCC为15.60%。同样,在医学分割十项全能(MSD)肝脏数据集上,在严格的隐私预算下,肝脏的平均Dice分数降至42.84%(非隐私:91.58%),而对于肿瘤则完全失败,Dice分数为0.96%。这说明了在小或困难数据集上训练AI模型时提供强隐私保护的挑战。


接下来,作者考虑了中等隐私预算,范围从ε = 8到ε = 32,这是文献中常见的选择。由于ε是指数参数(e^ε),较大的值对应于指数级减少的隐私保证。因此,有些人认为这种中等预算提供的隐私保证是无意义的。在这些隐私预算下,尽管性能相比极为严格的隐私预算有显著提高,但隐私AI模型的表现从未完全匹配非隐私模型。在RadImageNet数据集中,隐私预算为ε = 32时,MCC达到了69.99%,接近非隐私情况的71.83%。在HAM10000数据集中,性能显著提升,MCC达到了42.83%,但相比非隐私结果仍减少了9%。最后,在MSD肝脏数据集中,肝脏作为较大的器官,在ε = 20时可以学到合理的Dice分数79.06%,但仍远低于非隐私性能。尤其令人担忧的是肿瘤的预测质量,由于肿瘤结构较小且更复杂,分割质量较差,平均Dice分数仅为5.55%,不适用于现实应用。再次指出,性能权衡尤其影响较小且不平衡的数据集。


对于非常大的隐私预算,作者观察到隐私和非隐私性能之间的差距消失了。回顾一下,HAM10000和MSD肝脏数据集作为小数据集,在严格的DP条件下极具挑战性。当隐私预算增加到ε = 109时,无法检测到与非隐私模型的统计显著差异(P值:HAM10000为0.36;MSD肝脏数据集肝脏为0.10,肿瘤为0.29,学生t检验)。仅在RadImageNet上,虽然非隐私模型仍然在统计上显著优于隐私模型(P值:0.001),但隐私模型在ε = 1012时达到非隐私基线性能的99%。增加隐私预算减轻了对模型性能的负面影响,这并不令人意外。因此,必须问的问题是,为特定设置所需的隐私级别是什么。


最坏情况界限需要小的隐私预算


虽然对大多数用例来说过于悲观,但最坏情况分析的优点是提供了正式保证,即在这种情况下的风险绝对上限。在分析理论上的最坏情况(最高)重建攻击成功率时,作者发现对于大型RadImageNet数据集,当预算ε ≤ 8时,风险小于0.05%。然而,当ε达到32时,原始数据被重建的理论概率为15%。这里,较小的数据集再次面临更高风险。虽然在ε = 1时风险仍然较低,但在HAM10000(从0.03%增加到1.22%)和MSD肝脏数据集(从1.66%增加到17.96%)中,在ε = 8时风险大幅增加。理论上,在ε = 20时,MSD肝脏数据集的所有数据样本中最多有74.24%可以被重建。


图2


然而,即使最小程度地放松威胁模型假设,也会大幅降低这些隐私预算相关的风险。回顾一下,在这种放松的威胁模型下,与最坏情况相比,唯一的变化是攻击者事先不知道被重建的样本。然而,对于理论分析,仍然假设重建算法要么完美,要么失败,并且计算出的风险是攻击者正确决定他们获得的重建是否确实是所问数据样本的最大概率。这个威胁模型对于任何现实世界的用例仍然过于悲观,分析主要是为了理论目的。即便如此,这样的最小放松已经给出了更有利的风险概况,特别是对于中等隐私预算。例如,HAM10000数据集中ε = 20时的风险从超过20%减少到不到1%。类似地,MSD数据集中ε = 8时的风险从18%减少到4%。图2展示了在最坏情况和放松威胁模型下的风险差异。


之前讨论的理论分析显示,小和中等隐私预算相关的风险迅速增长。然而,如前所述,作者认为这些分析对于任何“现实”用例来说都过于严格。因此,作者探讨了任何实际场景中的最坏情况,并确定它是联邦学习设置,其中中央服务器协调分布式客户端的数据学习,客户端执行服务器发送的每个训练命令。这意味着服务器可以自由选择任何网络架构和超参数。需要注意的是,任何执行简单检查的客户端都会注意到这样的恶意服务器。文献中已经展示了这种情况下的攻击,可以完美恢复模型输入。此外,这些攻击可以转移到被破坏的预训练模型上。作者使用这些攻击进行经验风险评估。为了衡量重建成功率,使用了结构相似性(SSIM)评分,这是图像相似性的标准指标。


图3


与前述理论风险界限相比,作者发现对于实际攻击,即使是被认为无意义的隐私预算(ε > 109)也能有效防止数据重建。在图3的左侧,作者绘制了每个隐私预算下SSIM误差增加时低于该误差的图像数量。这可以看作是重建误差的累积分布函数。作者观察到,对于所有没有添加DP约束的数据集,几乎所有图像都可以完美重建。一旦引入某种隐私保证,即使是非常宽松的预算(ε ≈ 109)也能在经验上防止数据样本的重建。此外,确认了之前的研究,作者的威胁模型仍然非常强大。一个不控制超参数但仍控制模型架构的服务器已经大幅降低了重建风险。例如,在RadImagenet数据集上,即使在非隐私情况下,当批量大小为3,328时,作者只能重建不到5%的所有图像。作者指出,这样的大隐私预算,虽然几乎普遍被视为无意义,但仍提供了经验保护。换句话说,即使是“一点点隐私”在实际场景中也有显著效果。结合发现,在这些设置中性能权衡几乎消失,这表明在保护和可用性之间有可能的折衷方案。

编译 | 黄海涛

审稿 | 曾全晨

参考资料

Ziller, A., Mueller, T. T., Stieger, S., Feiner, L. F., Brandt, J., Braren, R., ... & Kaissis, G. (2024). Reconciling privacy and accuracy in AI for medical imaging. Nature Machine Intelligence, 1-11.

DrugAI
关注人工智能与化学、生物、药学和医学的交叉领域进展,提供“原创、专业、实例”的解读分享。
 最新文章