一、方法简介
随着深度学习技术的广泛应用,深度模型逐渐成为重要的数字产品。本文提出了一种新的概念——可撤销后门,旨在将后门攻击转化为深度模型交易中的一种应用。通过设计可撤销的后门机制,希望在确保模型性能的同时,提供一种安全的交易方式,保护买卖双方的权益。
在深度模型交易场景中,卖方可以提供带有可撤销后门的试用版本模型,买方在使用试用版并满意后支付最终尾款。卖方在收到尾款后,发送特定的掩码矩阵给买方,以撤销后门。这种机制不仅保护了卖方的利益,还增强了买方对模型性能的信任。
可撤销后门的具体流程如图1所示,主要包含后门植入和后门撤销。为了在模型中植入后门,本文在部分干净训练样本上添加特定的触发模式,形成毒性样本并与干净样本混合,构成中毒训练集。训练得到的中毒模型在接收到带有触发模式的输入时返回攻击者预设的输出,而在正常情况下则表现良好。为了有效撤销后门,引入掩码矩阵,操控特征图,利用这些可训练的掩模矩阵来有意地打破有害的后门推理链接。经过掩码处理的分类器能够在触发模式出现的情况下仍返回正确的结果,即撤销了后门。
图1 实现可撤销后门的框架
二、实验评估
图2 有效性和可撤销性的对比
本文使用CIFAR-10、GTSRB和Sub-ImageNet三个数据集来评估本文方法的性能。由于本文是首次提出可撤销后门攻击概念,因此没有合适的可撤销后门方法作为比较。本文假设用户获得一些与中毒图像对应的干净图像,并微调后门分类器,以实现基于现有传统攻击的可撤销性。对比了BadNets,Blend,SIG,LSB,WaNet和BppAttack共6种传统触发式后门方法。实验表明本文的方法在攻击有效性、保真度和可撤销性方面取得了较高的性能。
论文信息
本篇论文作者为复旦大学的徐怡然、钟楠(共同一作)、钱振兴(通讯作者)、张新鹏(通讯作者)Yiran Xu, Nan Zhong, Zhenxing Qian*, and Xinpeng Zhang. Revocable Backdoor for Deep Model Trading. In ECAI 2024.(点击下方阅读原文查看论文全文)
供稿:徐怡然,钟楠