针对视觉-语言预训练(Vision-Language Pretraining, VLP)模型的对抗攻击,现有的研究往往仅关注对抗轨迹中对抗样本周围的多样性,但这些对抗样本高度依赖于代理模型生成,存在代理模型过拟合的风险。
为了解决这一问题,我们引入了对抗轨迹交集区域的概念。这个区域由干净样本、当前对抗样本以及上一步对抗样本所构成的三角形区域。通过利用这一区域的多样性,我们不仅考虑了更加多样化的扰动方向,还关注了干净样本周围的对抗多样性,从而提升了对抗样本的迁移性。
针对视觉-语言预训练(Vision-Language Pretraining, VLP)模型的对抗攻击,现有的研究往往仅关注对抗轨迹中对抗样本周围的多样性,但这些对抗样本高度依赖于代理模型生成,存在代理模型过拟合的风险。
论文题目:
Boosting Transferability in Vision-Language Attacks via Diversification along the Intersection Region of Adversarial Trajectory
论文链接:
https://arxiv.org/pdf/2403.12445
代码链接:
https://github.com/SensenGao/VLPTransferAttack
一、研究背景
近年来,ChatGPT-4等视觉 - 语言预训练模型(VLP)展示了强大的多模态理解和生成能力,在图像识别、文本生成等任务中表现出色。然而,这些模型的强大性能也伴随着一个显著的安全隐患:对抗攻击(Adversarial Attacks)。对抗攻击是指通过对输入数据进行微小且难以察觉的扰动,诱使模型产生错误输出。这种攻击方式不仅可以影响模型的预测准确性,甚至可能导致严重的安全问题。
由于 ChatGPT-4 等商业模型通常是闭源的,攻击者无法直接访问其内部参数和结构信息,这使得直接攻击这些模型变得困难。然而,攻击者可以通过对类似的开源或已知结构的 VLP 模型(如 CLIP)进行研究,生成对抗样本并将其应用于闭源商业模型。这种方法被称为对抗攻击的迁移攻击(Transfer Attack)。
对抗攻击的迁移性研究具有重要意义。一方面,了解对抗攻击在不同模型间的迁移性,可以提高对这些商业闭源模型的攻击成功率,从而帮助我们更好地评估和提升闭源模型的安全性,防止潜在的安全漏洞。另一方面,通过研究对抗样本在不同模型上的表现,可以进一步优化对抗训练方法,提高模型的鲁棒性和抗攻击能力。
二、动机
图 1:现有方法对于 VLP 模型在代理模型和目标模型上的攻击成功率 (图片来源:SGA (arXiv:2307.14061))。
图 2:SGA 和我们方法的对比。
如图 2 所示,SGA 采用迭代攻击,并在迭代优化路径上通过图像增强(Resize)来增加对抗样本的多样性。然而,这种多样性仅考虑了对抗图像的周围区域,而对抗图像由代理模型生成,容易导致过拟合,从而降低了迁移性。
干净样本完全独立于代理模型,因此我们认为干净样本周围的对抗多样性同样重要。为此,我们利用对抗轨迹的交集区域构建更广泛的多样性,它由干净图像、当前对抗图像和上一步对抗图像构成。
三、方法
3.1 图像模态
首先,我们在所提出的对抗轨迹交集区域中采样多个图像,并得到多样化的对抗扰动方向:
3.2 文本模态
四、实验效果
4.1 跨模型迁移性
4.2 跨任务迁移性
4.3 攻击可视化
下图 3 显示了对视觉定位任务攻击的可视化。
从图 3 和图 4 可以看出,通过对抗攻击,使 VLP 模型在视觉定位和图像描述任务上均出现了严重错误。
我们分别将干净图像和对抗图像输入 ChatGPT-4,Claude-3 等大模型,并使用查询「Describe this image.」得到输出结果,我们从图 5 和图 6 可以看到,两个大模型对对抗图像的理解已经出现很大的错误。
五、结语
作者:高森森,加小俊 来源:公众号【机器之心】
llustration From IconScout By Pixel True
扫码观看!
“AI技术流”原创投稿计划
TechBeat是由将门创投建立的AI学习社区(www.techbeat.net)。社区上线500+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。
投稿内容
// 最新技术解读/系统性知识分享 //
// 前沿资讯解说/心得经历讲述 //
投稿须知
稿件需要为原创文章,并标明作者信息。
我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励
投稿方式
发送邮件到
chenhongyuan@thejiangmen.com
或添加工作人员微信(chemn493)投稿,沟通投稿详情;还可以关注“将门创投”公众号,后台回复“投稿”二字,获得投稿说明。