ECCV 2024 | 让GPT-4图像理解更易出错,全新策略增强VLP模型对抗迁移性

创业   2024-08-02 08:22   北京  

针对视觉-语言预训练(Vision-Language Pretraining, VLP)模型的对抗攻击,现有的研究往往仅关注对抗轨迹中对抗样本周围的多样性,但这些对抗样本高度依赖于代理模型生成,存在代理模型过拟合的风险。

为了解决这一问题,我们引入了对抗轨迹交集区域的概念。这个区域由干净样本、当前对抗样本以及上一步对抗样本所构成的三角形区域。通过利用这一区域的多样性,我们不仅考虑了更加多样化的扰动方向,还关注了干净样本周围的对抗多样性,从而提升了对抗样本的迁移性。

论文题目: 

Boosting Transferability in Vision-Language Attacks via Diversification along the Intersection Region of Adversarial Trajectory 

论文链接:

https://arxiv.org/pdf/2403.12445

代码链接:

https://github.com/SensenGao/VLPTransferAttack

一、研究背景

近年来,ChatGPT-4等视觉 - 语言预训练模型(VLP)展示了强大的多模态理解和生成能力,在图像识别、文本生成等任务中表现出色。然而,这些模型的强大性能也伴随着一个显著的安全隐患:对抗攻击(Adversarial Attacks)。对抗攻击是指通过对输入数据进行微小且难以察觉的扰动,诱使模型产生错误输出。这种攻击方式不仅可以影响模型的预测准确性,甚至可能导致严重的安全问题。

由于 ChatGPT-4 等商业模型通常是闭源的,攻击者无法直接访问其内部参数和结构信息,这使得直接攻击这些模型变得困难。然而,攻击者可以通过对类似的开源或已知结构的 VLP 模型(如 CLIP)进行研究,生成对抗样本并将其应用于闭源商业模型。这种方法被称为对抗攻击的迁移攻击(Transfer Attack)。

对抗攻击的迁移性研究具有重要意义。一方面,了解对抗攻击在不同模型间的迁移性,可以提高对这些商业闭源模型的攻击成功率,从而帮助我们更好地评估和提升闭源模型的安全性,防止潜在的安全漏洞。另一方面,通过研究对抗样本在不同模型上的表现,可以进一步优化对抗训练方法,提高模型的鲁棒性和抗攻击能力。

二、动机

图 1:现有方法对于 VLP 模型在代理模型和目标模型上的攻击成功率 (图片来源:SGA (arXiv:2307.14061))。
SGA (ICCV2023 Oral) 是第一篇探索对 VLP 模型进行迁移攻击的工作,但实验结果显示在目标模型上的攻击成功率远低于代理模型。本研究的目标是探索 SGA 方法在目标模型上迁移性较差的因素,进一步提高对 VLP 模型迁移攻击的成功率

图 2:SGA 和我们方法的对比。

如图 2 所示,SGA 采用迭代攻击,并在迭代优化路径上通过图像增强(Resize)来增加对抗样本的多样性。然而,这种多样性仅考虑了对抗图像的周围区域,而对抗图像由代理模型生成,容易导致过拟合,从而降低了迁移性。

干净样本完全独立于代理模型,因此我们认为干净样本周围的对抗多样性同样重要。为此,我们利用对抗轨迹的交集区域构建更广泛的多样性,它由干净图像、当前对抗图像和上一步对抗图像构成。

三、方法

3.1 图像模态

首先,我们在所提出的对抗轨迹交集区域中采样多个图像,并得到多样化的对抗扰动方向:

随后,我们使用文本引导进行采样图像的选择:

此时即表示最佳的采样图像,我们同时采用了 SGA 的思想,通过图像增强操作进一步探索最佳采样图像周围的对抗扰动多样性,最终的迭代表示为:

3.2 文本模态

过去的研究在生成对抗文本时,先通过迭代优化生成对抗图像,随后使对抗文本偏离最终生成的对抗图像。然而,正如我们前面所述,对抗图像高度依赖于代理模型,这样生成的对抗文本也存在过拟合的风险。
我们提议让对抗文本偏离沿对抗轨迹的最后一个交集区域,具体而言,对抗文本应偏离由原始图像 、倒数第二个对抗图像图片 和最终对抗图像图片 构成的三角区域。此外,我们设置了可调节的系数因子,其中

四、实验效果

4.1 跨模型迁移性

下表 1 显示了在图像 - 文本检索(Image-Text Retrieval, ITR)任务中跨模型攻击的迁移性。相比于 SGA,我们的方法在多个跨模型迁移性上提升了 10% 以上。

4.2 跨任务迁移性

下表 2 显示了利用在图像 - 文本检索(ITR)任务上预训练的 ALBEF 模型,生成多模态对抗样本,以攻击 RefCOCO + 数据集上的视觉定位(VG)任务和 MSCOCO 数据集上的图像描述(IC)任务。基线表示每个任务在没有任何攻击时的性能,较低的值表示对这两个任务的对抗攻击效果更好。

4.3 攻击可视化

下图 3 显示了对视觉定位任务攻击的可视化。

下图 4 显示了对图像描述任务攻击的可视化。

从图 3 和图 4 可以看出,通过对抗攻击,使 VLP 模型在视觉定位和图像描述任务上均出现了严重错误。

下图 5 显示了对 ChatGPT-4 迁移攻击的可视化。

下图 6 显示了对 Claude-3 迁移攻击的可视化。

我们分别将干净图像和对抗图像输入 ChatGPT-4,Claude-3 等大模型,并使用查询「Describe this image.」得到输出结果,我们从图 5 和图 6 可以看到,两个大模型对对抗图像的理解已经出现很大的错误。

五、结语

尽管该工作在提升多模态对抗攻击迁移性方面取得了显著效果,但如何更充分地利用对抗攻击的交集区域,以及提供更深入的理论解释,仍然是未来值得深入研究的方向。我们对对抗轨迹交集区域及其对 VLP 对抗攻击迁移性的研究还在持续探索中,欢迎大家持续关注。如果有任何问题或进一步的想法,随时欢迎讨论。
作者:高森森,加小俊
来源:公众号【机器之心】

llustration From IconScout By Pixel True


-The End-

扫码观看

本周上新!


“AI技术流”原创投稿计划


TechBeat是由将门创投建立的AI学习社区(www.techbeat.net社区上线500+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。


投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //


投稿须知

稿件需要为原创文章,并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励


投稿方式

发送邮件到

chenhongyuan@thejiangmen.com

或添加工作人员微信(chemn493投稿,沟通投稿详情;还可以关注“将门创投”公众号,后台回复“投稿”二字,获得投稿说明。


关于我“

将门是一家以专注于数智核心科技领域新型创投机构,也是北京市标杆型孵化器公司致力于通过连接技术与商业,发掘和培育具有全球影响力的科技创新企业,推动企业创新发展与产业升级。

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”: 
bp@thejiangmen.com

    


点击右上角,把文章分享到朋友圈
点击“阅读原文”按钮,查看社区原文

将门创投
将门是一家以专注于数智核心科技领域的新型创投机构,也是北京市标杆型孵化器,由前微软创投在中国的创始团队于2015年底创立。公司致力于通过连接技术与商业,发掘和培育具有全球影响力的科技创新企业,推动企业创新发展与产业升级。
 最新文章