ECCV 2024 | 让GPT-4图像理解更易出错，全新策略增强VLP模型对抗迁移性

创业 2024-08-02 08:22 北京

针对视觉-语言预训练（Vision-Language Pretraining, VLP）模型的对抗攻击，现有的研究往往仅关注对抗轨迹中对抗样本周围的多样性，但这些对抗样本高度依赖于代理模型生成，存在代理模型过拟合的风险。
为了解决这一问题，我们引入了对抗轨迹交集区域的概念。这个区域由干净样本、当前对抗样本以及上一步对抗样本所构成的三角形区域。通过利用这一区域的多样性，我们不仅考虑了更加多样化的扰动方向，还关注了干净样本周围的对抗多样性，从而提升了对抗样本的迁移性。

论文题目：
Boosting Transferability in Vision-Language Attacks via Diversification along the Intersection Region of Adversarial Trajectory
论文链接：
https://arxiv.org/pdf/2403.12445
代码链接：
https://github.com/SensenGao/VLPTransferAttack

一、研究背景

近年来，ChatGPT-4等视觉 - 语言预训练模型（VLP）展示了强大的多模态理解和生成能力，在图像识别、文本生成等任务中表现出色。然而，这些模型的强大性能也伴随着一个显著的安全隐患：对抗攻击（Adversarial Attacks）。对抗攻击是指通过对输入数据进行微小且难以察觉的扰动，诱使模型产生错误输出。这种攻击方式不仅可以影响模型的预测准确性，甚至可能导致严重的安全问题。

由于 ChatGPT-4 等商业模型通常是闭源的，攻击者无法直接访问其内部参数和结构信息，这使得直接攻击这些模型变得困难。然而，攻击者可以通过对类似的开源或已知结构的 VLP 模型（如 CLIP）进行研究，生成对抗样本并将其应用于闭源商业模型。这种方法被称为对抗攻击的迁移攻击（Transfer Attack）。

对抗攻击的迁移性研究具有重要意义。一方面，了解对抗攻击在不同模型间的迁移性，可以提高对这些商业闭源模型的攻击成功率，从而帮助我们更好地评估和提升闭源模型的安全性，防止潜在的安全漏洞。另一方面，通过研究对抗样本在不同模型上的表现，可以进一步优化对抗训练方法，提高模型的鲁棒性和抗攻击能力。

二、动机

图 1：现有方法对于 VLP 模型在代理模型和目标模型上的攻击成功率 (图片来源：SGA (arXiv:2307.14061))。

SGA (ICCV2023 Oral) 是第一篇探索对 VLP 模型进行迁移攻击的工作，但实验结果显示在目标模型上的攻击成功率远低于代理模型。本研究的目标是探索 SGA 方法在目标模型上迁移性较差的因素，进一步提高对 VLP 模型迁移攻击的成功率。

图 2：SGA 和我们方法的对比。

如图 2 所示，SGA 采用迭代攻击，并在迭代优化路径上通过图像增强（Resize）来增加对抗样本的多样性。然而，这种多样性仅考虑了对抗图像的周围区域，而对抗图像由代理模型生成，容易导致过拟合，从而降低了迁移性。

干净样本完全独立于代理模型，因此我们认为干净样本周围的对抗多样性同样重要。为此，我们利用对抗轨迹的交集区域构建更广泛的多样性，它由干净图像、当前对抗图像和上一步对抗图像构成。

三、方法

3.1 图像模态

首先，我们在所提出的对抗轨迹交集区域中采样多个图像，并得到多样化的对抗扰动方向：

随后，我们使用文本引导进行采样图像的选择：

此时即表示最佳的采样图像，我们同时采用了 SGA 的思想，通过图像增强操作进一步探索最佳采样图像周围的对抗扰动多样性，最终的迭代表示为：

3.2 文本模态

过去的研究在生成对抗文本时，先通过迭代优化生成对抗图像，随后使对抗文本偏离最终生成的对抗图像。然而，正如我们前面所述，对抗图像高度依赖于代理模型，这样生成的对抗文本也存在过拟合的风险。

我们提议让对抗文本偏离沿对抗轨迹的最后一个交集区域，具体而言，对抗文本应偏离由原始图像、倒数第二个对抗图像图片和最终对抗图像图片构成的三角区域。此外，我们设置了可调节的系数因子，其中。

四、实验效果

4.1 跨模型迁移性

下表 1 显示了在图像 - 文本检索（Image-Text Retrieval, ITR）任务中跨模型攻击的迁移性。相比于 SGA，我们的方法在多个跨模型迁移性上提升了 10% 以上。

4.2 跨任务迁移性

下表 2 显示了利用在图像 - 文本检索（ITR）任务上预训练的 ALBEF 模型，生成多模态对抗样本，以攻击 RefCOCO + 数据集上的视觉定位（VG）任务和 MSCOCO 数据集上的图像描述（IC）任务。基线表示每个任务在没有任何攻击时的性能，较低的值表示对这两个任务的对抗攻击效果更好。

4.3 攻击可视化

下图 3 显示了对视觉定位任务攻击的可视化。

下图 4 显示了对图像描述任务攻击的可视化。

从图 3 和图 4 可以看出，通过对抗攻击，使 VLP 模型在视觉定位和图像描述任务上均出现了严重错误。

下图 5 显示了对 ChatGPT-4 迁移攻击的可视化。

下图 6 显示了对 Claude-3 迁移攻击的可视化。

我们分别将干净图像和对抗图像输入 ChatGPT-4，Claude-3 等大模型，并使用查询「Describe this image.」得到输出结果，我们从图 5 和图 6 可以看到，两个大模型对对抗图像的理解已经出现很大的错误。

五、结语

尽管该工作在提升多模态对抗攻击迁移性方面取得了显著效果，但如何更充分地利用对抗攻击的交集区域，以及提供更深入的理论解释，仍然是未来值得深入研究的方向。我们对对抗轨迹交集区域及其对 VLP 对抗攻击迁移性的研究还在持续探索中，欢迎大家持续关注。如果有任何问题或进一步的想法，随时欢迎讨论。

作者：高森森，加小俊
来源：公众号【机器之心】

llustration From IconScout By Pixel True

-The End-

扫码观看！

本周上新！

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区（www.techbeat.net）。社区上线500+期talk视频，3000+篇技术干货文章，方向覆盖CV/NLP/ML/Robotis等；每月定期举办顶会及其他线上交流活动，不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台，希望为AI人才打造更专业的服务和体验，加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章，并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向，对用户启发更大的文章，做原创性内容奖励

投稿方式

发送邮件到

chenhongyuan@thejiangmen.com

或添加工作人员微信（chemn493）投稿，沟通投稿详情；还可以关注“将门创投”公众号，后台回复“投稿”二字，获得投稿说明。

关于我“门”

▼

将门是一家以专注于数智核心科技领域的新型创投机构，也是北京市标杆型孵化器。公司致力于通过连接技术与商业，发掘和培育具有全球影响力的科技创新企业，推动企业创新发展与产业升级。

将门成立于2015年底，创始团队由微软创投在中国的创始团队原班人马构建而成，曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业，不仅想获得投资，还希望获得一系列持续性、有价值的投后服务，欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

点击右上角，把文章分享到朋友圈

点击“阅读原文”按钮，查看社区原文

http://mp.weixin.qq.com/s?__biz=MzAxMzc2NDAxOQ==&mid=2650512865&idx=2&sn=70d0710e545f605a6681dec932863197

将门创投

将门是一家以专注于数智核心科技领域的新型创投机构，也是北京市标杆型孵化器，由前微软创投在中国的创始团队于2015年底创立。公司致力于通过连接技术与商业，发掘和培育具有全球影响力的科技创新企业，推动企业创新发展与产业升级。

ECAI 2024 | 可适应点云模型：通过适应二维视觉模型进行三维点云分析

一文看懂Mamba，Transformer最强竞争者

ACL 2024 Oral | 大模型也会被忽悠？揭秘AI的信念之旅

Talk预告｜中国人民大学徐晨：推荐系统中供应商公平性的算法与理论研究

ECCV 2024 | GKGNet：多标签分类遇上图卷积网络ViG

ECCV 2024 | UCF联合亚马逊提出X-Former框架，显著提升MLLM细粒度理解能力

8卡3090可训练，Mini-Monkey解决切分策略增大分辨率导致的语义丢失

将门投资企业 | 阿里云「开学季 Ai 第一课」采用「MyTwins.ai」数字分身，为直播行业带来新场景

Talk预告｜香港大学杨丽鹤：Depth Anything V2 - 更精细更鲁棒的单目深度估计基础模型

如何分解视觉信号？一文浅谈视觉生成领域存在的若干问题

可远程！将门创投招聘实习生！

Talk预告｜清华大学诸子钰：面向具身智能的通用3D视觉语言理解

21.5万张X光、78万个问题，德州大学NIH等联合发布医学视觉问答数据集Medical-CXR-VQA

斯坦福最新理论研究：RLHF中奖励过度优化现象也存在Scaling Laws

将门月报 | 智谱发布新一代基座模型、文远知行无人驾驶扫路机S1驶入广东汕头、杉数科技携手南京鼓楼管养集团打造智能化环卫系统

IROS 2024 | 借助地形抓取“不可抓取”的物体，清华AIR和北大出品

ECCV 2024 Oral | SPLAM：基于子路径线性近似的扩散模型加速方法

Talk预告｜香港大学戚张扬：物体级别3D点云多模态大模型

ECCV 2024 | PosFormer：识别复杂手写数学表达式的位置森林变换器

Talk预告｜浙江大学&西湖大学曹淼：视频单曝光压缩成像重建算法探索

ACM MM 2024 Oral | 突破传统方法局限！用语义正确性评估视觉问答生成结果

8.27 直播预告 | 科研的使命：学术界 vs 工业界

ECCV 2024 | 南洋理工三维数字人生成新范式：结构扩散模型

Talk预告｜香港大学李卓凌：统一多场景的单目3D目标检测

同时操控手机和电脑完成任务，CAMEL联合多家机构发布首个跨系统智能体评测基准CRAB

Talk预告｜波形智能CTO周王春澍：可自主进化的AI智能体系统

ECCV 2024 | 一个Query解决所有感知任务! 单阶段多任务感知模型HQNet

近100页的LLaMA 3技术报告：模型结构及影响解析

ICML 2024 | 维度坍塌视角下的大规模推荐系统

Talk预告｜香港大学陈汐：零样本图像编辑中ID一致性与生成多样性的平衡

TKDE 2024 | 彻底摒弃人工标注，AutoAlign方法基于大模型让知识图谱对齐全自动化

Talk预告｜伊利诺伊大学香槟分校张凯风：AdaptiGraph - 材料自适应的图神经动力学模型

ACM MM 2024 | 基于掩码的注意力调整约束引导在复杂场景中的图像局部编辑

调研近400篇文献，鹏城实验室、中山大学深度解析具身智能

ACM MM 2024 | 多模态不可学习样本：保护数据免受多模态对比学习的威胁

FBI-LLM低比特基础大模型，首个完全从头训练的二值化语言模型

ACL 2024 | 基于自我规划的自动化问答智能体学习

IEEE RAL 2024 | CDM-MPC：解决人形机器人的连续跳跃难题

ECCV 2024 | 视觉优先&文本偏好？BPO缓解MLLMs幻觉，提升视觉理解力

将门创新伙伴 | 城越UrbanLab科技出海创新行启动会暨香港1.5℃峰会说明会

Talk预告｜普林斯顿大学魏博逸：通过剪枝&低秩改造揭示LLMs安全对齐的脆弱性

ICML 2024 Oral | CompeteAI：从理解竞争机制出发、探索大模型智能体如何助力社会科学研究

ECCV 2024 | 哈佛团队开发FairDomain，实现跨域医学图像分割和分类中的公平性

8.6 直播预告 | 论文背后的故事：梦“想”何时成“真” - 图形渲染 vs 图像生成

ECCV 2024 | 让GPT-4图像理解更易出错，全新策略增强VLP模型对抗迁移性

TPAMI 2024 | ProCo：无限contrastive pairs的长尾对比学习

将门月报 | 文远知行开启东莞首个无人环卫商业项目、伟景智能推出全球首款智能人形采摘机器人、墨芯荣登Silicon 100榜单

Talk预告｜北京大学于博涵：EventPS - 基于事件相机的实时光度立体视觉

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉