纯文本对齐就能解决多模态安全问题？上海AI Lab发布VLSBench给出否定答案

科技 2024-12-16 12:31 北京

引言

如何为多模态大模型（MLLMs）的安全测试构建正确且富有挑战性的测试数据一直是一个很大的挑战。一些工作 [1, 2, 3] 表明使用简单的文本数据做对齐就能解决现有的多模态安全问题。我们进一步地发现仅仅使用简单的文本微调就能达到和大量数据进行的多模态安全对齐同样的安全效果。

我们发现这是因为现有的多模态安全 Benchmark 存在视觉安全信息泄漏的问题，导致了模型无需看图，仅仅依赖文本就能做出安全问答。

因此，我们构建了 Multimodal Visual Leakless Safety Benchmark（VLSBench），开发了一套数据生产流程，规避了视觉信息泄漏的问题。这个数据集给现有的 MLLMs 带来很大的安全挑战，并且规避了文本对齐这种捷径式的对齐方式。

论文标题：

VLSBench: Unveiling Visual Leakage in Multimodal Safety

论文链接：

https://arxiv.org/abs/2411.19939

项目主页：

http://hxhcreate.github.io/VLSBench

代码地址：

https://github.com/hxhcreate/VLSBench

开源数据：

https://huggingface.co/datasets/Foreshhh/vlsbench

问题发现

我们在多模态安全的测试数据中发现了一个普遍存在的问题：视觉安全信息泄漏（Visual Safety Information Leakage short as VSIL）。并且进一步验证这个问题的普遍性。

定量验证

我们对多模态下的视觉安全信息的泄漏给出了一个形式化的定义，给定文本描述和图片，让代表安全裁判模型，。多模态视觉安全泄漏也就代表着，对于一个有害的图文安全对。

具体而言，我们使用最新的 LlamaGuard-Vision [10] 模型来进行测试，代表图文有害的比例，代表纯文本有害的比例，结果如下图所示：

我们发现在 FigStep [4]，JailbreakV [5]，Harmbench [6] 和 VLSafe [7] 这些典型的安全数据集中，纯文本的有害性就已经和图文有害性几乎没有差异。这意味着这些数据呈现出视觉安全泄漏的问题。

定性验证

此外，我们通过 4 个样本来简要分析一下多模态安全中的信息泄漏问题是怎么出现的。

如下图的（a）样本所示，图片显示了一个禁忌区域的鸟瞰图，文本中出现了例如 'escape' 'prison' 等关键词，泄漏了来自视觉图片中的信息。同理如（c）样本所示，图片通过 OCR 的形式呈现出了有害的问题，而文本中的 'law enforcement' 和 'illegal activity' 一定程度上泄漏了图片中的语义。

文本对齐捷径

安全视觉信息泄漏（VSIL）会带来什么严重的问题呢？

我们对常见的 VLM 安全 Baseline 模型例如 VLGuard [8], SPA-VL [9] 进行了测试。同时，我们也测试了仅基于文本的 MLLM 的安全对齐基线，包括 SFT 和 Unlearning。我们在三种基础的 MLLMs 上做了实验，包括 LLava-7B，LLaVA-13B 和 Qwen2-VL-7B。

我们在多模态安全和能力的 Benchmark 的结果如下表所示：

通过这个实验，我们发现：

纯文本的对齐方案就彰显了出了很强的多模态安全性能，在这些带有视觉安全泄漏的 BenchMark 上面，同时还能呈现不错的多模态能力。
现有的多模态安全 Benchmark 可以很容易地被刷榜，对于 MLLMs 和各种安全对齐基线挑战性不够。

VLSBench

因此，我们构建了Multimodal Visual Leakless Safety Benchmark（VLSBench），用以弥补现有多模态安全数据的缺陷。

我们构建了 6 个安全类别和 19 个子类别，一共构建了 2.4k 图文对，如下图所示：

同时我们还开发了一套完整的数据生产流程，包含如下4个步骤：

有害图文对的生成：包括两条线路，一条从有害元素出发，利用 LLM 生成图片描述和提问；第二条从已有图片出发，利用 MLLM 直接生成有害的提问。
从有害的提问中去除视觉安全泄漏，并且进行过滤。
将图片的描述，通过一个迭代生成的框架来生成高质量图片。
将获取到的图文对，进行过滤和人工校验，最后得到数据集。

VLSBench实验

实验设置

我们在一些常见的 MLLM，例如 LLaVA，Qwen2VL 和 Llama3.2-Vision 上做了实验，也测试了上文提到过的一些常见安全基线，包括多模态 SFT，DPO，PPO 以及纯文本 SFT 和 Unlearning。

我们的测试使用广受认可的 GPT-4o 作为安全裁判模型，将模型输出分为三类：1）Refuse：代表模型直接拒绝了该有害的图文问题；2）Warning：模型没有明确拒绝，但是正确识别出了图文问题中的安全风险，并且没有给出有害的回复；3）Unsafe：模型没有正确识别风险，直接回答了问题，输出不安全内容。

实验结果

我们Benchmark上的实验结果如下表所示：

我们的发现如下：

纯文本对齐的方案不再能够呈现出明显的优势，他落后于数据更复杂，训练更细致的多模态对齐方案。
VLSBench 对于现有的 MLLMs 和各种安全基线呈现出明显的挑战性，所有的模型包括开源闭源模型的安全率都不找过 50%。
现有的 MLLMs 很难去平衡简单的拒绝和有益的警告。意味着模型尽管能够一定程度上安全，但是缺乏正确的风险识别和可能的安全帮助。

结论

我们的工作注意到当前多模态安全 Benchmark 中存在一个重要问题，即视觉安全信息泄漏（VSIL）。这种现象导致在评估 MLLM 的安全性时出现基于文本的偏差。

因此，当前的多模态评估数据集鼓励使用简单且看似优越的方法，与文本训练样本进行文本对齐，以解决多模态安全挑战。然而，当前的多模式安全数据集忽视了这个重要问题。

为此，我们构建了Multimodal Visual Leakless Safety Benchmark（VLSBench）来填补多模态安全在这方面的空白。此外，我们还开发了一个数据构建流水线，成功地防止了从图像模态到文本查询的视觉信息泄漏。

在我们新提出的 VLSBench 上，我们发现当前的 MLLMs 模型都表现出很低的安全性。此外，虽然文本对齐足以解决那些存在 VSIL 的多模态数据集，但我们的 VLSBench 规避了视觉安全信息泄漏，强调啦更细致，复杂的多模态对齐方法才能够更好地解决这类多模态安全问题。

参考文献

[1] Chakraborty, Trishna, et al. "Cross-Modal Safety Alignment: Is textual unlearning all you need?." arXiv preprint arXiv:2406.02575 (2024).

[2 ]Wang, Pengyu, et al. "Inferaligner: Inference-time alignment for harmlessness through cross-model guidance." arXiv preprint arXiv:2401.11206 (2024).

[3] Gou, Yunhao, et al. "Eyes closed, safety on: Protecting multimodal llms via image-to-text transformation." European Conference on Computer Vision. Springer, Cham, 2025.

[4] Gong, Yichen, et al. "Figstep: Jailbreaking large vision-language models via typographic visual prompts." arXiv preprint arXiv:2311.05608 (2023).

[5] Luo, Weidi, et al. "Jailbreakv-28k: A benchmark for assessing the robustness of multimodal large language models against jailbreak attacks." arXiv preprint arXiv:2404.03027 (2024).

[6] Mazeika, Mantas, et al. "Harmbench: A standardized evaluation framework for automated red teaming and robust refusal." arXiv preprint arXiv:2402.04249 (2024).

[7] Chen, Yangyi, et al. "Dress: Instructing large vision-language models to align and interact with humans via natural language feedback." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2024.

[8] Zong, Yongshuo, et al. "Safety fine-tuning at (almost) no cost: A baseline for vision large language models." arXiv preprint arXiv:2402.02207 (2024).

[9] Zhang, Yongting, et al. "SPA-VL: A Comprehensive Safety Preference Alignment Dataset for Vision Language Model." arXiv preprint arXiv:2406.12030 (2024).

[10] https://huggingface.co/meta-llama/Llama-Guard-3-11B-Vision

更多阅读

#投稿通道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个，让知识真正流动起来。

📝 稿件基本要求：

• 文章确系个人原创作品，未曾在公开渠道发表，如为其他平台已发表或待发表的文章，请明确标注

• 稿件建议以 markdown 格式撰写，文中配图以附件形式发送，要求图片清晰，无版权问题

• PaperWeekly 尊重原作者署名权，并将为每篇被采纳的原创首发稿件，提供业内具有竞争力稿酬，具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道：

• 投稿邮箱：hr@paperweekly.site

• 来稿请备注即时联系方式（微信），以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信（pwbot02）快速投稿，备注：姓名-投稿

△长按添加PaperWeekly小编

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

PaperWeekly

PaperWeekly是一个推荐、解读、讨论和报道人工智能前沿论文成果的学术平台，致力于让国内外优秀科研工作得到更为广泛的传播和认可。社区：http://paperweek.ly | 微博：@PaperWeekly

最新文章

大语言模型的知识蒸馏（KD）应该用Reverse KL？

AAAI 2025 | 基于自适应图结构和动态原型对比学习的空间多组学解析框架

超越ControlNet++！腾讯优图提出动态条件选择新架构DynamicControl

北京内推 | 高通中国招聘端到端AI模型量化研发实习生

低秩近似之路（四）：插值分解（Interpolative Decomposition）

NeurIPS 2024 | 基于信息论，决策模型有了全新预训练范式统一框架

直播预告 | 香港中文大学王文轩博士：可信大模型的测试与评估

北京内推 | 微软亚洲研究院通用人工智能组招聘大模型算法实习生

GPT-4o掀起全模态热潮！一文梳理全模态大模型最新研究进展

南加大团队提出MARVEL：基于认知科学的多维抽象视觉推理基准测试

AAAI 2025 | 浙大、蚂蚁等提出全新跨域微调框架，构筑更好的大模型隐私保护

博后招募 | 复旦大学肖仰华教授课题组招聘大模型数据科学博士后研究员

今年顶会这情况。。。大家提前做准备吧！

NeurIPS 2024 | 如何缓解长文本情境下的中间信息丢失问题？

Tokenization不存在了？Meta最新研究，无需Tokenizer的架构来了

直播预告 | 香港中文大学王文轩博士：可信大模型的测试与评估

直播预约 | 字节跳动豆包大模型团队NeurIPS 2024中选论文今晚精讲！

北大团队提出ConsisID：基于频域分解的身份保真文本到视频生成模型

GPT-4其实根本听不懂声音？港中文、斯坦福等联合打造视觉听觉评估新基准

北京内推 | 阿里妈妈搜索广告算法团队招聘广告算法实习生

为什么说在中国做科研最忌讳踏实？

纯文本对齐就能解决多模态安全问题？上海AI Lab发布VLSBench给出否定答案

模仿、探索与自我提升：慢思考推理系统的复现之路

博士申请 | 密歇根大学计算机视觉实验室高俊老师招收3D生成方向博士生

AAAI 2025接收结果出炉！Mamba魔改再次爆发

KDD 2025 | 新大、新国大等提出ProNoG：非同配图上的提示学习

谷歌“狙击”OpenAI，发布新一代大模型Gemini 2.0！主打Agent+多模态

北京内推 | 启元实验室大模型团队招聘多模态大模型算法实习生

NeurIPS 2024 | 阿里云提出个性化提示策略IAP，突破大语言模型零样本推理局限

苹果发布视频生成大模型STIV，实现可扩展的文本与图像条件视频生成

智能体不够聪明怎么办？清华&蚂蚁团队：让它像学徒一样持续学习

博士申请 | 伊利诺伊大学香槟分校张欢老师招收人工智能全奖博士/硕士/博后/实习生

Muon优化器赏析：向量与矩阵有何本质区别？

NeurIPS 2024 | 中科院自动化所提出MetaLA！线性模型架构的大一统

田渊栋团队论文火了！连续思维链优于CoT，打开LLM推理新范式

上海内推 | 中国电信人工智能研究院招聘智能编码方向算法实习生

NeurIPS 2024 | 让模型预见分布漂移：动态系统颠覆性设计引领时域泛化新革命

北理工重磅开启「流星雨计划」，深度探究大模型的自我进化能力

博士申请 | 香港城市大学苗宁老师招收LLM Reasoning方向全奖博士/RA

简单有效！Vector Quantization的又一技巧：给编码表加一个线性变换

CIKM 2024 | 通过学习相对偏好，利用预训练语言模型缓解流行度偏差

UCL、上交大等提出自然语言强化学习范式：可处理语言反馈的强化学习框架

北京师范大学智能技术与教育应用教育部招聘工程研究中心科研助理

ACL 2024 | 多快好省！上科大提出层间KV共享的大模型高效推理新方法

上海AI Lab提出Critic-V框架：提升视觉语言模型在多模态推理中的准确性与可靠性

NeurIPS 2024 | 哈工深提出新型智能体Optimus-1，横扫Minecraft长序列任务

博士申请 | 南京大学-NTU-CMU招收人工智能方向联培博士/实习生

【内含双12福利】今年读过最绝的一本LLM书！下载量10W+！看完少走一半弯路

阿里通义实验室发布IOPO，提升LLM复杂指令遵循能力

准确性超Moshi和GLM-4-Voice！端到端语音双工模型Freeze-Omni

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉

​纯文本对齐就能解决多模态安全问题？上海AI Lab发布VLSBench给出否定答案

文本对齐捷径

结论

纯文本对齐就能解决多模态安全问题？上海AI Lab发布VLSBench给出否定答案