​纯文本对齐就能解决多模态安全问题?上海AI Lab发布VLSBench给出否定答案

科技   2024-12-16 12:31   北京  



引言

如何为多模态大模型(MLLMs)的安全测试构建正确且富有挑战性的测试数据一直是一个很大的挑战。一些工作 [1, 2, 3] 表明使用简单的文本数据做对齐就能解决现有的多模态安全问题。我们进一步地发现仅仅使用简单的文本微调就能达到和大量数据进行的多模态安全对齐同样的安全效果。

我们发现这是因为现有的多模态安全 Benchmark 存在视觉安全信息泄漏的问题,导致了模型无需看图,仅仅依赖文本就能做出安全问答。

因此,我们构建了 Multimodal Visual Leakless Safety Benchmark(VLSBench),开发了一套数据生产流程,规避了视觉信息泄漏的问题。这个数据集给现有的 MLLMs 带来很大的安全挑战,并且规避了文本对齐这种捷径式的对齐方式。



论文标题:

VLSBench: Unveiling Visual Leakage in Multimodal Safety

论文链接:

https://arxiv.org/abs/2411.19939

项目主页:

http://hxhcreate.github.io/VLSBench

代码地址:

https://github.com/hxhcreate/VLSBench

开源数据:

https://huggingface.co/datasets/Foreshhh/vlsbench


问题发现
我们在多模态安全的测试数据中发现了一个普遍存在的问题:视觉安全信息泄漏(Visual Safety Information Leakage short as VSIL)。并且进一步验证这个问题的普遍性。
定量验证
我们对多模态下的视觉安全信息的泄漏给出了一个形式化的定义,给定文本描述 和图片 ,让 代表安全裁判模型,。多模态视觉安全泄漏也就代表着 ,对于一个有害的图文安全对
具体而言,我们使用最新的 LlamaGuard-Vision [10] 模型来进行测试, 代表图文有害的比例, 代表纯文本有害的比例,结果如下图所示:

我们发现在 FigStep [4],JailbreakV [5],Harmbench [6] 和 VLSafe [7] 这些典型的安全数据集中,纯文本的有害性就已经和图文有害性几乎没有差异。这意味着这些数据呈现出视觉安全泄漏的问题。
定性验证
此外,我们通过 4 个样本来简要分析一下多模态安全中的信息泄漏问题是怎么出现的。
如下图的(a)样本所示,图片显示了一个禁忌区域的鸟瞰图,文本中出现了例如 'escape' 'prison' 等关键词,泄漏了来自视觉图片中的信息。同理如(c)样本所示,图片通过 OCR 的形式呈现出了有害的问题,而文本中的 'law enforcement' 和 'illegal activity' 一定程度上泄漏了图片中的语义。

文本对齐捷径

安全视觉信息泄漏(VSIL)会带来什么严重的问题呢?

我们对常见的 VLM 安全 Baseline 模型例如 VLGuard [8], SPA-VL [9] 进行了测试。同时,我们也测试了仅基于文本的 MLLM 的安全对齐基线,包括 SFT 和 Unlearning。我们在三种基础的 MLLMs 上做了实验,包括 LLava-7B,LLaVA-13B 和 Qwen2-VL-7B。

我们在多模态安全和能力的 Benchmark 的结果如下表所示:

通过这个实验,我们发现:

  • 纯文本的对齐方案就彰显了出了很强的多模态安全性能,在这些带有视觉安全泄漏的 BenchMark 上面,同时还能呈现不错的多模态能力。
  • 现有的多模态安全 Benchmark 可以很容易地被刷榜,对于 MLLMs 和各种安全对齐基线挑战性不够。



VLSBench

因此,我们构建了Multimodal Visual Leakless Safety Benchmark(VLSBench),用以弥补现有多模态安全数据的缺陷。

我们构建了 6 个安全类别和 19 个子类别,一共构建了 2.4k  图文对,如下图所示:

同时我们还开发了一套完整的数据生产流程,包含如下4个步骤:
  • 有害图文对的生成:包括两条线路,一条从有害元素出发,利用 LLM 生成图片描述和提问;第二条从已有图片出发,利用 MLLM 直接生成有害的提问。
  • 从有害的提问中去除视觉安全泄漏,并且进行过滤。
  • 将图片的描述,通过一个迭代生成的框架来生成高质量图片。
  • 将获取到的图文对,进行过滤和人工校验,最后得到数据集。



VLSBench实验
实验设置

我们在一些常见的 MLLM,例如 LLaVA,Qwen2VL 和 Llama3.2-Vision 上做了实验,也测试了上文提到过的一些常见安全基线,包括多模态 SFT,DPO,PPO 以及纯文本 SFT 和 Unlearning。

我们的测试使用广受认可的 GPT-4o 作为安全裁判模型,将模型输出分为三类:1)Refuse:代表模型直接拒绝了该有害的图文问题;2)Warning:模型没有明确拒绝,但是正确识别出了图文问题中的安全风险,并且没有给出有害的回复;3)Unsafe:模型没有正确识别风险,直接回答了问题,输出不安全内容。
实验结果

我们Benchmark上的实验结果如下表所示:

我们的发现如下:
  • 纯文本对齐的方案不再能够呈现出明显的优势,他落后于数据更复杂,训练更细致的多模态对齐方案。
  • VLSBench 对于现有的 MLLMs 和各种安全基线呈现出明显的挑战性,所有的模型包括开源闭源模型的安全率都不找过 50%。
  • 现有的 MLLMs 很难去平衡简单的拒绝和有益的警告。意味着模型尽管能够一定程度上安全,但是缺乏正确的风险识别和可能的安全帮助。


结论

我们的工作注意到当前多模态安全 Benchmark 中存在一个重要问题,即视觉安全信息泄漏(VSIL)。这种现象导致在评估 MLLM 的安全性时出现基于文本的偏差。

因此,当前的多模态评估数据集鼓励使用简单且看似优越的方法,与文本训练样本进行文本对齐,以解决多模态安全挑战。然而,当前的多模式安全数据集忽视了这个重要问题。

为此,我们构建了Multimodal Visual Leakless Safety Benchmark(VLSBench) 来填补多模态安全在这方面的空白。此外,我们还开发了一个数据构建流水线,成功地防止了从图像模态到文本查询的视觉信息泄漏。

在我们新提出的 VLSBench 上,我们发现当前的 MLLMs 模型都表现出很低的安全性。此外,虽然文本对齐足以解决那些存在 VSIL 的多模态数据集,但我们的  VLSBench 规避了视觉安全信息泄漏,强调啦更细致,复杂的多模态对齐方法才能够更好地解决这类多模态安全问题。

参考文献

[1] Chakraborty, Trishna, et al. "Cross-Modal Safety Alignment: Is textual unlearning all you need?." arXiv preprint arXiv:2406.02575 (2024).
[2 ]Wang, Pengyu, et al. "Inferaligner: Inference-time alignment for harmlessness through cross-model guidance." arXiv preprint arXiv:2401.11206 (2024).
[3] Gou, Yunhao, et al. "Eyes closed, safety on: Protecting multimodal llms via image-to-text transformation." European Conference on Computer Vision. Springer, Cham, 2025.
[4] Gong, Yichen, et al. "Figstep: Jailbreaking large vision-language models via typographic visual prompts." arXiv preprint arXiv:2311.05608 (2023).
[5] Luo, Weidi, et al. "Jailbreakv-28k: A benchmark for assessing the robustness of multimodal large language models against jailbreak attacks." arXiv preprint arXiv:2404.03027 (2024).
[6] Mazeika, Mantas, et al. "Harmbench: A standardized evaluation framework for automated red teaming and robust refusal." arXiv preprint arXiv:2402.04249 (2024).
[7] Chen, Yangyi, et al. "Dress: Instructing large vision-language models to align and interact with humans via natural language feedback." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2024.
[8] Zong, Yongshuo, et al. "Safety fine-tuning at (almost) no cost: A baseline for vision large language models." arXiv preprint arXiv:2402.02207 (2024).
[9] Zhang, Yongting, et al. "SPA-VL: A Comprehensive Safety Preference Alignment Dataset for Vision Language Model." arXiv preprint arXiv:2406.12030 (2024).
[10] https://huggingface.co/meta-llama/Llama-Guard-3-11B-Vision



更多阅读



#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


·
·
·


PaperWeekly
PaperWeekly是一个推荐、解读、讨论和报道人工智能前沿论文成果的学术平台,致力于让国内外优秀科研工作得到更为广泛的传播和认可。社区:http://paperweek.ly | 微博:@PaperWeekly
 最新文章