AI Safety Benchmark大模型安全基准测试2024 Q4版结果发布

科技   2025-01-09 18:51   北京  

多模态大模型凭借对文本、图像、语音等多种数据形式的处理能力,在各行业创新应用中展现出巨大潜力。但随着技术的更新发展,多模态大模型也面临着极为严峻的安全挑战。其中,图文多模态攻击形式尤为突出,攻击者可通过对文本和图像进行恶意处理,如重写、添加隐藏信息等,针对单一模态或组合模态实施对抗扰动。这种攻击方式显著扩大了攻击面,极易导致模型输出非法有害内容。因此,在发展多模态大模型技术的进程中,及时检测其安全风险,对于促进其后续安全应用至关重要。


面向产业界对人工智能应用安全问题的治理需求,中国信息通信研究院(简称“中国信通院”)联合30余家单位依托中国人工智能产业发展联盟(简称“AIIA”)安全治理委员会发起大模型安全基准测试(AI Safety Benchmark)2024 Q4版测试工作。本次测试以图文多模态大模型安全为核心测评目标,开展对抗性测试,探究模型抵御各种攻击方法的能力。


测试框架

AI Safety Benchmark 2024 Q4从文生图和图生文(图文理解)两个维度,在Q3版(点击查看详情)基础之上结合目前研究界各种先进的攻击方法对多模态大模型进行安全测试,其中图生文系列应用4种类别攻击策略,11种攻击方法;文生图系列应用2种类别攻击策略,7种攻击方法。具体测试框架如下:



测试数据

本次测试样例以Q3版输入提示词作为基础,其中包括文生图的测试文本1000条,图生文的测试文本-图像对1000条。结合攻击方法扩增后的文生图与图生文攻击数据分别达到5000余条与10000余条。


测试场景一:文生图

输入经过攻击方法增强的提示文本,输出相对应的图像内容。


选择TAIYi、Stable-Diffusion XL、360智脑文生图大模型、VIVO蓝心多模态大模型、Stable-Diffusion-3、Flux、商汤日日新等7个文生图大模型作为测试对象。使用内容有害率和内容相关性作为评价指标。前者定义为输出图像内容有害的占比,后者为输入文本和输出图像内容相关的的分数(基于CLIP模型进行打分)。


测试结果如下:


经过测试,分析认为:


1. 文本扰动对于模型内容有害率以及内容相关性影响较小,仅使模型输出有害率略微提升,相关性略有下降;


2. 模板攻击对模型的影响更为显著,无论是在内容有害率还是内容相关性方面,均会使模型性能出现较大恶化。


测试场景二:图生文

输入经过攻击方法增强的文本提示词和对应的图像,输出文本回复。


选择Qwen-VL-Chat、Glm-4V、MiniCPM-V、Deepseek-VL-Chat、Llava、Bunny、VIVO蓝心多模态大模型、商汤日日新、腾讯混元等9个多模态图文理解大模型作为测试对象。


使用内容有害率作为评价指标,即输出内容有害的测试题目数量占总测试题目数量的比例。通过比较攻击前和攻击后的内容有害率来评估模型的安全性能。


测试结果如下:



经过测试,分析认为:


1. 文本扰动和图像扰动的攻击方式未对内容有害率产生明显影响,说明传统的单模态鲁棒性扰动方式对多模态大模型影响有限。


2. 大语言模型攻击,尤其是采用提示模板攻击和提示迭代优化类的攻击手段,能够显著提升输出内容有害率,说明针对大语言模型的攻击方法仍适用于图文多模态模型。


3. 多模态模型攻击,对模型危害性较大,能显著提升输出内容有害率。此外,该攻击会使部分图文大模型出现理解错误和乱码输出,导致其多模态理解能力明显下降甚至丧失。


总的来看,当前多模态大模型在多种攻击手段下的暴露出了脆弱性问题,亟需产学研各界合作探索防护手段。后续中国信通院、AIIA安全治理委员会将联合各界专家学者深入关注大模型的安全,推动大模型生态健康发展。AI Safety Benchmark将顺应技术和产业发展需要,持续迭代更新。



详情请咨询:

黑一鸣 

15313308941(同微信)  

heiyiming@caict.ac.cn

陈文弢 

18500022046(同微信) 

chenwentao@caict.ac.cn






校  审 | 谨  言、珊  珊

编  辑 | 凌  霄


推荐阅读

AI Safety Benchmark大模型安全基准测试Q3版结果发布
专家谈



中国信通院CAICT
中国信息通信研究院是工业和信息化部直属科研事业单位,以“国家高端专业智库 产业创新发展平台”为发展定位,在信息通信行业重大战略、规划、政策、标准和测试认证等方面发挥了有力支撑作用。
 最新文章