学术动态|智能系统安全重点实验室关于大模型越狱攻击的论文被自然语言处理和计算语言学领域的顶级国际会议COLING 2025接受

文摘   2024-12-28 17:02   上海  
西安市智能系统安全重点实验室的论文 “The Dark Side of Function Calling: Pathways to Jailbreaking Large Language Models” 被自然语言处理和计算语言学领域的顶级国际会议COLING 2025接受
COLING
International Conference on Computational Linguistics


COLING,国际计算语言学会议(International Conference on Computational Linguistics),是自然语言处理和计算语言学领域的顶级国际会议(CCF推荐B类国际会议)。COLING 2025将于2025年1月19日至24日在阿联酋阿布扎比召开。


论文介绍
Paper Introduction

标题:The Dark Side of Function Calling: Pathways to Jailbreaking Large Language Models


作者: 吴子辉,高海昌,何剑萍,王萍


论文地址:https://arxiv.org/pdf/2407.17915v3


项目地址:https://github.com/wooozihui/jailbreakfunction


论文提针对大语言模型(LLMs)函数调用安全性进行了深入研究,旨在揭示LLMs在函数调用功能中存在的安全漏洞。研究发现,当前LLMs的函数调用特性在安全方面存在显著风险,尤其容易受到通过对齐差异和用户胁迫的“越狱函数”攻击。基于此,论文提出了一种新的攻击方法,并在六款先进LLMs(包括GPT-4o、Claude-3.5-Sonnet和Gemini-1.5-pro等)上进行了实证研究,发现该攻击方法的平均成功率超过90%。此外,论文还提供了对为何函数调用容易受到此类攻击的全面分析,并提出了包括防御性提示在内的防御策略。实验结果表明,采用该策略后,LLMs在面对越狱攻击时表现出显著的安全性提升。论文的研究结果强调了在LLMs函数调用功能中加强安全防护的迫切需求,突出了LLMs函数调用功能中的潜在安全风险,并为改进LLMs的防御机制提供了新的思路,为AI安全领域的研究做出了贡献。



来源:智能系统安全重点实验室


信息网络安全    

《信息网络安全》创刊于2001年,是由公安部主管,公安部第三研究所、中国计算机学会主办,面向国内外公开发行的国内首批信息安全类期刊之一,于2015年成为中国科技核心期刊,2017年成为中国科学引文数据库来源期刊,2018年成为中文核心期刊,2022年入选CCF计算领域高质量科技期刊分级目录。



中文核心期刊

中国科技核心期刊

中国科学引文数据库来源期刊

CCF计算领域高质量科技期刊


我们在不断努力和完善中,期待您的关注和支持!

信息网络安全杂志
深入介绍信息安全理论,瞄准信息安全领域迫切需要的前沿技术,传达贯彻国家信息安全重要方针政策,及时反映国内外信息安全的热点技术及最新发展趋势。
 最新文章