学术动态｜智能系统安全重点实验室关于大模型越狱攻击的论文被自然语言处理和计算语言学领域的顶级国际会议COLING 2025接受

文摘 2024-12-28 17:02 上海

西安市智能系统安全重点实验室的论文 “The Dark Side of Function Calling: Pathways to Jailbreaking Large Language Models” 被自然语言处理和计算语言学领域的顶级国际会议COLING 2025接受。

COLING

International Conference on Computational Linguistics

COLING，国际计算语言学会议（International Conference on Computational Linguistics），是自然语言处理和计算语言学领域的顶级国际会议（CCF推荐B类国际会议）。COLING 2025将于2025年1月19日至24日在阿联酋阿布扎比召开。

论文介绍

Paper Introduction

标题：The Dark Side of Function Calling: Pathways to Jailbreaking Large Language Models

作者： 吴子辉，高海昌，何剑萍，王萍

论文地址：https://arxiv.org/pdf/2407.17915v3

项目地址：https://github.com/wooozihui/jailbreakfunction

论文提针对大语言模型（LLMs）函数调用安全性进行了深入研究，旨在揭示LLMs在函数调用功能中存在的安全漏洞。研究发现，当前LLMs的函数调用特性在安全方面存在显著风险，尤其容易受到通过对齐差异和用户胁迫的“越狱函数”攻击。基于此，论文提出了一种新的攻击方法，并在六款先进LLMs（包括GPT-4o、Claude-3.5-Sonnet和Gemini-1.5-pro等）上进行了实证研究，发现该攻击方法的平均成功率超过90%。此外，论文还提供了对为何函数调用容易受到此类攻击的全面分析，并提出了包括防御性提示在内的防御策略。实验结果表明，采用该策略后，LLMs在面对越狱攻击时表现出显著的安全性提升。论文的研究结果强调了在LLMs函数调用功能中加强安全防护的迫切需求，突出了LLMs函数调用功能中的潜在安全风险，并为改进LLMs的防御机制提供了新的思路，为AI安全领域的研究做出了贡献。

来源：智能系统安全重点实验室

信息网络安全

《信息网络安全》创刊于2001年，是由公安部主管，公安部第三研究所、中国计算机学会主办，面向国内外公开发行的国内首批信息安全类期刊之一，于2015年成为中国科技核心期刊，2017年成为中国科学引文数据库来源期刊，2018年成为中文核心期刊，2022年入选CCF计算领域高质量科技期刊分级目录。

中文核心期刊

中国科技核心期刊

中国科学引文数据库来源期刊

CCF计算领域高质量科技期刊

我们在不断努力和完善中，期待您的关注和支持！

信息网络安全杂志

深入介绍信息安全理论，瞄准信息安全领域迫切需要的前沿技术，传达贯彻国家信息安全重要方针政策，及时反映国内外信息安全的热点技术及最新发展趋势。

最新文章

国科大密码学院最新成果被TIFS（CCF-A）接收

天津大学微电子学院在第一届集成电路安全挑战赛（HACK）中荣获全国亚军

杭州电子科技大学微电子研究院夏莹杰教授团队在车联网隐私保护领域取得新进展

杭州电子科技大学吕秋云老师团队数据安全共享论文被网络安全领域的国际顶级期刊TIFS录用发表

复旦大学计算机科学技术学院《面向深度视觉模型的对抗鲁棒性研究》入选2024年中国图像图形学学会“博士学位论文激励计划”

电子科技大学智能计算研究院博士生在数据挖掘顶级会议SIGKDD发表论文

北京大学邓小铁课题组获WINE 2024最佳论文奖

本刊审稿专家动态 | 中国科学院重庆研究院在2024iDASH隐私计算竞赛中夺得冠军

华中科技大学 | 智能与分布计算实验室马然同学的论文被AAAI 2025录用

2024网民网络安全感满意度调查报告发布周(安满周)“遏制网络违法犯罪专题报告”发布会成功举办

事业编招聘 | 北京警察学院2025年度公开招聘事业编制人民警察公告

西北工业大学网安学子在首届全国集成电路安全挑战赛中夺冠

宋甫元老师团队 | 南信大计算机学院《链法智鉴:区块链交易合法性检测》在CCF第三届大学生区块链安全技术与创新应用竞赛喜获佳绩

南京信息工程大学计算机学院、网络空间安全学院2025年博士研究生招生工作细则

空天地一体化综合业务网全国重点实验室第二十六期开放课题申请公告

2024年第21届信息安全与对抗技术竞赛（ISCC2024）个人挑战赛、无限擂台赛、数据思维赛简况

深圳大学计算机与软件学院博士生苏晓鑫获国家自然科学基金博士生项目资助

公安部第三研究所网络安全技术研发中心2025年第一季度招聘启事

华东师范大学密码学院海内外公开招聘

中国科学院大学 | 信息工程研究所学子在DataCon2024大数据安全分析竞赛取得优异成绩

2024年第21届全国大学生信息安全与对抗技术竞赛“智能安全赛”成功召开

职业规划大赛，让网安专业大学生赢在起跑线上

三所动态｜我所参与编制的2024年度《生成式大模型安全评估白皮书》正式发布

重磅！北京科技大学“网络空间安全系”成立！招贤纳士进行时！

2025年中国科学技术大学网络空间安全学院招收攻读博士学位研究生报名通告

公安部大数据中心2025年度公开招聘公告

湖北民族大学智能科学与工程学院胡涛教授团队在IEEE SLT 2024歌声深度伪造检测挑战赛中获奖

三所祝福｜新年贺词

喜报 |《信息网络安全》第四次被《科技期刊世界影响力指数（WJCI）报告》收录！

哈尔滨工程大学计算机科学与技术学院师生多篇学术论文被人工智能领域顶级会议AAAI-25录用

浙江理工计算机科学与技术学院（人工智能学院）智能软件工程团队硕士生学术论文被CCF A类会议AAAI 2025录用

公安部第三研究所2025年度公开招聘人民警察

含网络空间安全专业，中国刑事警察学院面向社会公开招聘高层次人才

华科大认知计算与智能信息处理实验室21级研究生董浩同学和22级研究生王钰同学的论文分别被国际知名SCI期刊录用!

吉林大学｜人工智能学院2022级大三本科生李宇潇的论文被CCF A类会议 AAAI' 2025接收

扬州大学信息工程学院（人工智能学院）青年教师张超伟在国际人工智能顶级会议AAAI-2025发表研究论文

学术动态｜智能系统安全重点实验室关于大模型越狱攻击的论文被自然语言处理和计算语言学领域的顶级国际会议COLING 2025接受

华中科技大学智能与分布计算实验室陈汉和王海蓉等同学的论文被Knowledge-Based Systems期刊录用

研精阐微 | 我校信息科学与技术学院郑煜辰副教授团队在人工智能领域Top期刊发表论文

中国科学院信息工程研究所2024-2025年招聘工作人员

郑州师范学院信息科学与技术学院学生以第一作者身份在国际会议上发表学术成果

同济大学智能机器人与计算感知实验室成果在《IEEE Transactions on Smart Grid》上录用

北京邮电大学 | 网络空间安全学院石瑞生副教授团队成果被2025网络与分布式系统（NDSS 2025）研讨会录用

深圳量子科学与工程研究院李正达课题组在基于光量子网络的多方量子通信研究中取得进展

安徽师范大学计信学院王涛春教授等人论文被服务计算领域权威期刊录用发表

中山大学战队在HITCTF2024网络安全国际邀请赛中荣获佳绩

[AAAI 2025] 华科大认知计算与智能信息处理实验室3篇论文被国际人工智能顶级会议AAAI 2025全文录用!

专访·华科 | 学术成果落地转化，华科作品获最具投资价值奖！

中国人民公安大学2025年度公开招聘公告

“第17届政府/行业信息化安全年会”在京召开

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉