论文导读：自然语言处理中的后门攻击

文摘科技 2022-05-04 14:30 上海

本公众号（IntBigData）记录了复旦大学互联网大数据与安全课题组在科研教学方面相关的成果、思考与相关动态。内容主要涉及互联网大数据、大数据安全、人工智能安全等。推送的文章：

我们也许习惯于下载各种预训练模型来使用，但你是否考虑考虑到其中存在后门安全风险？本文介绍清华大学和麦吉尔大学（加）发表在ACL2021上的文章，是关于自然语言处理中针对预训练模型的后门攻击。

后门攻击是一种新型的投毒攻击，在图像识别检测相关模型中已有较多研究。而在自然语言中，由于语言的离散特征，生成后门攻击样本比较困难。现有的方法主要采用：（1）如RIPPLES：插入一些特定的短字符串，如mn,bb,tq等等；（2）基于规则的方法，按照一些事先定义好的规则，如同音替换、同形替换、同义替换等；（3）考虑上下文的词汇替换，按照可读性和攻击成功率最大化进行文本替换。本文属于第三类情况，文章的创新体现在把文本替换中的参数调整和模型训练集成在一起，从而可以对参数进行更合适的修改，达到更好的可读性和攻击成功率。

文章所提出的方法称为LWS（Learnable Textual Backdoor Attacks via Word Substitution）是一种使用同义词替换的可进行上下文学习的后门攻击方法，它的基本框架如图。

后门攻击发生在训练阶段，当我们从网上下载别人训练好的模型，如果TA带有恶意，希望其他人下载并使用该模型时，TA可以利用已经植入的后门来使得模型输出错误结果。

对于途中输入训练的句子，对词汇选择同义词集，如图假设分别对is,dumb和he选择了三个集合。后门攻击的目的是修改句子及相应的标签（恶意），使得模型学习到恶意标签和句子表达模式之间的关系。那么当实际测试时输入带有这些特征模式的句子时，就能按照预先设定得到错误结果。同时，对于后门攻击而言，对于正常输入（也就是不带有攻击的表达模式）时，模型还是按照正常的结果输出。LWS把受害模型和词汇替换当作一个整体来对待，训练的损失函数定义如下。

其中，Dc是正常样本， Dp是用来进行修改的样本，这两类样本作为一个数据集来训练LWS模型。最小化该损失函数，就意味着正常样本和攻击样本的学习错误都最小，保证了后门攻击的两个基本要求。

为了使得句子中词汇w修改具有一定多样性，文章引入了一个概率向量来表示w被其同义词替换可能性。基于该概率向量进行采样，从而保证同一个词在不同句子能得到不同的同义词并替换。该概率向量的计算如下，其中s是同义词的embedding，w是句子中词汇的embedding。G是Gumbel(0, 1)分布的随机数，大概是为了增加随机性，并使得目标函数可导，确保反向传播可进行，俗称gumbel-softmax技巧。

最终把如下的词汇向量输入给模型，进行训练。

文章的实验在三个数据集上进行，是三个面向不同场景的文本分类。受害者模型选择Bert，分别有基准模型和大模型两个版本。最终的测试结果如下，LWS在保证攻击成功率时，对于正常样本的分类没有造成太多影响。

当然，如果替换的词汇太少，就无法表达攻击者的后门模式，从文章给出的实验可以看出来，在6个以上的词汇时，攻击成功率比较稳定。

点击阅读原文链接，查看图书详情和京东书评信息，欢迎读者写评论。

人工智能的哲学问题：生死、伦理、意识与创造性

《新一代人工智能伦理规范》

《个人信息保护法》如何应对“大数据杀熟”？

优质课程：Python程序设计-简明版

互联网大数据处理技术与应用

互联网大数据与安全相关的各种技术，包括爬虫采集提取、大数据语义、挖掘算法、大数据安全、人工智能安全、相关技术平台以及各种应用。同时也会分享相关技术研究和教学的心得体会。

最新文章

如何高薪？基于应届生薪资数据采集与分析

我的美餐（诗三首）

计算机相关专业中那些形象有趣的词汇

2024《网络数据安全管理条例》来了，对爬虫设计运营有什么影响？

OpenAI o1来了，值得关注的三个显著变化！

人工智能安全课程讲什么？来看看新版PPT！

从大数据的角度看ChatGPT

为什么现在大多数的大模型都是decoder-only？

口令中竟包含哪些隐私信息，需要在破解中采取隐私保护技术？

程序员们，老板让你抓高德地图数据，你该怎么办？辞职吗？

人工智能安全课程讲什么？来看看新版PPT！

“脆皮大学生”的数据分析与启示

维特根斯坦对【AI未来】的16条启示

全民国家安全教育日|三句话聊安全

郑维民|算力的互联与互通

RAG、大模型、Gemini与知识库

思考|为什么大模型看起来很全能？

奇怪了，上证指数最近走势和这个公众号(IntBigData)关注人数变化的相关性达0.8

网络伦理和社会伦理双重标准分析

OpenAI奥特曼被解雇的背后：人工智能安全与商业赢利之争

CESI：知识图谱与大模型融合实践研究报告

基于大模型的可解释股票收益序列预测

和AI一起创作中秋的诗与图

基于大模型的金融风险预测：画像微调

金融风控大模型：从规则对抗到模型对抗

AlphaTensor的矩阵乘法算法自动化解读

人工智能安全（PPT、Python实例、概要视频）

智能时代必读的《人工智能安全》

爬虫案例: 网络安全顶刊（TIFS/TDSC）十年的热点变化

数字经济的核心技术：数据定价

MIT Technology Review 2022年“全球十大突破性技术”之（口令、权益证明与AI合成数据）解读

元宇宙里还有爬虫吗？

数据分析: 茅台视角下的半导体-国产软件-大数据-网络安全上市公司

自动编码器：DAE、VAE、CoAE、Adversarial AE ...

论文导读：自然语言处理中的后门攻击

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉