论文导读:自然语言处理中的后门攻击

文摘   科技   2022-05-04 14:30   上海  

本公众号(IntBigData)记录了复旦大学互联网大数据与安全课题组在科研教学方面相关的成果、思考与相关动态。内容主要涉及互联网大数据、大数据安全、人工智能安全等。推送的文章:

根据Zipf分布动态生成口令策略

密码中的情感表达:基于大数据的发现

《Python爬虫大数据采集与挖掘》教学资料汇总


       我们也许习惯于下载各种预训练模型来使用,但你是否考虑考虑到其中存在后门安全风险?本文介绍清华大学和麦吉尔大学(加)发表在ACL2021上的文章,是关于自然语言处理中针对预训练模型的后门攻击。
       后门攻击是一种新型的投毒攻击,在图像识别检测相关模型中已有较多研究。而在自然语言中,由于语言的离散特征,生成后门攻击样本比较困难。现有的方法主要采用:(1)如RIPPLES:插入一些特定的短字符串,如mn,bb,tq等等;(2)基于规则的方法,按照一些事先定义好的规则,如同音替换、同形替换、同义替换等;(3)考虑上下文的词汇替换,按照可读性和攻击成功率最大化进行文本替换。本文属于第三类情况,文章的创新体现在把文本替换中的参数调整和模型训练集成在一起,从而可以对参数进行更合适的修改,达到更好的可读性和攻击成功率。


       文章所提出的方法称为LWS(Learnable Textual Backdoor Attacks via Word Substitution)是一种使用同义词替换的可进行上下文学习的后门攻击方法,它的基本框架如图。


       后门攻击发生在训练阶段,当我们从网上下载别人训练好的模型,如果TA带有恶意,希望其他人下载并使用该模型时,TA可以利用已经植入的后门来使得模型输出错误结果。
      对于途中输入训练的句子,对词汇选择同义词集,如图假设分别对is,dumb和he选择了三个集合。后门攻击的目的是修改句子及相应的标签(恶意),使得模型学习到恶意标签和句子表达模式之间的关系。那么当实际测试时输入带有这些特征模式的句子时,就能按照预先设定得到错误结果。同时,对于后门攻击而言,对于正常输入(也就是不带有攻击的表达模式)时,模型还是按照正常的结果输出。LWS把受害模型和词汇替换当作一个整体来对待,训练的损失函数定义如下。
其中,Dc是正常样本, Dp是用来进行修改的样本,这两类样本作为一个数据集来训练LWS模型。最小化该损失函数,就意味着正常样本和攻击样本的学习错误都最小,保证了后门攻击的两个基本要求。
      为了使得句子中词汇w修改具有一定多样性,文章引入了一个概率向量来表示w被其同义词替换可能性。基于该概率向量进行采样,从而保证同一个词在不同句子能得到不同的同义词并替换。该概率向量的计算如下,其中s是同义词的embedding,w是句子中词汇的embedding。G是Gumbel(0, 1)分布的随机数,大概是为了增加随机性,并使得目标函数可导,确保反向传播可进行,俗称gumbel-softmax技巧。



最终把如下的词汇向量输入给模型,进行训练。
       文章的实验在三个数据集上进行,是三个面向不同场景的文本分类。受害者模型选择Bert,分别有基准模型和大模型两个版本。最终的测试结果如下,LWS在保证攻击成功率时,对于正常样本的分类没有造成太多影响。

       当然,如果替换的词汇太少,就无法表达攻击者的后门模式,从文章给出的实验可以看出来,在6个以上的词汇时,攻击成功率比较稳定。


点击阅读原文链接,查看图书详情和京东书评信息,欢迎读者写评论。

人工智能的哲学问题:生死、伦理、意识与创造性

《新一代人工智能伦理规范》

《个人信息保护法》如何应对“大数据杀熟”?

优质课程:Python程序设计-简明版

互联网大数据处理技术与应用
互联网大数据与安全相关的各种技术,包括爬虫采集提取、大数据语义、挖掘算法、大数据安全、人工智能安全、相关技术平台以及各种应用。同时也会分享相关技术研究和教学的心得体会。
 最新文章