青骥原创 l ChatGPT与网络安全(上)

文摘   2024-05-24 07:00   上海  

       本篇主要梳理了ChatGPT演进历程中的重要节点,希望能帮助读者理清LLM发展到如今是如何进化的.

自然语言模型发展简介

语言模型(Language Model,LM)的核心是解决语言序列生成结果是否是符合人类预期的,简单理解就是系统的输出是否是在“说人话” 而实现这个判断的机制是通过概率分布建模来进行判断。

神经网络语言模型之前

在上世纪70年代前主要通过人工编程相关规则进行少量语言数据任务的处理。人类语言如何被计算机指令系统所理解和执行语言任务自上世纪50年代图灵测试被提出后就不断被研究,此处曾查证大量文献试图找到第一个关于这个领域的研究论文,未如愿。这里引用字节跳动AI Lab 的总监李航博士的综述(参考资料7)来做简单梳理:

1906年,AndreyMarkov (安德烈·马尔可夫)提出了马尔可夫假设(参考资料8):随意一个词出现的概率只与它前面出现的有限的一个或几个词有关。基于这个假设形成了n-gram模型,一元语言模型(uni-gram)提出的假设是如果一个词的出现和它周围的词是相互独立的:p(s)=p(W1)*p(W2)*...*p(Wn)

这里用一个简单的例子来方便理解,语料:大模型与网络安全是一个复杂的综合领域”。在这个语料中共有18个字,因此计算每个字出现的概率可得:p(大)=1/18,p(模)=1/18...p(域)=1/18, 此处的概率即可作为模型参数进行存储,使用一个18维的向量,在每个维度中保存每个字的概率值。在使用时,如计算“网络安全是复杂的”即可得:p(网络安全是复杂的)=p(网)*p(络)*...p(的)=1/18*1/18*....1/18。    

一元语言模型(uni-gram)解决了如何根据已有的文本数据来预测下一个词的概率分布问题,但它忽略了词语之间的顺序和关联性,即假设词语之间是相互独立的。这种假设在实际应用中往往不成立,因为语言中的词语通常是相互关联的,一个词的出现概率往往依赖于它前面的词或上下文。另外模型受数据稀疏性的干扰非常严重,有限的文本训练数据中部分词汇是在训练数据中较少甚至没有出现过的,极大干扰了模型预测的准确性。

二元语言模型(Bigram)提出的假设是每个词出现的概率只以来于它前面的一个词:

关于二元语言模型的示例可以自行搜索斯坦福的NLP课程进行查看,这里不再展开介绍。

神经网络语言模型

进入二十一世纪后,2003年YoshuaBengio在论文《A Neural Probabilistic Language Model》(参考文献 11)中提出了神经网络语言模型(Neural NetWork Language Model,NNLM),将神经网络引入语言模型构建中。

2015年在ICLR(InternationalConference on Learning Representations)会议上Dzmitry Bahdanau、Kyunghyun Cho和Yoshua Bengio发表了论文《Neural Machine Translation by Jointly Learning to Align and Translate》(参考资料 12),在这篇论文中提出了注意力机制,在此之前,机器翻译主要依赖统计机器翻译(SMT)方法,这些方法通常基于复杂的特征工程和大量的手工调整。同时期神经机器翻译(NMT)开始兴起,但早期的NMT模型通常使用编码器-解码器架构,其中编码器将整个源句子编码为一个固定长度的向量,解码器再从这个向量生成目标句子。这种方法在处理长句子时效果不佳。该论文首次将注意力机制引入到神经机器翻译模型中,解决了长句子翻译的问题,并显著提高了翻译质量。注意力机制使得模型能够在生成目标句子的每个单词时,关注源句子中的不同部分,从而更好地捕捉源句子和目标句子之间的对应关系。

(图片来源https://zhuanlan.zhihu.com/p/33192167

2017年,GoogleBrain实验室的研究员Ashish Vaswani等发布了论文《Attention Is All You Need》(参考资料 13),在此之前,循环神经网络(RNN)及其变体(如LSTM和GRU)是处理序列数据的主要方法,但它们存在训练困难、难以并行化以及长距离依赖问题。虽然卷积神经网络(CNN)在某些任务上表现出色,但它们并不是为处理变长序列数据而设计的。当时,注意力机制已经开始在NLP任务中显示出其潜力,但通常与RNN或CNN结合使用。该论文提出了一个全新的、不依赖RNN或CNN的架构——Transformer,论文介绍了架构的编码器(Encoder)和解码器(Decoder)部分,以及它们如何通过使用自注意力(Self-Attention)和前馈神经网络(Feed-Forward Neural Network)来处理输入序列。引入了位置编码(Positional Encoding)的概念,以弥补Transformer模型在处理序列数据时缺乏位置信息的问题。基于自注意力机制。Transformer模型具有高度并行性,使其在训练速度和效率上都优于先前的模型。该论文为后续的BERT、GPT和T5等大规模预训练语言模型奠定了基础。

2018年6月,OpenAI的研究员AlecRadford等发布了论文《Improving Language Understanding by Generative Pre-Training》(参考资料 1&14),这篇论文通常也被认为是GPT-1的诞生。在此之前NLP领域已经存在多种预训练方法,但它们通常针对特定的任务或数据集,并且需要大量的人工标注数据。该论文提出了生成式预训练(Generative Pre-Training,GPT)的概念,这种方法显著提高了自然语言处理任务的效果,尤其是在零样本或少样本学习场景下。有效缓解了有监督任务数据收集成本高的问题。在论文中,详细介绍了其预训练-微调的框架。首先,采用 Transformer 模型在大量未标注文本数据上进行预训练,学习到富有表达力的词嵌入;然后,在具体应用任务上,基于少量有标注样本进行微调,以尽可能地适应该任务。

GPT-1提出不久后,2018年10月,Google AI Language的研究员Jacob Devlin提出了BERT模型(参考资料 15),在论文中,BERT模型用Transformer编码器进行自我预训练,并构建了两个任务用于预训练:Masked Language Model(MLM)和Next Sentence Prediction(NSP)。MLM通过随机遮挡输入句子中的部分单词,然后通过上下文信息来猜测这些被遮挡的单词。NSP则是预测两个句子是否连续。通过这样的预训练,BERT能够学习到丰富的语言知识,然后在特定的NLP任务中,只需通过简单的微调就能取得好成绩。这是第一个无监督的、完全基于Transformer的双向上下文编码模型。BERT改变了NLP任务的处理方式,让模型在处理每个字或词时,都能够同时考虑其前后的上下文,进一步提高了各类NLP任务的效果。

轰轰烈烈的LLM模型自2018后开始进入了质变阶段,大量的“炼丹”实验开始获得了令人兴奋的进展,直至2022年12月,OpenAI面向外界发布了杀手级应用ChatGPT:

 

大模型安全概览

2023年7月,大数据协同安全技术国家工程研究中心(“BDS国家工程中心”)AI安全实验室发布国内首份《大语言模型提示注入攻击安全风险分析报告》,这份报告在Promet注入攻击部分整体质量还是不错,常见的公开提示攻击注入方式有较详细的介绍和案例展示。

正常情况下用户和基于Transformer 的大语言模型应用进行交互时,也会涉及这些Promet技巧来获得所期望的应用回答。这些注入攻击技巧对模型自身安全威胁和模型生态安全威胁还是不足以引起震慑式的大众关注,甚至部分攻击案例会被淡化成一个笑谈,譬如“角色扮演”类型攻击的“奶奶漏洞”,攻击者提供了一个场景,要求模型扮演奶奶来通过满足哄睡的要求提供一些Windows机器的激活序列号输出。这在现有的网络安全视角中产品出现这种交互安全风险是不可思议的:用户的输入不经过鉴权即可访问和控制系统输出敏感信息。传统网络安全中,数据和指令的区分识别是网络安全对抗的宿命话题——输入数据被识别成指令会影响到CPU的执行结果,而在LLM(Large Language Model)领域中,用户的输入已不再适合用简单的数据或指令属性进行区分,语义识别和理解将非代码的数据转化形成新的“指令“概念。一个新的争夺战场将展开——从控制EIP(Extended Instruction Pointer)进入控制Attention。 

结束语

本篇主要梳理了ChatGPT演进历程中的重要节点,希望能帮助读者理清LLM发展到如今是如何进化的,科普进化过程中的重要论文来协助理解GPT,对模型的安全研究是一个新兴火热的研究领域,但ChatGPT作为一款优秀的LLM应用在网络安全方面除模型安全外整体考虑产品自身安全可能更值得国内关注,这一点在OpenAI面向网络白帽子收集安全问题上也得到了体现:https://bugcrowd.com/openaiIssues related to the content of model prompts and responses are strictly out of scope, and will not be rewarded unless they have an additional directly verifiable security impact on an in-scope service (described below)”。

下篇将主要介绍在ChatGPT发布以来相关的网络安全案例以及提示注入手法。从OpenAI的漏洞奖金计划来分析厂商对大模型安全的关注点与近期不断更新的监管法规体现的政府对大模型安全的重点关注.

END


青骥荐读 l 智能网联汽车隐私开发方法与流程探究
青骥编译 l 汽车无钥匙进入和启动系统(PEPS)中继攻击的介绍
青骥编译 l 关于布鲁姆分类法在信息安全教育的应用
青骥原创 l 2023年车联网重大安全事件汇总
说明:本公众号为青骥信息安全小组所有,不隶属于任何商业机构,部分信息为网络收集,版权归原作者所有,文中观点仅供分享交流,不代表本公众号立场。如涉及版权等问题,请您联系ICVSec@126.com告知,以便及时处理,谢谢!
欢迎进入我们的知识星球了解更多干货
如有收获欢迎 点击“在看

汽车信息安全
智能网联汽车信息安全从业人员知识分享