随着人工智能(AI)技术的迅速发展,其在各个领域的广泛应用已经成为现实。然而,随之而来的是AI系统安全性的不断凸显,特别是在大规模语言模型(LLMs)和企业自动化领域。本文将针对2024 RSA大会中的Securing AI: There Is No Try, Only Do议题进行解读,分析当前人工智能所面临的主要安全挑战,并提出相应的应对措施和建议。
该议题提出AI/ML的核心是将相似的数据点聚集在一起,并通过损失函数衡量模型预测的准确性。预测性AI识别数据点所属的聚类,生成性AI创造属于特定聚类的新数据点。简而言之,AI/ML通过数据模式的分析和学习,对数据点进行分类或生成新的数据点。
对抗性机器学习(Adversarial Machine Learning)是指通过找到决策边界交叉的方向来攻击ML系统。主要攻击类型包括:
推断攻击
攻击者通过查询模型来获取关于训练数据的信息。
训练数据污染
攻击者向训练数据中注入恶意数据,导致模型误导。
数据泄露
攻击者通过模型的输出推断特定数据是否在训练集中。
模型窃取
攻击者通过查询模型来重建模型。
对抗机器学习的重要性:
AI模型的数学基础可能导致根本性脆弱性,容易受到难以预测且具有可转移性的对抗性攻击。大型语言模型(LLMs)引入了新的安全挑战,尤其是在指令理解和预测准确性方面。AI模型在各个阶段都面临安全风险,如训练数据毒化、模型窃取和对抗性输出生成。保障AI模型安全需深入理解模型、全面安全测试和持续参数调整。忽视AI安全可能给企业带来重大风险,因此,实施AI威胁建模和企业AI安全原则及架构审查至关重要。
LLMs的特性:
序列输入:LLMs处理的是序列化的输入,即将英语单词分解成一个个的令牌(tokens)。
自回归:模型是自回归的,意味着它预测下一个令牌是基于之前所有令牌的函数。
大量数据训练:LLMs在大量的语言和代码数据上进行训练,以构建下一个令牌的条件概率。
LLMs的工作原理:
如图所示,LLMs通过预训练学习了大量的语言和代码数据,从而能够预测给定一系列单词后的最可能下一个单词。为了使这些概率预测更具实用性,研究人员采用了指令调整技术,通过进一步训练提升模型对自然语言指令的理解和响应能力,从而使模型能够生成与指令紧密相关且有用的输出。此外,为了确保模型的输出符合人类的价值观和期望,还需要对模型进行对齐,以提高其遵循指令的准确性和生成内容的相关性。
LLMs的不足之处:
尽管LLMs能够根据指令生成文本,但它们可能无法准确区分指令和数据,导致错误响应,并可能过度依赖训练数据,生成流畅但不准确的文本。提示注入攻击可以通过特殊输入操纵模型行为,甚至导致非预期输出。这些问题显示出LLMs在训练、部署和使用过程中存在安全隐患,因此需要采取措施提高其可靠性和安全性。
该议题主要从以下几个方面介绍LLMs面临的安全风险:
训练数据中毒
攻击者可能会在模型的训练阶段通过添加恶意数据来影响模型的学习过程,导致模型学习到错误的模式。
训练数据窃取
未经授权的个人或实体可能试图获取模型的训练数据,这可能涉及知识产权的泄露或隐私问题。
模型混淆
攻击者可能会尝试混淆模型,使其遵循错误的指令,这可能导致模型生成不准确或有害的输出。
生成对抗性输出
攻击者可能会强制模型生成对抗性输出,即那些故意设计来误导或欺骗的输出,有时也称为“幻觉”。
破坏模型“规则”
攻击者可能会尝试破坏模型内部规则,使模型行为偏离预期。
4.1 Prompt注入攻击(基础)
定义:攻击者通过精心设计的输入(即提示),覆盖或操纵系统的指令,使得语言模型执行非预期的行为或生成特定的输出。
攻击方法:攻击者可以通过角色扮演(role-playing)、DAN(Do Anything Now)、Tipping、威胁(Threatening)等多种方式进行Prompt注入攻击。
4.2 Prompt注入攻击(高级)
高级Prompt注入攻击通过精心构造的输入利用LLMs的预测机制,将模型推向异常的概率空间,导致其生成非预期或有害的输出。这种攻击方式展示了LLMs在安全性上的脆弱性,特别是在防止模型被操纵生成有害或误导性内容方面。由于攻击者利用的是模型的内部工作原理,防御此类攻击变得更加困难。这需要采用更先进的监控和防御机制,并改进输入验证、行为分析和模型强化等措施,以维护模型的可靠性。
如下图为Prompt高级注入攻击的案例:
4.3 模型安全对齐不足
该风险是指模型在没有恶意攻击的情况下,由于设计或训练过程中的某些问题,导致模型的输出或行为偏离了预期的对齐(alignment),即模型的响应与其设计目的不一致。如下图为由于聊天机器人过于热情、无法拒绝用户的请求,直接输出“抢劫银行”的详细步骤。
4.4 模型幻觉
模型幻觉风险是指大型语言模型在生成文本或其他类型的输出时,可能会产生与现实不符或完全虚构的信息,这些信息可能被当作真实信息使用,从而导致误导或错误决策。常见的模型幻觉包括以下两类:
事实性幻觉
模型输出内容与现实世界中可验证的事实不符或捏造信息,这可能助长虚假新闻和阴谋论的传播,从而对社会产生深远的负面影响,包括但不限于误导公众、破坏信息真实性和扰乱社会秩序。事实性幻觉可分为以下几类:
事实不一致
模型的输出与现实世界中已知的信息相矛盾;
事实捏造
指模型生成的内容完全基于虚构,而无法通过任何现实世界的信息来验证其准确性。
如图所示,模型被问到第一个登上月球的人时,模型编造出虚假人物。
忠实幻觉性
是指生成的内容与用户所提供的指令或上下文信息之间存在不一致,忠实性幻觉分为以下三种类型:
指令不一致
LLM忽略了用户提供的具体指令。例如,按照指示将一个问题翻译成西班牙语,但模型却以英语提供了答案;
上下文不一致
模型输出的内容包含了未在提供的上下文中出现或与之相矛盾的信息。例如,LLM声称尼罗河起源于山脉,而不是用户输入中提到的大湖地区;
逻辑不一致
模型的输出包含了逻辑错误,尽管开始时是正确的。例如,在一道分步数学解题中,LLM可能会在执行算术运算时出现错误,尽管开始时是正确的。
4.5 LLMs后门
文中通过实验来探讨在模型微调阶段添加后门短语的方法。该后门短语作为一个“魔法”关键词,可以绕过模型的某些安全防护措施。这种方法被称为提示后门,通过特定的输入(即“魔法”短语)激活,使模型的行为偏离其正常操作模式。如下图所示,攻击者在实验中使用“Meta Llama-3 8B-instruct”模型进行提示后门攻击。
5.1 企业中的chatgpt系统
议题指出,ChatGPT在企业中主要用于浏览网站、执行数据分析、提供代码建议和自动工具选择,但也存在访问受限链接导致安全风险、数据泄露、提供恶意代码建议,以及对抗性插件被用于不当目的等风险。
5.2 AI辅助系统
探讨了AI辅助系统(如自动驾驶系统中的辅助驾驶)可能面临的安全问题,这些问题包括对敏感数据的访问权限、执行的自动化操作可能带来的风险、内容消费的安全性、以及数据在不同用户间潜在的泄露问题。同时,还涉及人机交互的重要性,以确保AI copilots的行为符合预期并遵循安全标准。
5.3 RAG
企业应用中的RAG面临多重安全问题:访问控制不严可能导致数据泄露;向量数据库投毒风险可能生成误导性内容;嵌入技术可能泄露敏感训练数据;提示注入攻击可操纵系统输出;基本性能问题需进一步优化。
5.4 模型微调
该部分强调了微调AI模型时的安全挑战,包括数据访问控制的复杂性、数据泄露和模型窃取的风险,以及微调可能导致模型忘记先前的保护措施。此外,微调后的模型缺乏有效的“撤销”机制,一旦出现安全问题难以恢复。
5.5 Agents安全应用
该部分强调了在企业自动化和工作流中应用AI代理可能会带来显著的安全风险。这些风险包括AI代理可能错误地创建配方或调用不适当的工具,需要长期和广泛的权限来访问工具,以及可能因为拥有管理员级别的权限而导致数据流向多个用户,增加数据泄露的风险。
议题指出,AI系统易受多种攻击,如Prompt提示词攻击、数据污染和模型窃取,尤其是LLMs在处理自然语言时面临的提示注入和数据泄露风险。作者强调了AI安全的重要性,提出了通过红队测试、安全微调和AI优先威胁建模等措施来增强AI系统的防御能力,以防止潜在的灾难性后果。