一句话让大模型聊天助手主动泄露对话敏感信息

科技 2024-11-08 17:54 北京

关注我们

带你读懂网络安全

研究人员开发了一种算法，可将恶意提示词转换为一组隐藏指令，进而要求大模型将用户的对话敏感信息发送给攻击者；

该研究测试法国公司Mistral AI的LeChat和中国公司智谱的ChatGLM均受影响；

安全专家表示，这一方法大幅提升了大模型攻击的自动化水平。

前情回顾·大模型安全动态

安全内参11月8日消息，与聊天机器人对话时，我们不可避免会暴露一些个人信息，如姓名、居住或工作的地点、兴趣爱好等。我们与大模型分享得越多，如果存在安全漏洞，个人信息被滥用的风险就越大。

加州大学圣地亚哥分校（UCSD）和新加坡南洋理工大学的安全研究人员发现了一种全新的攻击手段，能够悄悄指示大模型收集用户的个人信息，包括姓名、身份证号、支付卡信息、电子邮件地址、邮寄地址等，并将其直接发送给黑客。

图：攻击示例，对话中的个人信息被发送至velocity.show

这种攻击被研究人员命名为“Imprompter”，它利用一种算法，将给大模型的提示词转换为一组隐藏的恶意指令。这段提示词看似是一个普通的英语句子，实际上却悄然指示大模型寻找用户输入的个人信息，并将这些信息发送给黑客，最终被转换成一串看似随机的字符。

然而，实际上这些看似无意义的字符在背后指示大模型查找用户的个人信息，将其附加到一个URL上，并悄悄发送至由攻击者控制的域名。整个过程不会引发与大模型对话用户的任何警觉。

这些研究人员在近期发布的一篇论文中详细介绍了Imprompter攻击。UCSD的计算机科学博士生Xiaohan Fu是这项研究的第一作者，他表示：“这个提示词的作用实际上就是操控大模型智能体，从对话中提取个人信息，并将这些信息发送至攻击者的地址。我们在明面上隐藏了攻击的真正意图。”

负责这项研究的八位研究人员在两个大模型上测试了这种攻击方法，分别是法国公司Mistral AI的LeChat和中国公司智谱的ChatGLM。在这两种情况下，他们发现能够在测试对话中悄悄提取用户的个人信息。研究人员指出，他们的成功率接近80%。

Mistral AI向外媒《连线》杂志表示，已经修复了该安全漏洞。研究人员也证实该公司限制了其部分聊天功能。ChatGLM则在声明中强调其对安全的重视，但未直接对该漏洞发表评论。

隐蔽的攻击

自从OpenAI于2022年底发布并引发生成式AI热潮以来，研究人员和黑客一直在不断发现AI系统中的安全漏洞。这些漏洞通常分为两大类：越狱攻击和提示词注入。

越狱攻击是通过使用提示词，欺骗AI系统忽略内置的安全规则，从而绕过其设置。提示词注入则是向大模型提供一组指令，比如让它窃取数据或操控简历，这些指令可能隐藏在外部数据源中。例如，网站上的一条消息中可能隐藏着提示词，当AI总结页面内容时，会不自觉地摄取到这些提示词。

提示词注入被认为是生成式AI最严重的安全风险之一，而且很难完全修复。这种攻击方式尤其令安全专家担忧，因为大模型越来越多地被用作智能体，代表人类执行任务，如预订航班或连接外部数据库以提供特定答案。

图：原始攻击指令

Imprompter攻击正是针对这种大模型智能体的。它始于一个自然语言提示词，该提示词指示AI从用户的对话中提取所有个人信息，如姓名和身份证号码。研究人员的算法会生成一个混淆版本，这个提示词对大模型来说含义一致，但对人类而言仅仅是一串看似随机的字符。

图：混淆后的攻击指令

Xiaohan Fu解释了这种转换：“我们的假设是，大模型从文本中学习了词元之间的隐藏关系，这些关系已经超越了自然语言的范畴。几乎可以说，模型似乎理解了一种不同的语言。”

最终，大模型会遵循这个对抗性提示，收集所有个人信息，并将其格式化为一个Markdown图像指令，将个人信息附加到由攻击者拥有的URL上。大模型尝试通过访问该URL检索图像，实际上是将个人信息泄露给了攻击者。大模型在对话中返回的则是一个1x1的透明像素，用户完全看不到。

研究人员指出，如果这种攻击在现实世界中实施，人们可能会被社会工程手段诱骗，误以为这些难懂的提示词能为他们做一些有用的事，比如改善他们的简历。研究人员指出，许多网站为用户提供了可使用的提示词。他们通过上传简历到聊天机器人对话中测试了这一攻击，结果能够成功提取简历中的个人信息。

参与该研究的UCSD助理教授Earlence Fernandes表示，这种攻击方式相当复杂，因为混淆提示词不仅要识别个人信息，还要应用Markdown语法生成一个附带个人信息的URL，并且不让用户察觉其中的恶意操作。Fernandes将这种攻击比作恶意软件，指出它能以用户可能未预料到的方式执行功能和行为。

图：攻击流程示意

他解释道：“通常情况下，你需要写大量的计算机代码，才能在传统的恶意软件中实现这些功能。但有趣的是，这里的所有功能都能被包含在这个相对简短的、看似胡言乱语的提示词中。”

Mistral AI的一位发言人表示，公司欢迎安全研究人员的帮助，以提升产品的安全性。这位发言人说：“收到该反馈后，Mistral AI迅速实施了适当的补救措施，解决了这一问题。”公司将该问题归类为“中等严重性”，修复措施阻止了Markdown渲染器通过这一过程来调用外部URL，这意味着无法加载外部图像。

Fernandes认为，Mistral AI的更新可能是首次通过对抗性提示来促使大模型产品进行修复，而不是通过过滤掉提示词来阻止攻击。不过他也表示，从长远来看，限制大模型智能体的功能可能“适得其反”。

与此同时，ChatGLM在声明中指出，公司已经采取了相关安全措施，以帮助保护用户隐私。声明表示：“我们的模型是安全的，我们始终高度重视模型的安全性和隐私保护。通过开源我们的模型，我们旨在利用开源社区的力量，更好地审查和评估模型的各个方面，包括其安全性。”

“发布不安全的大模型是高风险活动”

安全公司Protect AI的首席威胁研究员Dan McInerney表示，Imprompter论文“提出了一种算法，可以自动生成提示词注入所需的提示词，进而进行多种攻击，如泄露个人身份信息（PII）、图像错误分类或恶意使用大模型智能体可以访问的工具。”

尽管许多攻击类型与以往的方法类似，McInerney指出，该算法将它们整合在了一起。“这更像是提升了大模型攻击的自动化水平，而不是发现了新的攻击面。”

他补充道，随着大模型智能体的广泛应用，且人们赋予它们更多自主权限来代为执行任务，针对它们的攻击面也在不断扩大。McInerney说：“发布一个能够接受任意用户输入的大模型智能体，应被视为一种高风险活动，需要在部署前进行大量有创造性的安全测试。”

对于企业来说，这意味着要充分了解AI智能体如何与数据交互，以及它们可能被滥用的方式。而对于个人而言，就像常见的安全建议一样，应该慎重考虑自己向任何AI应用程序或公司提供了多少信息，并对使用从互联网获得的任何提示词保持警惕。

参考资料：wired.com

推荐阅读

点击下方卡片关注我们，

带你一起读懂网络安全 ↓

http://mp.weixin.qq.com/s?__biz=MzI4NDY2MDMwMw==&mid=2247513033&idx=1&sn=0d0afdccd38c20db6dda62be770aab6f

安全内参

《安全内参》是专注于网络安全产业发展和行业应用的高端智库平台，致力于成为网络安全首席知识官。曾用名“互联网安全内参”。投稿\x26amp;合作请邮件联系 anquanneican#163.com

最新文章

网安巨头Palo Alto全球数千防火墙被攻陷：因开发低级错误造成零日漏洞

卡巴斯基：2025年犯罪软件和金融网络威胁趋势预测

美国会拟立法：小微企业实施网络安全合规可抵免税费

警惕新型手法！俄黑客远程入侵美国企业WiFi网络进入内网

国家网络安全通报中心发布重点防范境外恶意网址和恶意IP (二)

勒索攻击有多难恢复？这家万亿巨头花了9个月才恢复业务系统

美军研发并推出网络威胁监控和检测创新工具

苹果官方警告：零日漏洞攻击瞄准Mac电脑用户

美国国土安全部发布《关键基础设施中人工智能的角色与责任框架》

美监察部门：应建立政府数据安全统一监管机构

2025年，哪家网络安全厂商会IPO？

美全国水务系统存在大量漏洞，可致使上亿人供水中断

瑞典发布数字化备战指南，强调网络安全和心理建设

因泄露超23.5万患者数据，地方医疗机构赔偿超千万元

美国专家分析特朗普第二任期网络安全政策走势趋向

算力网络数据安全保护框架研究

人均最高7.2万元！知名律所因泄露用户个人信息赔偿超5700万元

工信部：关于防范SteelFox恶意软件的风险提示

网络攻击扰乱美国超市药房运营，超2000家门店受影响

意大利如何成为全球间谍软件中心？

多国警告：零日漏洞攻击暴涨已成为网空新常态

网络攻击致使英国司法部囚车追踪报警系统瘫痪

以色列支付龙头遭DDoS攻击，各地超市加油站等POS机瘫痪

25家跨国企业数据泄露，MOVEit漏洞引发重大安全危机

全球石油巨头因网络攻击损失超2.5亿元

以人为本的网络安全：将人的因素融入网络安全设计

如何解决网军战备问题？美军专家提出网络部队生成创新方案

一句话让大模型聊天助手主动泄露对话敏感信息

Ollama AI框架被曝严重漏洞，可导致DoS、模型盗窃和中毒

美国知名军工芯片厂商因勒索攻击损失超1.5亿元

德国立法保护白帽黑客行为，此前欧美已有多国修法实施

施耐德电气遭数据勒索：开发平台访问凭证暴露 40GB数据失窃

数据是安全新边界！美国政府发布《联邦零信任数据安全指南》

首次利用大模型发现内存安全零日漏洞 (附大模型挖洞经验)

“整合”全能网络安全平台？全是营销套路

德国大型药品批发商遭勒索攻击，欲扰乱超6000家药房供应

六年来首次停滞！网络安全就业市场提前入冬

首次披露：美国CIA曾针对委内瑞拉实施网络战欲挑动颠覆活动

湖南一IT公司未履行数据安全保护义务被罚5万元

通过外网非法获取公民个人信息1亿余条，一安全公司员工获刑

因供应商被黑，物流巨头DHL配送跟踪系统瘫痪

美国联邦政府2024财年采购超1200亿元网络安全产品服务

美国空军将部署新的“综合防御性网络空间系统”

开源情报显威！利用社交APP实时跟踪美俄法等国总统行踪

苹果悬赏百万美元查找“苹果智能”安全漏洞

一机场集团疑遭勒索软件攻击，旗下13个机场紧急切换备用系统

Pwn2Own 2024爱尔兰黑客大赛：共发放超106万美元奖金

近年最大规模！超1亿美国人医疗隐私数据被盗

中南财经政法大学水卡网址打开竟是“色情网站”？学校回应

河南两公司违反《数据安全法》被罚10万元

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉