关注我们
带你读懂网络安全
研究人员开发了一种算法,可将恶意提示词转换为一组隐藏指令,进而要求大模型将用户的对话敏感信息发送给攻击者;
该研究测试法国公司Mistral AI的LeChat和中国公司智谱的ChatGLM均受影响;
安全专家表示,这一方法大幅提升了大模型攻击的自动化水平。
前情回顾·大模型安全动态
图:攻击示例,对话中的个人信息被发送至velocity.show
隐蔽的攻击
图:原始攻击指令
图:混淆后的攻击指令
“发布不安全的大模型是高风险活动”
参考资料:wired.com
推荐阅读