NDSS 2025｜Prompt泄露风险：抖音集团安全研究团队揭露多租户KV缓存共享漏洞

科技 2024-12-23 18:03 重庆

抖音集团安全研究团队和南方科技大学可信系统安全实验室合作的研究论文揭示了大语言模型安全领域服务框架的侧信道漏洞，利用多租户场景下的KV缓存共享机制精确恢复了用户提示词。本工作成果《I Know What You Asked: Prompt Leakage via KV-Cache Sharing in Multi-Tenant LLM Serving》已被安全领域顶级会议NDSS 2025接收。

一、研究背景

大语言模型（LLM）在自然语言处理任务中取得了显著进展，广泛应用于文本生成、翻译、问答等领域，吸引了学术界和工业界的高度关注。这些模型在提供高效、准确的语言处理服务的同时，也面临着由于计算资源需求巨大所带来的性能瓶颈。为了满足不同用户的使用需求，优化资源利用率，大量多租户LLM框架应运而生，通过共享资源和更高效的调度算法，实现性能和成本的有效优化。

在众多多租户LLM的框架中，一个广泛应用的技术就是KV缓存共享（包括SGLang、vLLM等）。KV缓存共享的基本原理是允许不同请求在推理过程中复用已经计算过的KV缓存，但这种共享仅在前序token序列完全相同时才能实现。这种设计保证了不同用户的请求在一定程度上可以复用计算结果，提升了推理效率。目前SGLang提供了SOTA的KV缓存共享策略。具体而言，SGLang使用了一种基于Radix树的结构以便快速索引和访问。此外，SGLang实现了一种优化的调度算法，确保优先处理拥有更长复用匹配的请求，以最大化缓存命中率并减少重复计算。

在我们最新发表于NDSS 2025的论文《I Know What You Asked: Prompt Leakage via KV-Cache Sharing in Multi-Tenant LLM Serving》中，我们首次利用不同用户间共享KV缓存的特性，实现了跨用户的提示窃取。这一研究揭示了当前多租户LLM服务框架在共享资源使用中的巨大潜在安全风险。抖音集团安全研究团队已经与SGLang建立联系，反映了上述安全问题。相关安全补丁将于近日提交至开源仓库。

二、攻击方法

攻击核心：如果攻击者能够观察到自身请求是否触发了KV缓存共享，则可以判断其请求与已处理的请求是否相同或部分相同。攻击者通过每次增加一个token并反复请求，从而逐个token地还原出其他用户的请求内容。

接下来，我们用攻击过程中的一个片段来阐述攻击者如何还原其他用户请求中的一个token。通过反复重复这一操作，攻击者最终可以还原出完整请求。

如下图所示，假设目标语句是“Imagine you are an IT expert”，攻击者已经成功还原出“Imagine you are”，并企图还原出下一个token “an”。

本地候选生成：攻击者利用本地LLM来生成可能的token。本地LLM不需要和目标LLM完全相同，只要拥有相同的Tokenizer来确保能够匹配到目标LLM的解析方法即可。在这个例子中，本地LLM可能会生成“a”，“an”，“the”等潜在的候选token。同时，本地LLM也会生成一个最不可能的token作为dummy token，为之后的攻击使用。
候选请求发送：在生成本地候选之后，攻击者会将三批请求依次发送，分别为由dummy token构成的dummy batch，候选token构成的候选batch，和另一批由dummy token构成的dummy batch。这样的设定是为了更容易观测到的侧信道信息。
侧信道结果观测：通过观测发送请求的返回顺序作为侧信道信息，攻击者可以判断哪个请求成功触发KV缓存共享，从而确定对应的token。接下来我们对侧信道信息进行具体介绍。

侧信道信息：我们利用调度算法的特性，即与已有KV缓存匹配更长的请求会被优先处理，来实现攻击。成功匹配的请求相比未匹配的请求多一个token匹配，因此更早被处理。我们将请求的返回顺序作为侧信道信息，通过观察哪个请求被优先返回，从而判断其是否触发了缓存共享。

如下图所示，当我们按照三个批次发送请求后，是否有匹配到的请求会有不同的处理模式：

没有触发KV缓存共享：对于没有触发的场景，dummy请求的匹配长度为4（在第一个dummy请求被处理后后续请求都会有更长的匹配长度），而candidates请求的匹配长度为3。所以具体处理顺序依次为：第一个dummy batch，第二个dummy batch，和candidates batch。
触发KV缓存共享：对于成功触发KV缓存共享的场景，dummy请求的匹配长度依旧为4，此时成功匹配的匹配长度也为4，其他的未匹配的请求的匹配长度为3。所以此时的具体处理顺序为：第一个dummy batch，匹配到的请求，第二个dummy batch，和其余的candidates。这里第二个dummy batch可以帮助放大顺序改变带来的差异，从而能够令攻击者在端侧判断出顺序的改变。

通过反复重复这一操作，攻击者最终可以还原出完整请求。

三、实验结果

实验环境：实验环境基于SGLang框架，用户请求设定参考了OpenAI的标准，每3小时发送40次请求，以模拟真实的LLM使用场景。提示数据集包含四类：常规聊天、填空、角色扮演和指令型提示，用于全面评估攻击效果和成本。

下图展示了攻击的最终效果。结果表明，在Llama2-13B模型上，攻击者在知晓提示模版来回复提示输入上成功率达99%，知晓提示输入恢复提示模板成功率为98%，甚至在无任何背景知识恢复全部请求也有95%的成功率。

四、总结与展望

无状态与有状态设计：本工作基于有状态的大语言模型服务框架，即对于用户的共享KV缓存，开展输入窃取攻击，而这种攻击的本质是针对于系统的状态延续所进行的。在大型系统中，用户数据的状态延续往往伴随着潜在的安全风险，所以为了确保安全要尽可能做到单次服务后清除用户状态，如苹果近期提出的Private Computing Cloud。然而，对于延迟要求较高的服务场景，复用缓存等有状态的设计难以避免，但面临着诸如本篇工作的安全挑战。在此基础上，我们已基于本篇工作提出了更安全的KV缓存共享框架，为大语言模型服务提供安全性保障的同时实现了效率的提升。

多租户LLM框架下的资源共享：现有的LLM服务框架会有很多允许多用户/多请求间的共享资源（如KV，memory，Lora adapter），这些共享资源可以很大程度的提高服务性能，但是存在巨大的安全隐患（隐私泄漏，投毒等），所以在设计框架和部署服务的过程中需要谨慎处理基于共享资源的优化。框架设计师和服务提供商需要在保持性能的同时引入足够的隔离机制来保证多租户间的安全性。

KV缓存的安全性考量：KV缓存作为LLM中的独特机制，虽然提升了推理效率，也为LLM的安全性带来了新的攻击面。KV缓存与用户的输入token存在唯一对应关系，这使得一旦出现KV缓存信息泄漏，攻击者便能够通过缓存内容直接推测和重构相应的用户请求，从而导致敏感信息的暴露。本篇工作是第一次注意到了KV缓存所带来的安全风险，希望能够引起广泛的针对这一新属性的安全思考。

建立安全的LLM推理服务：不知攻，焉知防？攻击的意义是为系统防御设计指明方向——我们对SGLang提交的安全策略可以大大提高攻击者的消耗，尽可能减少攻击面。然而，从LLM服务的全局视角出发，当前的LLM推理服务框架安全能力尚不完善，需要多种安全机制保驾护航。因此，安全研究团队正在基于机密计算及密码学技术，在兼容多种推理框架的前提下，提供大模型可信推理服务，欢迎大家交流参考。

字节跳动技术团队

字节跳动的技术实践分享

最新文章

半空：LLM 辅助的 Go2Rust 项目迁移

ICLR 2025 Workshop 征稿：推动基础模型的开源、开放、可复现

性能媲美裸金属，边缘场景高性能虚拟机技术揭秘

豆包MarsCode + 开源 = ？AI 助力开源社区新人成长

豆包大模型2024年的8个关键瞬间

【限时15天】每日一题刷题打卡挑战火热进行中，赢字节AI岗实习面试机会，等你来战！

ByteHouse技术详解：基于OLAP构建高性能GIS地理空间能力

课程预告 | 全网超 55W 人关注的 DIY 飞书个性签名，教你用 AI 实现！

圣诞奇妙，稀土掘金｜2024人气创作者年度榜单火热开启！

ROG：高性能 Go 实现

刷题竞技，备战春招｜「豆包 MarsCode 算法竞技赛」第三期开赛！

NDSS 2025｜Prompt泄露风险：抖音集团安全研究团队揭露多租户KV缓存共享漏洞

NeurIPS 2024 | 从单图到3D：HumanSplat 基于Gaussian Splatting实现高保真人体3D生成

NDSS 2025｜抖音集团安全研究团队提出机密沙箱内存管理方案WAVEN

ABCoder 在大模型编程领域的探索

来战！「豆包 MarsCode 算法竞技赛」第二期开赛，丰厚奖金等你来拿

豆包视觉理解模型正式发布，通用模型能力全面对齐GPT-4o！

豆包MarsCode AI编程云课堂回顾｜「入门开发者系列」

Kitex/Hertz 助力大模型：三周年重要特性回顾

北京大学-字节跳动“豆包大模型系统软件联合实验室”成立，聚焦AI系统软件关键问题

直播预约｜字节跳动豆包大模型团队 NeurIPS 2024 中选论文精讲

火山引擎veImageX助力谱时智能云深耕照片直播赛道

见证无限可能！火山引擎冬季 Force 大会开发者论坛来袭

首次覆盖超 11 类真实编程场景！豆包大模型团队开源代码大模型全新基准

参与AI 红人共创计划，拿万元现金大奖！每日投票抽奖！

深度揭秘“快稳省”背后的数仓硬核技术

来战！激发你的编程潜力，挑战极限！豆包 MarsCode 算法竞技赛火热来袭！

APMPlus 发布 HarmonyOS NEXT 鸿蒙系统 App 性能监控

更快、更稳、更优，揭秘火山引擎全站加速 DCDN 规模容器化最佳实践

初级开发者系列｜AI编程云课堂课程预告来啦！

大幅降低数据科学门槛！豆包大模型团队开源AutoKaggle，端到端解决数据处理

QCon演讲实录|赵彦奇：HTTPDNS 边缘下沉，性能、成本和稳定性之间的取舍与思考

字节跳动基于 Ray 的大规模多模态数据处理框架

无文本编码器仍能媲美CLIP！豆包大模型团队首创SuperClass模型

首度揭示！个性化视频技术——短视频体验的秘密！

又稳又快！基于ByteHouse ELT构建高性能离/在线一体化数仓

【请领取打卡礼】刷题不停，Offer可期！豆包MarsCode & 掘金 AI 刷题功能再次升级！

「会说话」的 AI ，扣子智能语音 OpenAPI 开启内测申请

火山引擎论文入选国际会议ACM IMC'24｜一种面向大规模视频点播系统的算法实验平台

火山引擎多媒体实验室VR全链路处理传输显示方案ResVR入选ACM Multimedia 2024最佳论文提名

创新实践：基于边缘智能+扣子的智能取物机器人解决方案

QCon演讲实录|徐广治：边缘云原生操作系统的设计与思考

一句话轻松 P 图！字节跳动图像编辑模型SeedEdit发布，产品端可体验

直播预约｜豆包MarsCode校园发布会即将上线！万元大奖，玩法多多先睹为快

视频生成模型能否“理解”物理规律？豆包大模型团队公布系统性实验结论

抖音集团也在用的数仓「降本」利器

BlockFramework —— 客户端模块化业务开发框架

超低延迟多路径传输：技术演进与大规模业务实践

最高提升20倍吞吐量！豆包大模型团队发布全新 RLHF 框架，现已开源！

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉