NeurIPS 2024论文解析：基于SPU实现的两方密态推理框架深度解读

企业 2024-12-06 18:40 浙江

导语：NeurIPS（ Conference on Neural Information Processing Systems）是人工智能领域的顶级会议之一，每年吸引全球众多学者和研究人员参与。NeurIPS 2024 将于当地时间 2024 年 12 月 9 日至 15 日在加拿大温哥华举行。蚂蚁密算科技隐语团队与上海交通大学合作论文《Nimbus: Secure and Efficient Two-Party Inference for Transformers》在本次投稿的 15,671 篇有效论文投稿且最终录取率为 25.8% 中脱颖而出，顺利中选。

🔍 点击文末“阅读原文”，即可获取论文原文链接

本文作者：李正一

上海交通大学计算机科学博士研究生、隐语社区Contributor、本论文一作

Transformer 神经网络在各领域上展现出了惊人的效果，也是最热门大模型的结构基础，在众多任务上有潜在的实际应用。为了解决伴随而来的隐私问题，本论文提出了基于 Secretflow-SPU 实现的两方隐私推理框架 Nimbus，以实现 Transformer 神经网络的隐私保护推理。为 Transformer 神经网络中线性层的矩阵乘法及非线性层的激活函数提出了针对性的加速，以实现在保护模型和用户数据隐私的前提下的高效推理，为大模型的隐私推理场景提供了重要技术支持。本文将带来本篇论文的深度技术解读，一起来关注！

一、背景

1. 隐私推理

在本篇论文中，我们主要围绕最常见的 Machine Learning as a Service（MLaaS）推理场景展开研究，其中模型所有者（server）提供私有神经网络模型，用户（client）提供推理任务的输入数据。现有工作主要考虑半诚实敌手模型，各个计算方会遵循协议执行计算，但可能试图分析他们接收的消息来窃取敏感信息。在该敌手模型下，隐私推理确保了模型拥有者对用户的输入一无所知，而用户只能收到推理最终的结果。

为了实现这一隐私保护目标，隐私推理融合了多种密码学原语。当前的两方隐私推理方案大多采用同态加密与多方安全计算相结合的混合协议。在此过程中，神经网络中每个算子的输入与输出均被转化为秘密共享的形式，而具体的计算过程则根据各个算子的性质选择最为合适的密码学工具。例如，在处理神经网络中的线性层时，通常会选用同态加密技术；而对于非线性函数的计算，则还需要借助于基于多方安全计算的方法，如利用 oblivious transfer 来执行比较操作。

2. Transformer 神经网络

Transformer 神经网络在各领域上展现出了惊人的效果，也是热门大模型的结构基础，在众多任务上有潜在的实际应用。然而，Transformer 网络中包含的大量矩阵乘法以及复杂的非线性函数为隐私推理带来了，巨大的性能挑战^{[1,2,5,6,7,8]}。

3. 记号

本文使用大写字母来表示矩阵，比如用表示参数矩阵，表示激活值矩阵。表示的第i行，表示矩阵的第i行第j列元素。秘密共享使用符号表示，比如表示由用户（client）持有的秘密共享。同态密文使用符号表示，注意一个经过同态加密的矩阵可能包含多个密文。表示环，环上的元素均为模的整数。我们使用表示一个多项式环，其中N为2的幂次方。多项式环上的多项式用表示，表示多项式第j项的系数。

二、核心方法

为了解决伴随而来的性能挑战，本论文提出了新的两方隐私推理框架 Nimbus，为 Transformer 神经网络中线性层的矩阵乘法及非线性层的激活函数提出了针对性的加速。下面我们将分别简单介绍这两部分具体的技术。

1. 线性层--基于外积的用户端矩阵乘法协议

（一）现有工作的线性层协议

现有的工作都采用 server 端执行矩阵乘法^{[1,3,4,5,6,8]}，以最新的工作BumbleBee^[6]为例，我们称为 server-side inner product (SIP)，如下图所示：

传统线性层server-side inner product协议 — 传统线性层 server-side inner product 协议

参与计算的双方持有激活值的秘密共享。服务提供商还持有参数的明文。参数和激活值采用下列公式编码为环上的多项式，其他没有赋值的多项式系数设置为零。

由上述编码方式得到的多项式相乘后，结果多项式中的部分参数即为矩阵乘法的结果。该过程在的多项式环上的一个例子由下图所示，其中结果多项式的奇数次项系数对应结果矩阵的值。

在 Transformer 神经网络的矩阵乘法中，往往有，编码时系数所对应的次数会大于。在这种情况下，激活值和参数矩阵会被分割成更小的窗口和。相乘后的结果为结果矩阵中的窗口的部分和。

在现有的协议和编码方式中，输入通信和输出通信的数量为和。为了减少通信密文的数量，Iron^[5] 将窗口大小的选择规划为一个优化问题，传输需要至少个密文。后续的工作 BumbleBee^[6] 提出了一种输出密文的压缩方法，通过额外的计算来减少通信量，但总体延迟相似。

此外，现有的编码方式下，参数和激活值分别被编码（并加密）为明文多项式和密文多项式。而明文多项式和密文多项式之间的乘法复杂度为。通过额外的 NTT/INTT 操作后才可以降为。

（二）Nimbus 的线性层协议

我们注意到在的约束下，窗口大小的选择需要兼顾输入和输出密文的数量。Nimbus 的方法包括两个方面：

通过消除输入通信，解除输入通信对求解窗口大小的影响；
在此基础上设计高效编码方式进一步提升计算和输出密文的通信效率。

Nimbus 重新设计了矩阵乘法的协议消除了输入通信，具体的协议流程如下图所示。Nimbus 能够消除输入通信来自于参数静态性的观察。在推理的过程中，参数是预先确定的，所以可以加密后提前存放在用户本地。在推理时，用户可以直接在本地用激活值的秘密共享和参数的密文做乘法，由此消除了输入通信。

在新的协议下，Nimbus 对窗口大小的选择不再受制约于输入通信密文的数量。比如，Nimbus 可以选择将激活值矩阵的窗口大小选择为。在这种情况下，Nimbus 将参数按照行编码进明文多项式并加密为密文多项式。于是，不同于之前的工作需要使用多项式乘法模拟内积，Nimbus 可以通过外积的方式实现矩阵乘法。我们使用一个例子来展示这个过程，如下左图为矩阵乘法的期望功能。右图为得到结果矩阵Z的第一行的计算方式。白色空格表示参数行不足以用满环上多项式的系数。可以看到，明文标量与密文多项式相乘得到了结果矩阵第一行结果的部分和，多个部分和经过累加后得到输出矩阵的第一行。

这种计算方式具有两个明显的优势。首先，明文标量和密文多项式相乘的复杂度为线性，低于之前工作明文多项式-密文多项式乘法的。此外，虽然 Nimbus 的输出密文和之前工作一样有未利用的系数，但是利用外积乘法得到的结果多项式中有效数字是连续排布的，这让我们可以使用一个“免费”的右移操作将多个密文多项式合并压缩。如下图所示，我们将结果矩阵的第二行右移后与结果矩阵的第一行压缩为一个利用率100%密文。将输出密文的效率做到了最高。

📢虽然 Nimbus 的线性层协议可以大幅减少通信和总计算量，但是让 Client 完成同态乘法听起来会给 Client 带来很大的计算开销。然而，在传统的同态线性层计算中，乘法本身并不是最慢的，相当一部分时间花在 Client 给激活值加密和解密的过程。这是因为由于复杂度的 NTT 操作发生在用户加密和解密的过程中，而乘法本身只需要。所以，当 Nimbus 协议不再需要 Client 处理加解密后，Client 的计算开销几乎维持了不变，甚至变得更少。

2. 非线性层--分布感知的高效非线性函数近似

对于 Transformer 模型来说，非线性层中的主要效率瓶颈在于安全计算 exponential 和 GELU 函数。一种主流的计算方式是通过分段多项式来近似非线性函数^[5,6,7,8]，而分段多项式逼近可以通过执行双方加法、乘法和比较操作来安全计算。为了保持精度，现有工作采用3段多项式（次数为6）来逼近 GELU 函数，采用两段泰勒级数（泰勒展开次数为6）来逼近 exponential 函数。高次多项式的计算以及处理分段的比较操作会给安全计算带来很大的开销。

（一）分布感知的非线性函数近似

现有工作生成分段多项式的策略是最小化近似多项式和原函数的误差，这相当于将非线性函数的分布视为了均匀分布。而 Nimbus 引入了一个不同的观察，Transformer 网络的激活值分布具有明显的规律性。比如，在下图的 GELU 函数和 exponential 函数的输入中，exponential 函数有80% 的输入值落在 [-5,0]之间，而 GELU 函数有90% 的输入值小于0。这些信息应该被结合在为非线性函数分段，以及拟合每个分段时。

比如，在分段时，虽然 GELU 函数在[0,1]之间具有较明显的非线性。但是因为这部分输入值几乎很少出现，所以可以采用简单的线性函数拟合。而在拟合每个分段时，Nimbus 将输入值的概率分布集成到误差函数中，以拟合更真实的误差期望。并且 Nimbus 发现，输入值的概率分布只需要一个约512个 token 的子数据集即可获得较为稳定的估计。此外，先前工作为不同深度的非线性函数使用共同的区间断点和多项式系数。而在 Nimbus 的策略下，不同深度的激活值分布略有不同，更合理的策略是按照深度采用独立的系数。与先前研究中假设均匀输入分布并直接最小化原始函数的近似误差相比，我们的策略能够生成分段数更少并且次数更低的近似多项式。

（二）升环-截断操作融合协议

此外，使用低次多项式也减少了定点数计算过程中误差的积累和数据溢出的可能性，允许我们的计算使用更小的环和精度。比如将64比特的大环和18比特的定点数精度降低为32比特的小环和12比特的定点数精度，可以进一步带来约2倍左右的性能提升。然而，由于 Transformer 网络的其他算子仍旧需要采用高精度和大环，所以需要额外执行大小环的切换。将元素从大环切换到小环双方可以在本地独立完成，而小环切换到大环需要双方经过多轮的通信来处理秘密共享的 wrap 问题^[10]。Nimbus 注意到每次的升环操作都会跟在一个截断操作之后。而截断操作本身也需要处理 warp 问题，所以，Nimbus 提出了一个新的协议，将升环操作与截断操作融合，从而复用了截断操作的 wrap 结果，实现了免费的升环操作。

三、实验结果

论文中的实验考虑了两种网络环境：LAN (3Gbps,RTT=1ms), WAN (400Mbps, RTT=10ms)。比较的 Baseline 包括Iron^[5]和 BumbleBee^[6]。主要的实验包括性能测试以及模型精度测试。

1. 性能实验

LAN（上图）和WAN（下图）下Iron，BumbleBee和Nimbus的性能对比

本实验展示 BERT-base 模型在输入长度为128的情况下，采用 Nimbus 框架相较于 BumbleBee 框架所实现的显著加速效果。在 LAN 下，Nimbus 展现了相对于 BumbleBee 约5倍的整体性能提升；其中，线性层处理速度达到了显著的10倍优化，而非线性层实现了接近4倍的速度优化。在 WAN 下，整体加速比约为3倍。其中，线性层加速约4倍、非线性层约3倍。此外，文章中还在更大规模模型及不同输入序列长度条件下，展示了 Nimbus 的一致性加速。

2. 模型精度实验

为了验证 Nimbus 精简多项式近似后对模型精度的影响，我们选取BERT-base作为实验模型，测试了在GLUE benchmark中8个任务的表现。实验结果证明在即使不做微调的情况下，Nimbus的多项式近似仅造成了约0.57%的平均精度损失。而经过微调后，Nimbus只有0.07%的精度损失，几乎对精度没有影响。

四、结论

本论文提出了一种用于 Transformer 的隐私保护的高效的两方推理框架 Nimbus。我们提出了一种基于外积的用户端的高效安全矩阵乘法协议，为线性层实现了更高的计算和通信效率。对于非线性层，我们采用了分布感知的多项式近似方法，从而可以使用更简单的近似，并减少通信量和交互轮数。这些优化显著提升了性能，向 Transformer 的隐私推理的实际应用迈出了重要一步。

本论文的实现基于SecretFlow-SPU^[9],对于密态推理的支持。本文所探讨的线性层协议，基于 SPU 框架内 BumbleBee 模块的实现，通过修改 SPU 后端的 C++ 算子完成了同态协议的构建。对于非线性层而言，其性能提升的关键在于对近似方法的优化；因此，我们利用 SPU 提供的 Python 前端接口，实现了更为简洁高效的多项式近似。目前本文的相关代码发布在 SPU 的 GitHub 仓库中开源一个 PoC 分支，欢迎查看。

代码开源：https://github.com/secretflow/spu/tree/nimbus

深度视频解读

本论文一作、本文作者李正一的详细技术解读，欢迎查看👇

直播现场互动问答：https://www.yuque.com/secret-flow/admin/fnofay8tm23imerz

Reference

[1] Tianyu Chen, Hangbo Bao, Shaohan Huang, Li Dong, Binxing Jiao, Daxin Jiang, Haoyi Zhou, Jianxin Li, and Furu Wei. The-x: Privacy preserving transformer inference with homomorphic encryption. arXiv preprint arXiv:2206.00216, 2022.

[2] Li, D., Wang, H., Shao, R., Guo, H., Xing, E., and Zhang, H. MPCFORMER: FAST, PERFORMANT AND PRIVATE TRANSFORMER INFERENCE WITH MPC.

[3] Chiraag Juvekar, Vinod Vaikuntanathan, and Anantha Chandrakasan. GAZELLE: A low latency framework for secure neural network inference. In 27th USENIX Security Symposium (USENIX Security 18), pages 1651–1669, 2018.

[4] Zhicong Huang, Wenjie Lu, Cheng Hong, and Jiansheng Ding. Cheetah: Lean and fast secure two-party deep neural network inference. In 31st USENIX Security Symposium (USENIX Security 22), pages 809–826, 2022.

[5] Meng Hao, Hongwei Li, Hanxiao Chen, Pengzhi Xing, Guowen Xu, and Tianwei Zhang. Iron: Private inference on transformers. Advances in Neural Information Processing Systems, 35:15718–15731, 2022.

[6] Wenjie Lu, Zhicong Huang, Zhen Gu, Jingyu Li, Jian Liu, Kui Ren, Cheng Hong, Tao Wei, and WenGuang Chen. Bumblebee: Secure two party inference framework for large transformers. Cryptology ePrint Archive, 2023.

[7] Ye Dong, Wenjie Lu, Yancheng Zheng, Haoqi Wu, Derun Zhao, Jin Tan, Zhicong Huang, Cheng Hong, Tao Wei, and Wenguang Cheng. Puma: Secure inference of llama-7b in five minutes. arXiv preprint arXiv:2307.12533, 2023.

[8] Qi Pang, Jinhao Zhu, Helen Möllering, Wenting Zheng, and Thomas Schneider. Bolt: Privacy-preserving, accurate and efficient inference for transformers. In 2024 IEEE Symposium on Security and Privacy (SP), pages 130–130. IEEE Computer Society, 2024.

[9] Junming Ma, Yancheng Zheng, Jun Feng, Derun Zhao, Haoqi Wu, Wenjing Fang, Jin Tan, Chaofan Yu, Benyu Zhang, and Lei Wang. SecretFlow-SPU: A performant and User- Friendly framework for Privacy-Preserving machine learning. In 2023 USENIX Annual Technical Conference (USENIX ATC 23), pages 17–33, 2023.

[10] Deevashwer Rathee, Mayank Rathee, Rahul Kranti Kiran Goli, Divya Gupta, Rahul Sharma, Nishanth Chandran, and Aseem Rastogi. Sirnn: A math library for secure rnn inference. In 2021 IEEE Symposium on Security and Privacy (SP), pages 1003–1020. IEEE, 2021.

蚂蚁技术AntTech

科技是蚂蚁创造未来的核心动力

最新文章

蚂蚁科技奖专场｜湖南大学佃仁伟：高分辨率高光谱智能融合成像

蚂蚁集团两项案例入选首期CCF产学合作基金优秀项目案例

蚂蚁集团牵头起草的《智能计算图计算性能测试方法》国家标准正式获批立项

探索AI时代数据流通的新可能，2024“隐语”开源社区链接全球开发者超2万

论文秀Live#14 AAAI 2025｜智能技术的跨界融合：图像处理与多任务学习的奇妙交汇

浙江大学与蚂蚁集团升级战略合作，共建“数据与智能联合研究中心”

CCF体系结构博士交流与学术辅导会议在蚂蚁集团召开

1/11 报名倒计时｜「第二届隐语开源社区嘉年华」四大亮点抢先看，参会好礼送不停

攻坚安全可信技术，2024年蚂蚁集团16篇论文被顶会顶刊收录

《生成式大模型安全评估白皮书(2024)》正式发布（附下载链接）

蚂蚁集团2024科技生态白皮书 | 过去这一年，蚂蚁工程师平均每天发了一篇顶会论文

蚂蚁集团四个项目入选2024人工智能先锋案例

应对高复杂度业务系统下的网络安全防控问题，“切面融合智能蓝皮书”发布

OceanBase 再度入选 Gartner ® 云数据库管理系统报告“荣誉提及”

第五届中国人工智能大赛成果发布，蚂蚁多项成果入选

蚂蚁保入选2024“金信通”金融科技创新典型案例

三大模态全面落地！蚂蚁天鉴安全实验室通过信通院AIGC多模态检测服务系统评测

MEET 2025｜蚂蚁开源负责人王旭：大模型是新的数据库

蚂蚁交互智能实验室最新开源Framer：用两张图片交互式生成轨迹可控的视频

蚂蚁密算、信通院等发起“密态计算产业链共建行动” 推动数据价值安全释放

开源之夏2024收官， TuGraph和铜锁项目参与学生斩获奖项

信通院发布首批大模型应用落地“样板间工程” 蚂蚁集团两项案例入选

蚂蚁集团20篇论文入选全球AI顶会NeurIPS2024

研讨会预告｜NeurIPS 2024 蚂蚁 Workshop 邀您参加

论文秀Live#12 NeurIPS 2024｜智能科技的深度探索：从知识代理到语言模型训练的成本优化

蚂蚁数科获2024年“金融密码杯”大赛一等奖

我厂程序员，认真起来，相当可爱

NeurIPS 2024论文解析：基于SPU实现的两方密态推理框架深度解读

蚂蚁科技奖专场｜清华大学姚权铭：深度学习的简约之道

三大亮点，不容错过！Ray Forward 2024 议程详情抢先看！

有1700万人，想听图片开口说话

蚂蚁数科获NeurIPS 2024大模型隐私挑战赛赛道冠军

让大模型推理更安全可信，蚂蚁集团这项解决方案获奖

中国人工智能的2024：追赶ChatGPT不再是目标

通向赛博未来：EchoMimicV2半身数字人生成

从大数据到大模型：现代应用的数据范式

蚂蚁技术研究院最新开源：AI P图神器MagicQuill

论文秀Live#10直播预告｜ISSTA 2024论文解读

支付宝参与的“基于云原生的大规模云边协同关键技术及应用”获2023年度浙江省科技进步一等奖

蚂蚁集团旗下AI企业服务公司“数字蚂力”乌镇获奖：入选人工智能创新应用典型案例

致敬热爱技术的你！AFAC2024大赛获奖方案合集，请收藏～

乌镇峰会热议AI反诈：国内首个AI大模型攻防赛收官，全球十强亮相

蚂蚁集团AI技术、风控案例分别获得2024世界互联网大会重要奖项

蚂蚁保“灯塔风盾”获普惠金融产品创新奖，助力保险行业降本增效

世界互联网大会乌镇峰会智能体“桐小乌” 上线支小宝！

专家解读｜构建国家数据标准体系，助力数据要素可信流通发展

蚂蚁技术研究院最新成果WarpDrive被计算机顶会HPCA 2025收录

AI能让小水滴跟着小姐姐一起跳舞吗？

即将收官！「全球AI大模型攻防挑战赛」将在乌镇公布全球十强

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉