近日,计算机体系结构领域顶级会议 HPCA 2025 公布了中稿论文。蚂蚁技术研究院计算系统实验室最新研究成果WarpDrive被收录。
International Symposium on High-Performance Computer Architecture(HPCA)由IEEE举办,涵盖处理器架构、并行计算、存储系统等领域,被业内视为计算机体系结构研究的风向标之一。
蚂蚁技术研究院计算系统实验室
此次为收录的论文为
《WarpDrive: GPU-Based Fully Homomorphic Encryption Acceleration Leveraging Tensor and CUDA Cores》
WarpDrive
WarpDrive是一个基于GPU的FHE加速解决方案。论文首先提出了一种高效利用Tensor Core的NTT实现方法,通过深度计算分解和细粒度的warp(线程束)级内存访问设计,不仅减少了NTT操作中所需的指令数量,同时大幅降低了NTT操作中的流水线阻塞(pipeline stall)。相比此前这一领域的SOTA工作,TensorFHE,WarpDrive获得了最高13.3倍的NTT吞吐量提升。
在此基础上,WarpDrive提出了一种NTT实现框架,融合了基于CUDA Core和Tensor Core的解决方案。论文在该框架内提出两种基于CUDA Core的NTT内核以及两种融合内核,首次实现在NTT操作中并行使用这两种计算单元,进一步提升了NTT操作性能。
此外,论文提出了并行性增强的内核设计(PE Kernel),充分发掘单密文内的并行性,允许在GPU内核中充分展开多个RNS多项式。论文以CKKS算法为例,在NVIDIA A100 GPU上进行了实现和评估。实验显示,PE Kernel可以使计算利用率提升1.13到1.87倍,使访存利用率提升1.20到2.12倍。综合NTT层和多项式操作层的优化,与TensorFHE相比,WarpDrive的同态操作和同态应用负载性能最多提升3.5倍和2.8倍。
HPCA2025将于2025年美西时间3月1日至3月5日在美国拉斯维加斯举办。届时,蚂蚁技术研究院计算系统实验室同学会到现场做分享。