像教女朋友一样教你用Cuda实现PyTorch算子

文摘 2025-01-11 11:27 安徽

点击下方卡片，关注“AI前沿速递”公众号

各种重磅干货，第一时间送达

前段时间一直在做算子上的优化加速工作，在和其他同学的讨论中发现用Cuda编写算子存在一定的门槛。虽然知乎上有很多优秀的教学指南、PyTorch官方也给出了tutorial（具体地址会放在文章末尾），但是对于每个环节的介绍与踩坑点似乎没有详实的说明。

结合我当时入门踩坑的惨痛经验，一个简单明了的demo能够大大减小上手的时间成本。所以我在这里以数组求和（下称sum_single）、两数组相加（下称sum_double）为例，详细介绍一下用Cuda实现PyTorch算子的完整框架，具体的代码详见CudaDemo

来源知乎：雅痞（已授权）链接：https://zhuanlan.zhihu.com/p/595851188

框架结构

├── ops
│   ├── __init__.py
│   ├── ops_py
│   │   ├── __init__.py
│   │   └── sum.py
│   └── src
│       ├── reduce_sum
│       │   ├── sum.cpp
│       │   └── sum_cuda.cu
│       └── sum_two_arrays
│           ├── two_sum.cpp
│           └── two_sum_cuda.cu
├── README.md
├── setup.py
└── test_ops.py

demo结构如上，其中

ops/src/是Cuda/C++代码
setup.py是编译算子的配置文件
ops/ops_py/是用PyTorch包装的算子函数
test_ops.py 是调用算子的测试文件

Cuda/C++

对于一个算子实现，需要用到.cu(Cuda)编写核函数、.cpp(C++)编写包装函数并调用PYBIND11_MODULE对算子进行封装。

注意：Cuda文件和Cpp文件不能同名！！！否则编译不通过！！！

我们这里以src/sum_two_arrays/为例进行解释

// src/sum_two_arrays/two_sum_cuda.cu
#include <cstdio>

#define THREADS_PER_BLOCK 256
#define WARP_SIZE 32
#define DIVUP(m, n) ((m + n - 1) / n)


__global__ void two_sum_kernel(const float* a, const float* b, float * c, int n){
    int idx = blockIdx.x * blockDim.x + threadIdx.x;
    if (idx < n){
        c[idx] = a[idx] + b[idx];
    }
}


void two_sum_launcher(const float* a, const float* b, float* c, int n){
    dim3 blockSize(DIVUP(n, THREADS_PER_BLOCK));
    dim3 threadSize(THREADS_PER_BLOCK);
    two_sum_kernel<<<blockSize, threadSize>>>(a, b, c, n);
}

这里的关键是two_sum_kernel这一核函数实现数组相加功能。下面的two_sum_launcher函数负责分配线程块并调用核函数。

// src/sum_two_arrays/two_sum.cpp
#include <torch/extension.h>
#include <torch/serialize/tensor.h>

#define CHECK_CUDA(x) \
  TORCH_CHECK(x.type().is_cuda(), #x, " must be a CUDAtensor ")
#define CHECK_CONTIGUOUS(x) \
  TORCH_CHECK(x.is_contiguous(), #x, " must be contiguous ")
#define CHECK_INPUT(x) \
  CHECK_CUDA(x);       \
  CHECK_CONTIGUOUS(x)


void two_sum_launcher(const float* a, const float* b, float* c, int n);


void two_sum_gpu(at::Tensor a_tensor, at::Tensor b_tensor, at::Tensor c_tensor){
    CHECK_INPUT(a_tensor);
    CHECK_INPUT(b_tensor);
    CHECK_INPUT(c_tensor);

    const float* a = a_tensor.data_ptr<float>();
    const float* b = b_tensor.data_ptr<float>();
    float* c = c_tensor.data_ptr<float>();
    int n = a_tensor.size(0);
    two_sum_launcher(a, b, c, n);
}


PYBIND11_MODULE(TORCH_EXTENSION_NAME, m) {
  m.def("forward", &two_sum_gpu, "sum two arrays (CUDA)");
}

在C++文件中实现算子的封装，文件开头的宏定义函数是为了保证传入的向量在cuda上（CHECK_CUDA）、传入的向量中元素地址连续（CHECK_CONTIGUOUS）。two_sum_launcher是对cuda文件中的声明。

two_sum_gpu是与Python的接口，传入的参数是PyTorch中的Tensor。在这一部分需要对Tensor做CHECK检验（可选），并通过.data_ptr得到Tensor变量的指针。对于Tensor在C++中的使用可查阅[2]。

最后PYBIND11_MODULE的作用是对整个算子进行封装，能够通过Python调用C++函数[3]。对于自定义的其他算子，只用改动m.def()中的三个参数

"forward"：算子的方法名，假如算子的整个模块命名为sum_double，则在Python中通过sum_double.forward调用该算子
&two_sum_gpu：进行绑定的函数，这里根据自己实现的不同函数进行更改
"sum two arrays (CUDA)"：算子注释，在Python端调用help(sum_double.forward) 时会出现

可能有人会疑惑为什么要把算子和模块分开。假如整个sum_double有许多不同的功能，我就可以在一个模块中绑定多个算子，具体只用在PYBIND11_MODULE中写入多个m.def()，再通过sum_double.xxx调用不同的算子

setup.py编译配置

在整个项目的根目录新建setup.py文件配置编译信息，利用setuptools对算子打包

from setuptools import find_packages, setup
from torch.utils.cpp_extension import BuildExtension, CUDAExtension

setup(
    name='CudaDemo',
    packages=find_packages(),
    version='0.1.0',
    author='xxx',
    ext_modules=[
        CUDAExtension(
            'sum_single', # operator name
            ['./ops/src/reduce_sum/sum.cpp',
             './ops/src/reduce_sum/sum_cuda.cu',]
        ),
        CUDAExtension(
            'sum_double',
            ['./ops/src/sum_two_arrays/two_sum.cpp',
             './ops/src/sum_two_arrays/two_sum_cuda.cu',]
        ),
    ],
    cmdclass={
        'build_ext': BuildExtension
    }
)

文件中需要进行改动的有

name：包名
version：包版本号
author：作者名称
ext_modules：编译C/C++扩展，list类型，每个元素为一个模块的相关信息（这里的模块在讲Cuda/C++这一块的末尾有提到，一个模块可以含有多个具体的算子）

CUDAExtension

在ext_modules中采用CUDAExtension指明Cuda/C++的文件路径，其中第一个参数为对应模块的名字，第二个参数为包含所有文件路径的列表。

这里的模块名和Cuda/C++中m.def()定义的算子名共同决定了调用算子的方式。例如两数组相加的模块名是sum_double、算子方法名是forward，所以在Python中调用该算子的方式为sum_double.forward()。

值得一提的是packages的值为list[str]，表示本地需要打包的package。这里find_packages()是找出本地所有的package。当然我们打包只用考虑ops/src/中的文件，所以packages=['ops/src']也能正常编译，不过为了方便还是采用find_packages()。

PyTorch包装

为了让自定义算子能够正常正向传播、反向传播，我们需要继承torch.autograd.Function进行算子包装。我们这里以sum_double为例进行介绍

#ops/ops_py/sum.py
import torch
from torch.autograd import Function
import sum_double

class SumDouble(Function):

    @staticmethod
    def forward(ctx, array1, array2):
        """sum_double function forward.
        Args:
            array1 (torch.Tensor): [n,]
            array2 (torch.Tensor): [n,]
        
        Returns:
            ans (torch.Tensor): [n,]
        """
        array1 = array1.float()
        array2 = array2.float()
        ans = array1.new_zeros(array1.shape)
        sum_double.forward(array1.contiguous(), array2.contiguous(), ans)

        # ctx.mark_non_differentiable(ans) # if the function is no need for backpropogation

        return ans

    @staticmethod
    def backward(ctx, g_out):
        # return None, None   # if the function is no need for backpropogation

        g_in1 = g_out.clone()
        g_in2 = g_out.clone()
        return g_in1, g_in2


sum_double_op = SumDouble.apply

文件开头import sum_double就是导入的setup.py中定义的模块名。

自定义的torch.autograd.Function类型要实现forward、backward函数，并声明为静态成员函数。

forward

前向传播的前半部分就是正常传入Tensor进入接口，如果传入向量在之前的代码里是索引出来的很可能非连续，所以建议在传入算子的时候使其连续。

如果算子不需要考虑反向传播，可以用ctx.mark_non_differentiable(ans) 将函数的输出标记不需要微分

backward

backward的输入对应forward的输出，输出对应forward的输入。例如这里backward的输入g_out对应forward输出ans，backward的输出g_in1, g_in2对应内联代码片forward输入array1, array2。

如果算子不需要考虑反向传播，则直接return None, None。否则就按照对应输入变量的梯度进行计算。

值得注意的是，如果反向传播需要用到forward的信息，可以用ctx进行记录存取。例如对一个数组求和，则反向传播的梯度为原数组长度的向量。就可以在forward中用ctx.shape=array.shape[0]记录输入数组长度，并在backward中通过n=ctx.shape进行读取。

如果存取的是Tensor则建议使用save_for_backward(x, y, z, ...)存储向量，并用x, y, z, ...=ctx.saved_tensors取向量，而不是直接用ctx。

To prevent incorrect gradients and memory leaks, and enable the application of saved tensor hooks.注：save_for_backward()只能存向量，标量用ctx直接存取。

最后用sum_double_op = SumDouble.apply获取最终的函数形式。

init.py

为了在外部调用包装好的PyTorch函数，通过ops/ops_py/__init__.py声明

from .sum import sum_single_op, sum_double_op
__all__ = ['sum_single_op', 'sum_double_op']

ops/__init__.py

from .ops_py import *

Build & Test

提前安装好PyTorch环境，并在demo的根目录下pip install -e .

通过python test_ops.py测试结果，没问题的情况应输出：

Average time cost of sum_single is 2.8257 ms
Average time cost of sum_double is 0.1128 ms

如果无法编译可能是没有将nvcc加入环境变量，ls /usr/local/看看是否有cuda文件夹。例如我这里是cuda-11.6文件夹，则进入~/.bashrc在文件末尾加入

export PATH=$PATH:/usr/local/cuda-11.6/bin
export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/usr/local/cuda-11.6/lib64

欢迎投稿

想要让高质量的内容更快地触达读者，降低他们寻找优质信息的成本吗？关键在于那些你尚未结识的人。他们可能掌握着你渴望了解的知识。【AI前沿速递】愿意成为这样的一座桥梁，连接不同领域、不同背景的学者，让他们的学术灵感相互碰撞，激发出无限可能。

【AI前沿速递】欢迎各高校实验室和个人在我们的平台上分享各类精彩内容，无论是最新的论文解读，还是对学术热点的深入分析，或是科研心得和竞赛经验的分享，我们的目标只有一个：让知识自由流动。

📝 投稿指南：

确保文章为个人原创，未在任何公开渠道发布。若文章已在其他平台发表或即将发表，请明确说明。
建议使用Markdown格式撰写稿件，并以附件形式发送清晰、无版权争议的配图。
【AI前沿速递】尊重作者的署名权，并为每篇被采纳的原创首发稿件提供具有市场竞争力的稿酬。稿酬将根据文章的阅读量和质量进行阶梯式结算。

📬 投稿方式：

您可以通过添加我们的小助理微信（aiqysd）进行快速投稿。请在添加时备注“投稿-姓名-学校-研究方向”

长按添加AI前沿速递小助理

AI前沿速递

持续分享最新AI前沿论文成果

最新文章

本地部署最强开源模型—DeepSeek-r1（保姆喂饭级教程）

2025 Kaggle 小白练习赛——使用保险数据集进行回归！

深度译读《DeepSeek FAQ》- 关于 DeepSeek 的答疑解惑

2025即插即用，Mamba线性注意力机制模块，持续起飞！

目前主流的attention方法都有哪些？

Tip 2024 | CGA特征融合模块，短短几行代码，有效提点，即插即用

TPAMI 2024 | 真的鲨疯啦！深度视觉学习诚不欺我！

AAAI 2024 | Conv-Former：卷积赋能，实现Transformer效果的即插即用模块！

【计算机视觉新突破】GLOMAP：重新定义全局结构光运动（SfM）的高效系统

如何评价大语言模型架构 TTT ？Transformer这次真的要没了？

NeurIPS | HiLo注意力机制：即插即用，精准捕获高低频特征

Flare7K++：解决夜间耀斑难题的综合数据集与流程

有小黑子说我家ViT在小数据集上不work，我真的忍不了了!

CVPR ｜只用一部分就好，别再傻乎乎的用普通卷积了！

博士招生 | 上海理工大学光学工程博士招生（优青教授课题组，物理、光纤传感、人工智能方向）

如何评价 Kimi 发布的多模态推理模型 k1.5？

告别手工特征提取！SparseViT 开启图像篡改定位新篇

CricaVPR：开启视觉位置识别新篇章，跨图像相关性助力性能飞跃

漫谈 Transformer 中的绝对位置编码、相对位置编码和融合位置编码（旋转位置编码 RoPE）

Nature | 给出材料性质就能输出材料结构，微软最新MatterGen模型，真猛！

博士招生 | 南方科技大学ai{DEAL} 课题组人机交互与教育技术方向博士后招聘

ECCV 2024 | 最新直方图transfomer，直接涨点起飞！

博士招生 | 吉林大学计算机学院90后教授、博士生导师招生、招老师啦！

AAAI 2024 | 动态频域fft模块，几行代码，有效提点，即插即用

得克萨斯大学提出一种解码器，以极低计算成本达成医学图像分割SOTA新性能！

TPAMI 2024 | 神来一笔！无监督半监督怎么进行球形空间领域适应呢？

超越Transformer，魔改的Mamba将横扫顶会？！

ICCV 2023 | 多尺度线性注意力模块，有效涨点，即插即用

博士招生 | 英国斯旺西大学招收研究型硕士（无需上课）和博士

CVPR 2024 | 单头注意力机制(SHSA)，即插即用，涨点起飞！

CVPR 2024 | 最新即插即用注意力机制+ffn层

博士招生 | 新加坡国立大学（NUS）招聘多名机器学习控制相关的全奖博士生 , 博士后

ECCV 2024 | 小波变换卷积的即插即用，引入了频域信息，助你涨点起飞

博士招生 | 加拿大阿尔伯塔大学招收电磁、无线通信、机器学习方向全奖硕士/博士/博士后/访问学者

TPAMI 2024 | 多模态融合超前研究！维度情感识别！

像教女朋友一样教你用Cuda实现PyTorch算子

TPAMI 2024 | 全新框架！深度学习可解释度量学习！

招生 | AI方向博士后招聘--北航杭州国际校园薪金40万起！

厉害了，LSTM+Transformer王炸创新，精准度又高了！

看我操作，手写一个神经网络训练架构！

一句话就能让论文评分飞升！上交大揭露大模型审稿背后的深度逻辑及风险！

【扩散模型】拿下CVPR两篇最佳论文，它究竟有何特别之处？我直呼牛批克拉斯！

博士招生 | 上海交通大学人工智能学院赵波课题组招硕博士生/实习生

一文读懂如何使用图框架构建多代理应用程序

博士招生 | 上海科技大学信息科学与技术学院 - 汪婧雅教授团队招收机器学习方向博士

仅需一万块钱！清华团队靠强化学习让 7B模型数学打败GPT-4o

TPAMI 2024 | 变态但很有效的图像识别方法！对于小样本泛化有奇效！

Stable Video Diffusion整出新活！学习【扩散模型视频】掌握3D/视频生成变革！

北京AI公司联合哈工大深圳联合招聘生物医学AI算法科研实习生（北京深圳均可）

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉