pytorch日积月累3：一次讲清 PyTorch 封装的那些层次

文摘 2024-10-09 12:02 上海

当你在 PyTorch 里写代码的时候，有没有遇到过这样的困惑：“为什么同样的功能，在 PyTorch 里有好几种写法？” 比如，你想做一个简单的线性变换，结果发现有 torch.matmul()，torch.nn.functional.linear()，还有 torch.nn.Linear()，到底哪个该用？它们有什么区别呢？

实际上，PyTorch 提供了不同层级的封装，每个层级有它的独特用处，从底层的计算到高层次的网络搭建。今天我就来带你从底层一路逛到神经网络，看清每一层到底是干啥的、啥时候用。

第一层：CUDA 封装

我们从最底层开始，叫做 CUDA 封装。如果你听起来有点陌生，没关系，打个比方，想象你进了一个超高效的工厂，里面有成百上千的机器人。这些机器人只干一件事：算数。比如说，你让它们做个矩阵乘法，它们就干完这一件事，算完立马走人，啥也不管，数据也不存，就像“干活不留痕迹”的工人。

这就是 CUDA 封装的工作方式。它直接跟 GPU 打交道，每次调用都会用 GPU 里的底层算子做计算。比如做个矩阵乘法，就是这么干的：

举个例子：


# 调用底层的 CUDA 算子做矩阵乘法GEMM_cuda.fwd(mat1, mat2)GEMM_cuda.bwd(grad_o, mat1, mat2)  # 反向传播计算梯度

这层封装适合啥场景呢？性能极致优化！如果你追求速度，想让 GPU 飞起来跑，这就是你的地盘。但一般来说，你可能不太会直接接触到这玩意儿，除非你是做 GPU 算子优化的工程师。

第二层：Autograd 封装

接下来，我们往上走一层，来到了 Autograd 封装。这层和前面的 CUDA 封装不同，它不光计算，还会记住中间结果，方便后面用。我们再打个比方，它就像是个记忆力超强的学生，每次计算之前都会在笔记本上记下重要步骤，等到反向传播的时候再把这些笔记翻出来。

比如，你要自定义一个 ReLU 激活函数，Autograd 就帮你记住前面步骤，等反向传播的时候，用保存的信息帮你计算梯度。

来看代码：


import torchclass TensorModelParallelCrossEntropy(torch.autograd.Function):    @staticmethod    def forward(ctx, logits, target, label_smoothing=0.0):        # do something        ctx.save_for_backward(...)        return loss
    @staticmethod    def backward(ctx, grad_output):        # do something        ... = ctx.saved_tensors        return grad_input, None, None

这种算子可以通过下面这种方式调用：


ce_loss = TensorModelParallelCrossEntropy.apply(logits,labels)

你可以看到调用这种算子并不是通过使用它的forward或者backward函数，而是使用apply函数。

这里torch会进行一些封装，例如调用apply后，会用forward进行计算，并将backward添加到tensor的grad_fn属性计算图中，求导时自动调用。会在使用了torch.no_grad()上下文，不需要求导时，自动抛弃掉save_for_backward存储的张量。

但是这种层级用的也不是太常见，首先观察forward函数的输入参数和backward的输出参数。backward函数返回的梯度数量必须和forward输入参数的数量相同，但是可以用None占位。比如target是标签，label_smoothing是超参，不可学习，不需要导数，这里就会用None占位。因此当你需要某一个功能的时候，需要严格的选择你需要的autograd算子，达到最佳的计算效率，不需要计算的东西不要算。

第三层：Function 封装

再往上一层，就是 Function 封装，这层封装让代码更加灵活。它不仅能做你想要的计算，还能帮你检查输入是否合理、填补一些默认值、应对各种情况。比如，你调用 torch.nn.functional.linear() 这个函数时，它会自动帮你检测输入、输出的维度是否匹配、处理默认的 bias，你几乎不需要管其他的细节。

看看它的使用：


from torch.nn.functional import linear, dropout
# 线性变换和dropout操作output = linear(input, weight, bias)output = dropout(output, p=0.5, training=True)

Function 封装对于大多数常见的操作已经足够了，很多人用 PyTorch 训练模型时，就是直接用这一级别的封装。它能帮你省心很多，不需要你关心太多复杂的细节。

适合场景：绝大多数日常任务。这层封装已经足够灵活和健壮，特别适合直接拿来就用。

第四层：Module 封装

最后，我们来到了最顶层：Module 封装。这层就厉害了，是用来构建整个神经网络的，它不仅帮你管理计算，还能自动保存和初始化模型的参数，比如权重和偏置。

看看怎么用 Module 封装定义一个线性层：


import torch.nn as nn
class MyLinearLayer(nn.Module):    def __init__(self, in_features, out_features):        super(MyLinearLayer, self).__init__()        self.weight = nn.Parameter(torch.randn(out_features, in_features))        self.bias = nn.Parameter(torch.randn(out_features))
    def forward(self, input):        return torch.matmul(input, self.weight.T) + self.bias

你只需要专注于网络结构的设计，剩下的权重初始化、参数管理等，都交给 Module 来搞定。当你用它来搭建网络时，感觉就像是在用乐高搭积木——每块积木（网络层）都帮你准备好，你只要组合就行了。

适合场景：搭建整个神经网络！当你需要全套服务，包括参数管理、前向和反向传播的自动处理，Module 就是你最好的选择。

总结：到底用哪个封装？

最后，来帮你梳理一下到底该用哪个封装：

CUDA 封装：底层操作，适合追求极致性能的人。

Autograd 封装：想自定义正向和反向传播？这个是你的首选！

Function 封装：日常使用，功能强大且灵活。

Module 封装：构建复杂的神经网络模型，省心又方便。

如果你只是想快速搭建一个神经网络，Module 封装就够了。如果你要实现一些自定义的激活函数或层，那你可能要用到 Autograd 封装。而如果你想深入 GPU 优化的世界，搞些硬核的操作，那 CUDA 封装就是你要玩的地方。

不摸鱼的小律

互联网大厂算法工程师一枚，分享各种技术、职场热点和感悟。不做每日打卡的路人。

最新文章

985毕业生吐槽：985毕业去华为外包有辱师门吗？

“一二七定律”：1成的同事能交心、2成会斗争、7成的同事不过就是一起上班而已

大厂学姐：今天一次性讲清楚PyTorch 数据加载与sampler采样机制详解

字节某员工爆料：95年，月薪7w，年薪84w，2年工资没涨了，每天都感觉好迷茫。网友：这是日子过得太舒服了

pytorch日积月累3：一次讲清 PyTorch 封装的那些层次

2024 年调研报告，硕士毕业生失业率高达 67%，很多人迫不得已从学士到硕士，最后黄袍加身成为了骑士！

pytorch日积月累2：掌握张量操作，构建简单的线性回归模型

百度员工爆料：我今年31，女朋友28，都是北京研究生毕业，两人互联网，加起来到手50W左右，没车没房没户口。勉强苟活，不敢谈结婚

pytorch日积月累1：PyTorch 入门指南：全面解析 Tensor，轻松掌握深度学习的数据类型

60万定律：在上海任何单位和任何职业,只要工资年收入大于60w,基本上你都要完全放弃自己的个人生活,无论你是老师、医生、律师

天天一起的打工人，有资格成为朋友吗？一同事被裁员，立马退工作群，中午准备交接时，才发现所有同事微信好友都被删了！

北漂有多绝望？女朋友在字节，年收入25w，我北邮28岁年薪70多万，因为没有户口，导致感情破裂各奔东西！

python有必要花39.99元买正版吗？

前腾讯员工放弃80w年薪选择2800元体制内工作。网友：腾讯干三年等于体制内干68年...

医生年薪300万+！互联网打工人看完也得吸口凉气!

学姐：秋招应聘季，不得了解一下全球的科技巨头是谁？字节跳动排在全球第五！

华为员工爆料：华为里面的竞争还是很严重的，18级专家，年薪百万，同样被退休了，专家岗堪忧，这么卷！

阿里员工爆料：P7，年薪100多万，女朋友处了7年。丈母娘竟说，只要我考上当地的公务员，哪怕一个月2k也把女儿嫁给我

比亚迪211硕士不服低学历主管，网友：不服离职！

“60万年薪 vs 9k月薪：是奔波还是安稳，谁赢了？”

命好躺着也赚钱！英伟达员工爆料：股票账号密码忘记了，也懒得弄，一直捂着，现在股价飙升，身价直接破亿！

同事被辞退拿了8万赔偿，交接完就离开了公司。3天后，新来的员工把同事电脑里的资料给删了，老板急忙联系前同事，要他回去协助

2023年互联网巨头谁最赚钱？字节跳动直接碾压！曾经的BAT只剩下T了？

字节跳动员工爆料：18年入职到现在，辛苦攒了8000多股，网友直呼：羡慕了！940万人民币，！

一个奇怪的现象：拿过薪资60k的人，就算找不到工作，也拉不下脸去干20k左右的工作。网友：因为低薪一样不稳定，而且更卷？

一个奇怪的现象：华为为什么要请这么多外包？外企德科，中软国际，软通动力，一问全是华为外包。

发现一个奇怪的现象：儿女有出息，去了国外，等于没有生；儿女去了大城市，等于生了半个；留在身边的，虽然穷一点，但起码有个依靠

邮政员工吐槽：被父母安排进邮政银行，上最累的班，领最少的钱

《凡人歌》:月薪2w的老婆嫌弃月薪8000的北京公务员老公：“你是好人，但很没用”

一个奇怪的现象：如今满大街都是三种人，神采奕奕的老人，死气沉沉的年轻人，以及生不如死的中年人

前华为员工：很后悔！毕业后进华为，年薪42万，选择跳槽后失业了。联系华为想回去工作，年薪还是原来的就行，华为说不可以

字节员工爆料：五年前入职字节，月薪9万，当时很高兴。后来在北京买了房，日渐憔悴

35岁后的人生：黄金期还是职场“废弃期”？

我是应届生，是“未开封的五仁月饼”，是“旷野上的牛马”！

邮政员工辞职大纠结：支局长挽留，走还是留？

大厂程序员爆料：38岁被裁，有2年竞业协议，每月领8万8补偿金。但2年后，想再就业就难了

年薪15万吉利汽车员工爆料：自己很努力，绩效也很好，但干了3年，入职时工资8000，离职时11000，内部调薪慢得跟蜗牛似

中秋节，公司给我发了“空气”，你呢？中秋节福利贫富差距让人破大防！

60万定律：在上海任何单位和任何职业,只要工资年收入大于60w,基本上你都要完全放弃自己的个人生活,无论你是老师、医生、律师

字节员工吐槽说:我终于知道为什么大家喜欢招985、211大学生了。

我在华为年薪100万，深圳房子136平，但结婚生子太早，媳妇2胎没有工作，岳父岳母是农村的，生活很“艰难”，负债累累

年薪63万华为怀孕女员工爆料：来华为三年了，目前刚怀孕，越发觉得卷不动了，想换个舒心又稳定的工作，该做什么呢？

同事月薪2万，天天加班，降薪到1.5万跳槽到一家新公司。他说：现在能准时下班，比啥都香！

华为员工爆料：华为里面的斗争还是很严重的，领导18级，年薪百万，还是被退休了，专家岗堪忧，这么卷！

10月份养老金完成并轨，体制内退休待遇将大幅缩水？

学姐：上海的科技独角兽公司，第一名竟然是它！

互联网员工爆料：P7，年薪100多万，女朋友处了7年。丈母娘竟说，只要我考上当地的公务员，哪怕一个月2k也把女儿嫁给我

别再内卷了！小城房价2w元起，小姐姐已开启“退休”模式！

学姐：秋招了！来冲冲这些中国的科技独角兽公司！

说好的消费降级？2024年上半年互联网财报刷新你的认知！

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉