每天五分钟深度学习框架pytorch：神经网络模型的参数初始化操作

职场 2024-11-21 23:59 浙江

本文重点

其实如果我们使用pytorch封装好的网络层的时候，我们并不需要对模型的参数初始化，因为这些都是pytorch帮助我们完成的，但是如果我们自己搭建模型（不使用pytorch中的封装好的网络层）或者对pytorch中封装好的模型初始化参数不满意，那么此时我们对模型进行参数初始化。

用pytorch已经封装好的层来搭建网络模型

import torch
import numpy as np
from torch import nn

class Simple_net(nn.Module):

def __init__(self):
super(Simple_net,self).__init__()
self.layer1=nn.Linear(4,3)

def forward(self,x):
return self.layer1(x)

net=Simple_net()
print(net)
print(net.layer1.weight.shape) #torch.Size([3, 4])
data=torch.randn(5,4)
out=net(data)
print(out.shape)#torch.Size([5, 3])

这里我们是使用pytorch已经封装好的nn.Linear层，这里我们需要注意一点，全连接层的输入维度为4，输出维度为3，那么它的参数shape=[3,4],所以这是需要注意的一点，如果我们要是不使用pytorch中的Linear而是自己定义全连接层，那么我们就要这个设置参数，也就是说如果我们想要让输入层的维度为4，输出层的维度为3，那么我们就要设置自定义的全连接层的参数矩阵的时候shape应该是[3,4]，而不是[4,3]，下面我们不使用pytorch中封装好的Linear层来，来复现上面的模型。

import torch
import numpy as np
from torch import nn

class Simple_net(nn.Module):

def __init__(self,in_features,out_features):
super(Simple_net,self).__init__()
self.w=nn.Parameter(torch.randn(out_features,in_features))
self.b=nn.Parameter(torch.randn(out_features))

def forward(self,x):
x=x@self.w.t()+self.b
return x

net=Simple_net(4,3)
print(net.w.shape)#torch.Size([3, 4])
data=torch.randn(5,4)
out=net(data)
print(out.shape)#torch.Size([5, 3])

我们可以看到构建self.w的时候不是torch.randn(in_features,out_features)，而是torch.randn(out_features,in_features),这样表示该全连接层的输入维度为in_feature,然后输出维度为out_features

除此之外还要注意的一点是前向传播forward的计算方式

x的维度为[5，4],然后w的维度是[3,4],所以需要用x乘上w的转置（x@self.w.t()），这样输出就是[5,3]，我们可以看到forward中就是这样做的。

以上证明了什么

以上的代码证明了什么呢？主要想说的一点就是如果我们要是nn.Linear（）构建全连接层的时候，它就已经包含了参数w和b，已经进行初始化了，如果我们对这个初始化不满意怎么办？我们可以将满意的初始化参数赋值给它

每天五分钟玩转人工智能

一个人没有梦想和神经网络有什么区别？

最新文章

机器学习与深度学习的思维模式：异同点深度剖析

每天五分钟深度学习pytoch：卷积神经网络比全连接神经网络强在哪

为什么优化模型的损失函数就可以让神经网络的效果变好？

每天五分钟计算机视觉:神经网络风格迁移的代价函数

神经网络为何如此强大？

每天五分钟深度学习：神经网络的前向传播的计算（多样本）

支持向量机（SVM）求解过程涉及的多个步骤和数学原理

每天五分钟机器学习：函数间隔和几何间隔

卷积神经网络比于全连接神经网络强在哪？

每天五分钟深度学习pytorch：可视化神经网络训练损失函数图像

线性变换和非线性变化的区别，以及在机器学习领域中的应用

人工智能之数学基础：如何将线性变换转换为矩阵？

神经网络和支持向量机的基础——感知机模型

每天五分钟机器学习：平行和重合

损失函数与目标函数的区别和联系

简述机器学习和深度学习间的区别

每天五分钟深度学习PyTorch：搭建卷积神经网络完成手写字体识别

机器学习领域中的集成学习

机器学习模型的训练旅：从数据到智能

为什么神经网络必须要使用非线性激活函数？

每天五分钟深度学习：神经网络的前向传播的计算过程（单样本）

逻辑回归和softmax回归间的关系

每天五分钟深度学习框架pytorch：卷积神经网络的搭建

线性代数在人工智能领域中的实践

人工智能之数学基础：线性变换及其机器学习领域中的应用

人工智能之数学基础：线性变换的象空间和零空间

深度学习相比于深度学习算法的优势

PCA算法所体现的核心数学思维

在使用PCA算法进行数据压缩降维时，如何确定最佳维度？

每天五分钟机器学习：支持向量机数学基础之超平面分离定理

如何理解神经网络？

每天五分钟深度学习：神经网络模型的直观理解

为什么归一化对C4.5决策树没有效果

数学不好的人如何学习人工智能？

每天五分钟深度学习框架pytorch：神经网络模型的参数初始化操作

推荐一本人人都能看懂的人工智能数学基础书

学习人工智能需要掌握哪些技能？

正交变换及其在人工智能领域的应用

零基础如何学习人工智能？

人工智能之数学基础：正交矩阵

线性空间中的基与坐标系：深入理解与应用

每天分钟深度学习框架pytorch：批归一化全连接网络完成手写字体识别

BERT模型究竟解决了什么问题？

集成学习：三个臭皮匠抵一个诸葛亮

深度学习PyTorch极简入门：带有激活层的全连接神经网络识别数字

从数学角度理解支持向量机为什么被称为大间距分类器？

每天五分钟机器学习：支持向量机算法数学基础之核函数

多角度提升机器学习模型的泛化能力

矩阵：本质、作用及其与神经网络的关系

神经网络是如何找到最佳参数模型的？

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉