什么是 ResNet?
梯度消失或爆炸:随着网络加深,反向传播中的梯度可能会消失或爆炸,导致模型难以训练。 退化问题:即使没有梯度问题,增加网络层数反而会导致训练误差增大,这意味着更深的网络并未有效学到更多的特征。
ResNet 的核心思想
表示残差,即网络需要学习的部分。F ( x , { W i } ) 是输入,跳跃连接将其直接传递到输出。x
如果额外的层对输出无贡献(即学习到的是恒等映射),网络可以轻松实现这一点,因为直接跳过了这部分计算。 避免了深层网络中梯度传递的困难。
残差模块结构
两个或三个卷积层(通常后接 Batch Normalization 和 ReLU 激活函数)。 一个跳跃连接(可能需要使用 1x1 卷积调整维度)。
ResNet 的网络架构
ResNet-18 和 ResNet-34:
使用基本的 2-layer 残差模块。 适合计算资源有限的场景。
使用瓶颈结构的 3-layer 残差模块(1x1 卷积用于降维和升维,中间是 3x3 卷积)。 更深的网络可以提取更高级别的特征。
输入:224x224 的图像 卷积层 + 最大池化:特征图缩小到 112x112 四个阶段(每个阶段包含多个残差块) 全局平均池化 + 全连接层
ResNet的优势
解决深度退化问题:
残差学习能够让网络更容易优化,随着层数加深也不会导致性能下降。
ResNet 能够在更深的网络中捕获多层次的特征信息。
ResNet 的模块化设计使其可以很方便地应用到不同任务中(如目标检测、语义分割)。
ResNet 的实现(PyTorch 示例)
import torchimport torch.nn as nnimport torch.nn.functional as F# 定义残差模块class ResidualBlock(nn.Module):def __init__(self, in_channels, out_channels, stride=1, downsample=None):super(ResidualBlock, self).__init__()self.conv1 = nn.Conv2d(in_channels, out_channels, kernel_size=3, stride=stride, padding=1, bias=False)self.bn1 = nn.BatchNorm2d(out_channels)self.conv2 = nn.Conv2d(out_channels, out_channels, kernel_size=3, stride=1, padding=1, bias=False)self.bn2 = nn.BatchNorm2d(out_channels)self.downsample = downsampledef forward(self, x): residual = xif self.downsample: residual = self.downsample(x) out = F.relu(self.bn1(self.conv1(x))) out = self.bn2(self.conv2(out)) out += residualreturn F.relu(out)# 定义 ResNet 主体class ResNet(nn.Module):def __init__(self, block, layers, num_classes=1000):super(ResNet, self).__init__()self.in_channels = 64self.conv = nn.Conv2d(3, 64, kernel_size=7, stride=2, padding=3, bias=False)self.bn = nn.BatchNorm2d(64)self.relu = nn.ReLU(inplace=True)self.maxpool = nn.MaxPool2d(kernel_size=3, stride=2, padding=1)self.layer1 = self._make_layer(block, 64, layers[0])self.layer2 = self._make_layer(block, 128, layers[1], stride=2)self.layer3 = self._make_layer(block, 256, layers[2], stride=2)self.layer4 = self._make_layer(block, 512, layers[3], stride=2)self.avgpool = nn.AdaptiveAvgPool2d((1, 1))self.fc = nn.Linear(512, num_classes)def _make_layer(self, block, out_channels, blocks, stride=1): downsample = Noneif stride != 1 or self.in_channels != out_channels: downsample = nn.Sequential( nn.Conv2d(self.in_channels, out_channels, kernel_size=1, stride=stride, bias=False), nn.BatchNorm2d(out_channels), ) layers = [block(self.in_channels, out_channels, stride, downsample)]self.in_channels = out_channelsfor _ in range(1, blocks): layers.append(block(out_channels, out_channels))return nn.Sequential(*layers)def forward(self, x): x = self.relu(self.bn(self.conv(x))) x = self.maxpool(x) x = self.layer1(x) x = self.layer2(x) x = self.layer3(x) x = self.layer4(x) x = self.avgpool(x) x = torch.flatten(x, 1) x = self.fc(x)return x# 创建 ResNet-18def ResNet18():return ResNet(ResidualBlock, [2, 2, 2, 2])# 测试model = ResNet18()print(model)