PyTorch可复现/重复实验的相关设置

科技 2024-10-25 10:05 中国香港

点击上方“小白学视觉”，选择加"星标"或“置顶”

重磅干货，第一时间送达

作者丨Alxander@知乎（已授权）

来源丨https://zhuanlan.zhihu.com/p/448284000

编辑丨极市平台

极市导读

深度学习在训练过程中，由于随机初始化，样本读取的随机性，导致重复的实验结果会有差别，个别情况甚至波动较大。一般论文为了严谨，实验结论能够复现/可重复，通常采取固定随机种子使得结果确定。本文总结了一些去定型设置的方法，附详细代码。

确定性设置

1 随机种子设置

随机函数是最大的不确定性来源，包含了模型参数的随机初始化，样本的shuffle。

PyTorch 随机种子
python 随机种子
numpy 随机种子

# PyTorch
import torch
torch.manual_seed(0)

# python
import random
random.seed(0)

# Third part libraries
import numpy as np
np.random.seed(0)

CPU版本下，上述随机种子设置完成之后，基本就可实现实验的可复现了。

对于GPU版本，存在大量算法实现为不确定结果的算法，这种算法实现效率很高，但是每次返回的值会不完全一样。主要是由于浮点精度舍弃，不同浮点数以不同顺序相加，值可能会有很小的差异（小数点最末位）。

2 GPU算法确定性实现

GPU算法的不确定来源有两个

CUDA convolution benchmarking
nondeterministic algorithms

CUDA convolution benchmarking 是为了提升运行效率，对模型参数试运行后，选取最优实现。不同硬件以及benchmarking本身存在噪音，导致不确定性

nondeterministic algorithms：GPU最大优势就是并行计算，如果能够忽略顺序，就避免了同步要求，能够大大提升运行效率，所以很多算法都有非确定性结果的算法实现。通过设置use_deterministic_algorithms，就可以使得pytorch选择确定性算法。

# 不需要benchmarking
torch.backends.cudnn.benchmark=False

# 选择确定性算法
torch.use_deterministic_algorithms()

RUNTIME ERROR

对于一个PyTorch 的函数接口，没有确定性算法实现，只有非确定性算法实现，同时设置了use_deterministic_algorithms()，那么会导致运行时错误。比如：

>>> import torch
>>> torch.use_deterministic_algorithms(True)
>>> torch.randn(2, 2).cuda().index_add_(0, torch.tensor([0, 1]), torch.randn(2, 2))
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
RuntimeError: index_add_cuda_ does not have a deterministic implementation, but you set
'torch.use_deterministic_algorithms(True)'. ...

错误原因：

index_add没有确定性的实现，出现这种错误，一般都是因为调用了torch.index_select 这个api接口，或者直接调用tensor.index_add_。

解决方案：

自己定义一个确定性的实现，替换调用的接口。对于torch.index_select 这个接口，可以有如下的实现。

def deterministic_index_select(input_tensor, dim, indices):
    """
    input_tensor: Tensor
    dim: dim 
    indices: 1D tensor
    """
    tensor_transpose = torch.transpose(x, 0, dim)
    return tensor_transpose[indices].transpose(dim, 0)

样本读取随机

多线程情况下，设置每个线程读取的随机种子
设置样本generator

# 设置每个读取线程的随机种子
def seed_worker(worker_id):
    worker_seed = torch.initial_seed() % 2**32
    numpy.random.seed(worker_seed)
    random.seed(worker_seed)

g = torch.Generator()
# 设置样本shuffle随机种子，作为DataLoader的参数
g.manual_seed(0)

DataLoader(
    train_dataset,
    batch_size=batch_size,
    num_workers=num_workers,
    worker_init_fn=seed_worker,
    generator=g,
)

参考文献

Reproducibility - PyTorch 1.10.1 documentation

torch.index_select - PyTorch 1.10.1 documentation

下载1：OpenCV-Contrib扩展模块中文版教程

在「小白学视觉」公众号后台回复：扩展模块中文教程，即可下载全网第一份OpenCV扩展模块教程中文版，涵盖扩展模块安装、SFM算法、立体视觉、目标跟踪、生物视觉、超分辨率处理等二十多章内容。

下载2：Python视觉实战项目52讲

在「小白学视觉」公众号后台回复：Python视觉实战项目，即可下载包括图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别等31个视觉实战项目，助力快速学校计算机视觉。

下载3：OpenCV实战项目20讲

在「小白学视觉」公众号后台回复：OpenCV实战项目20讲，即可下载含有20个基于OpenCV实现20个实战项目，实现OpenCV学习进阶。

交流群

欢迎加入公众号读者群一起和同行交流，目前有SLAM、三维视觉、传感器、自动驾驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群（以后会逐渐细分），请扫描下面微信号加群，备注：”昵称+学校/公司+研究方向“，例如：”张三 + 上海交大 + 视觉SLAM“。请按照格式备注，否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告，否则会请出群，谢谢理解~

http://mp.weixin.qq.com/s?__biz=MzU0NjgzMDIxMQ==&mid=2247625511&idx=4&sn=62f7ab6591e011b361e8918a79e6fa1d

小白学视觉

哈工大在读博士的公众号，《OpenCV 4快速入门》的作者，面向初学者介绍计算机视觉基础知识、OpenCV使用、SLAM技术，深度学习等内容。

最新文章

招生信息 | 厦门大学人工智能研究院计算机视觉方向博士招生

Python中进行特征重要性分析的9个常用方法

6 年半亏掉 528 亿的某汤，用裁员开启下一个十年。

算法工程师大致是做什么的？

labelGo：基于 YOLOv5 的辅助标注工具

作为审稿人，你什么情况下会选择拒稿？

用不需要手工标注分割的训练数据来进行图像分割

轰动视觉领域｜ChatGPT完成论文写作、科研应用，数据处理，太方便了…

YOLO 系列目标检测大合集

最全深度学习训练过程可视化工具（附github源码）

ResNet到底在解决一个什么问题呢？

最后机会！2024年剩余EI检索学术会议时间表大揭秘！

【魔改UNet系列】ID-UNet: 一种用于红外小目标分割的密集连接UNet架构

ResNet是否只是一个深度学习的trick？

Python图像处理:频域滤波降噪和图像增强

一文读懂模型的可解释性（附代码）

YOLOv11 架构改进 & 常见指令

顶刊解读 | 基于自适应四阶偏微分方程的遥感图像超分辨率重建

AI，正在疯狂污染中文互联网

【魔改UNet系列】Mamba-UNet: 医学图像分割的UNet类纯视觉Mamba

CNN 的一些可视化方法！

遥感顶刊 TRGS'24 | AODet: 基于 Transformers 的前景区域航空目标检测

Linux常用命令大全 | 176个

【魔改UNet系列】LightM-UNet：Mamba与UNet结合实现轻量级图像分割

顶刊解读 TGRS | 用于半监督旋转目标检测的伪孪生教师模型

OpenCV 也可以检测、跟踪移动物体

医学图像数据读取及预处理方法总结

传统图像处理还有前景么？

Pytorch里面多任务Loss是加起来还是分别backward？

Python并行编程？

一种基于计算机视觉和深度学习的番茄外部缺陷检测方法

PyCharm vs VSCode，是时候改变你的 IDE 了！

C++ OpenCV实现图像去阴影

这17 种方法让 PyTorch 训练速度更快！

导师：自己每天科研工作近10小时，都觉得不够。研究生们，每天工作不够5小时，拿什么去竞争？

CNN是不是一种局部self-attention？

一份微调YOLOv11的小指南

Transformer小目标检测

PyTorch可复现/重复实验的相关设置

245个目标检测开源项目合集，建议收藏！

【魔改YOLO系列】YOLO-SLD: 在YOLO中引入注意力机制，实现精准车牌检测

论文解读 | EATFormer：受进化算法启发改进视觉Transformer

直线检测算法汇总

一个小改动，CNN输入固定尺寸图像改为任意尺寸图像

医图顶会 MICCAI'24 | LKM-UNet: 用于医学图像分割的大内核视觉Mamba UNet

总结 | 半监督目标检测

Numpy中数组和矩阵操作的数学函数

完爆YOLO家族？新一代目标检测器又有新突破！

顶刊MIA'24 | 用于图像分割的双坐标交叉注意力Transformer

无需标注海量数据，目标检测新范式OVD让多模态AGI又前进一步

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉