路面语义分割

科技 2024-11-15 10:05 中国香港

点击上方“小白学视觉”，选择加"星标"或“置顶”

重磅干货，第一时间送达

本期是关于路面语义分割方法的。因此，这里的重点是路面模式，例如：车辆行驶在哪种路面上或道路上是否有损坏，还有道路标记和减速带等等。

0.1 简介

有时我们需要确定路面是青沥路面、鹅卵石路面亦或是未铺砌的路面？出于对驾驶员的安全以及车内人员的舒适性的考虑我们需要提前知道路面情况。为了实现这些目标，将使用卷积神经网络（CNN）进行路面的语义分割。CNN体系结构是U-NET [4]，该体系结构旨在执行医学图像中的语义分割任务，但已成功应用于许多问题当中。另外，使用resnet34和resnet50完成此方法的实验。对于数据增强步骤，使用来自fastai库的标准选项，并进行了水平旋转和透视变形。

为了训练神经网络并测试和验证结果，使用来自RTK数据集中的701张图像创建了以下路况（GT）：

02. 实现步骤

第一步-初始设置

from fastai.vision import *from fastai.vision.interpret import *from fastai.callbacks.hooks import *from pathlib import Pathfrom fastai.utils.mem import *torch.backends.cudnn.benchmark=True

由于我们将使用Google驱动器中的数据集，因此需要对其进行挂载：

from google.colab import drivedrive.mount('/content/gdrive')

大家将看到类似下图的内容，单击链接，我们就获得授权码，因此只需将授权码复制并粘贴到期望的字段中即可。

现在，只需将我们的Google云端硬盘作为文件系统访问即可。接下来加载我们的数据。

第二步-准备数据

path = Path('gdrive/My Drive/Colab Notebooks/data/')path.ls()

其中“ image ”是包含原始图像的文件夹。“ labels ”是一个文件夹，其中包含我们将用于训练和验证的图像，这些图像是8位灰度图。在“ colorLabels ”中，有原始的彩色图像，可以将其用于视觉比较。“ valid.txt ”文件包含随机选择用于验证的图像名称列表。最后，“ codes.txt ”文件包含带有类名称的列表。

codes = np.loadtxt(path/'codes.txt', dtype=str); code

现在，我们定义原始图像和GT图像的路径，从而可以访问文件夹中的所有图像。

path_lbl = path/'labels'path_img = path/'images'fnames = get_image_files(path_img)fnames[:3]len(fnames)lbl_names = get_image_files(path_lbl)lbl_names[:3]len(lbl_names)img_f = fnames[139]img = open_image(img_f)img.show(figsize=(5,5))

我们可以看到一个示例，数据集中的图像139。

接下来，我们使用一个函数来从原始图像中推断文件名，该文件名负责每个像素的颜色编码。

get_y_fn = lambda x: path_lbl/f'{x.stem}{x.suffix}'
mask = open_mask(get_y_fn(img_f))mask.show(figsize=(5,5), alpha=1)
src_size = np.array(mask.shape[1:])src_size,mask.data

第三步 —无权重检测

现在我们进入第3步。让我们创建一个DataBunch，使用数据块API训练我们的第一个模型。定义图像来源，将用于验证的图像与原始图像建立对应关系。对于数据扩充，fastai库提供了很多选项，但是在这里，我们将仅使用带有的默认选项get_transforms()，该选项由随机的水平旋转和透视变形组成。在transform调用时我们要令tfm_y=True，以确保每个蒙版及其原始图像的数据集中数据扩充的转换都相同。想象一下，如果我们旋转原始图像，但是与该图像相对应的蒙版没有旋转，那将是多么混乱！

size = src_sizefree = gpu_mem_get_free_no_cache()# the max size of bs depends on the available GPU RAMif free > 8200: bs=8else:           bs=4print(f"using bs={bs}, have {free}MB of GPU RAM free")src = (SegmentationItemList.from_folder(path_img)       .split_by_fname_file('../valid.txt')       .label_from_func(get_y_fn, classes=codes))      data = (src.transform(get_transforms(), size=size, tfm_y=True)        .databunch(bs=bs)        .normalize(imagenet_stats))

使用lesson3-camvid定义准确度度量和权衰减。我们使用resnet34模型，定义学习率lr_find(learn)为1e-4。

name2id = {v:k for k,v in enumerate(codes)}def acc_rtk(input, target):    target = target.squeeze(1)    mask = target != 0    return (input.argmax(dim=1)[mask]==target[mask]).float().mean()    metrics=acc_rtkwd=1e-2learn = unet_learner(data, models.resnet34, metrics=metrics, wd=wd)lr_find(learn)learn.recorder.plot()

接下来，我们运行fit_one_cycle()10次以检查模型的运行情况。

lr=1e-4learn.fit_one_cycle(10, slice(lr), pct_start=0.9)

interp = SegmentationInterpretation.from_learner(learn)top_losses, top_idxs = interp.top_losses((288,352))mean_cm, single_img_cm = interp._generate_confusion()df = interp._plot_intersect_cm(mean_cm, "Mean of Ratio of Intersection given True Label")

别忘了保存我们到目前为止训练的模型。

learn.save('stage-1')

slice关键字用于获取起始值和终止值，在第一层以起始值开始训练，并且在到达终止值时结束。

learn.unfreeze()lrs = slice(lr/400,lr/4)learn.fit_one_cycle(100, lrs, pct_start=0.9)learn.save('stage-2')

这是我们的第一个没有权重的模型，该模型在路面上可以正常使用，但并不普适。

第四步-带有权重的模型

我们还要继续使用第一个模型。这部分与第3步几乎完全相同，因为数据绑定，我们只需要记住加载先前的模型即可。

learn.load('stage-2')

在我们开始培训过程之前，我们需要加权重。我定义了这些权重，以便尝试与每个类在数据集中出现的数量（像素数）成正比。

balanced_loss = CrossEntropyFlat(axis=1, weight=torch.tensor([1.0,5.0,6.0,7.0,75.0,1000.0,3100.0,3300.0,0.0,270.0,2200.0,1000.0,180.0]).cuda())learn = unet_learner(data, models.resnet34, metrics=metrics, loss_func=balanced_loss, wd=wd)

其余部分与前面介绍的第三步完全一样。得到的结果有什么变化。

现在，对于所有类来说，我们似乎都有一个更合理的结果。记住要保存！

learn.save('stage-2-weights')

结果

最后，让我们看看我们的图像。首先，最好保存我们的结果或测试图像。

img_f = fnames[655]img = open_image(img_f)img.show(figsize=(5,5))prediction = learn.predict(img)prediction[0].show(figsize=(5,5))results_save = 'results'path_rst = path/results_savepath_rst.mkdir(exist_ok=True)def save_preds(names):i=0    #names = dl.dataset.itemsfor b in names:img_s = fnames[i]img_toSave = open_image(img_s)img_split = f'{img_s}'img_split = img_split[44:]predictionSave = learn.predict(img_toSave)predictionSave[0].save(path_rst/img_split) #Save Imagei += 1print(i)save_preds(fnames)

可是等等！图像全部看起来都是黑色的，我们的结果在哪里？？？冷静一下，这些就是结果，只是没有颜色图，如果在整个屏幕上以高亮度打开这些图像之一，则可以看到小的变化，即“十一色灰色”。因此，让我们对结果进行上色以使其更具表现力吗？现在，我们将使用OpenCV并创建一个新文件夹来保存彩色结果。

import osimport globimport base64import cv2 as cv
colored_results = 'results_color'path_crst = path/colored_resultspath_crst.mkdir(exist_ok=True)

因此，我们创建了一个函数来识别每个变化并为每个像素着色。

def colorfull(image):# grab the image dimensions#height = image.shape[0]#width = image.shape[1]  width = 288  height = 352# loop over the image, pixel by pixelfor x in range(width):for y in range(height):        b, g, r = frame[x, y]if (b, g, r) == (0,0,0): #background            frame[x, y] = (0,0,0)elif (b, g, r) == (1,1,1): #roadAsphalt            frame[x, y] = (85,85,255)elif (b, g, r) == (2,2,2): #roadPaved            frame[x, y] = (85,170,127)elif (b, g, r) == (3,3,3): #roadUnpaved            frame[x, y] = (255,170,127) elif (b, g, r) == (4,4,4): #roadMarking            frame[x, y] = (255,255,255) elif (b, g, r) == (5,5,5): #speedBump            frame[x, y] = (255,85,255)elif (b, g, r) == (6,6,6): #catsEye            frame[x, y] = (255,255,127)          elif (b, g, r) == (7,7,7): #stormDrain            frame[x, y] = (170,0,127) elif (b, g, r) == (8,8,8): #manholeCover            frame[x, y] = (0,255,255) elif (b, g, r) == (9,9,9): #patchs            frame[x, y] = (0,0,127) elif (b, g, r) == (10,10,10): #waterPuddle            frame[x, y] = (170,0,0)elif (b, g, r) == (11,11,11): #pothole            frame[x, y] = (255,0,0)elif (b, g, r) == (12,12,12): #cracks            frame[x, y] = (255,85,0)# return the colored imagereturn image

接下来，我们读取每个图像，调用函数并保存最终结果。

fqtd = 0filenames = [img for img in glob.glob(str(path_rst/"*.png"))]filenames.sort()for img in filenames:  frame = cv.imread(img)  frame =  colorfull(frame)  frame = cv.cvtColor(frame,cv.COLOR_BGR2RGB)  name = "%09d.png"%fqtd  cv.imwrite(os.path.join(path_crst, name), frame)  fqtd += 1print(fqtd)print("Done!")

使用以下过程，%timeit我们可以达到以下目的，因此此过程可能会花费不必要的时间：

03. 总结

在很多情况下，识别路面状况都很重要，基于此车辆或驾驶员可以做出调整，使驾驶变的更加安全，舒适和高效。这在可能存在更多道路维护问题或相当数量的未铺设道路的发展中国家中尤其重要。对于处理路面变化的环境，对于高速公路分析和养护部门也很有用，以便使他们在评估道路质量和确定需要维护的地方的工作自动化。

下载1：OpenCV-Contrib扩展模块中文版教程
在「小白学视觉」公众号后台回复：扩展模块中文教程，即可下载全网第一份OpenCV扩展模块教程中文版，涵盖扩展模块安装、SFM算法、立体视觉、目标跟踪、生物视觉、超分辨率处理等二十多章内容。

下载2：Python视觉实战项目52讲
在「小白学视觉」公众号后台回复：Python视觉实战项目，即可下载包括图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别等31个视觉实战项目，助力快速学校计算机视觉。

下载3：OpenCV实战项目20讲
在「小白学视觉」公众号后台回复：OpenCV实战项目20讲，即可下载含有20个基于OpenCV实现20个实战项目，实现OpenCV学习进阶。

交流群

欢迎加入公众号读者群一起和同行交流，目前有SLAM、三维视觉、传感器、自动驾驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群（以后会逐渐细分），请扫描下面微信号加群，备注：”昵称+学校/公司+研究方向“，例如：”张三 + 上海交大 + 视觉SLAM“。请按照格式备注，否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告，否则会请出群，谢谢理解~

http://mp.weixin.qq.com/s?__biz=MzU0NjgzMDIxMQ==&mid=2247626446&idx=4&sn=62b55f5692594a85826ff2943958b54a

小白学视觉

哈工大在读博士的公众号，《OpenCV 4快速入门》的作者，面向初学者介绍计算机视觉基础知识、OpenCV使用、SLAM技术，深度学习等内容。

最新文章

招生信息 | 香港科技大学（广州）丁宁宁教授实验室博士招生

十个python图像处理工具

实践教程｜扩散模型代码复现

使用PyTorch进行知识蒸馏的代码示例

中文版的TPAMI，你听说过么！

招生信息 | 新泽西理工学院计算学院信息学系Dr. Chenxi Yuan 招募博士

如何消除摄影中的运动模糊?

漂亮，LSTM模型结构的可视化

目标检测和感受野的总结和想法

目标检测中的框位置优化总结

如何看待神经网络的黑箱？

如何使用深度学习进行缺陷检测

深度学习的图原理

饶毅：中国存在大量粗制滥造研究生的问题，很多博士不合格

路面语义分割

招生信息 | Emory大学计算机科学系Dr. Guo Zhichun实验室博士生招生

深度学习中的Normalization你懂了多少？

神经网络与傅立叶变换到底有没有关系？

从零开始构建DINO模型与PyTorch：自监督视觉transformer

涨点神器！100个即插即用缝合模块【合集下载】

深度学习最常用的10个激活函数！（数学原理+优缺点）

招生信息 | 香港城市大学计算机科学系Dr. Luo Yuhan诚邀加入BiWell实验室

实操教程｜PyTorch实现断点继续训练

又一本开源免费的大模型书来了，449页pdf！

有哪些东西是你读博士以后才懂的？

图像处理常用算法(基础)

少样本学习综述：技术、算法和模型

学术 | 热议：寒门硕士要不要继续读博士？

怎么才能优雅地向博士导师表达「这周科研没什么进展」？

医学影像相关开源数据集资源汇总

顶刊解读 TRGS | 位置-时间感知Transformer用于遥感变化检测

去他的顶会顶刊！我就想发个论文毕个业！

五年之内，博士会像今天的硕士一样井喷吗？

Gemini 可以进行目标检测了！

形象理解二维傅里叶变换

Halcon和Opencv 的区别

PyTorch常用代码段合集

cuda编程：我的第一份cuda代码

系统性总结了 Numpy 所有关键知识点！

图像特征提取与匹配技术

EMF-former：一种用于医学图像分割的高效且内存友好的Transformer

一位上海交大教授的深度学习五年研究总结

软包装锂离子电池的表面凸点缺陷检测

长远看算法岗真的比开发岗香吗？

GASA-UNet：用于医学图像分割的全局轴向自注意力U-Net

招生信息 | 香港大学杜泓阳教授团队博士招生

Python特征重要性分析的9个常用方法

245个目标检测开源项目合集，建议收藏！

用Windows电脑训练深度学习模型？超详细配置教程来了

为什么建议大家使用 Linux 开发？真的很很很优雅！

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉