卷积神经网络|猫狗分类系列--导入kaggle猫狗数据集

文摘科技 2023-04-08 16:32 河南

解决任何真实问题的重要一步是获取数据，Kaggle提供了大量不同数据科学问题的竞赛。

我们将从

https://www.kaggle.com/competitions/dogs-vs-cats/data

下载猫狗数据集，并对其进行一定的操作，以正确的导入到我们的计算机，为接下来的模型训练做准备。

数据集（带有标号的）包含25000张图片，猫狗各一半，图片格式如下：

类别.序号.jpg，比如

cat.1.jpg，cat.2.jpg,cat.3.jpg,....cat.12449.jpg
dog.1.jpg,dog.2.jpg,dog.3.jpg,.....dog.12499.jpg

共计25000张。

直接将其导入计算机显然是不行的，我们必须对图片名进行处理，接着构建自己的Dataset类。

首先对图片名进行处理：

import ospath="E:\\3-10\\source\\train\\"filenames=[name for name in os.listdir(path)]j=0k=0catList=[]dogList=[]for i,filename in enumerate(filenames):    src=path+filename    namelist=filename.split('.')    if namelist[0]=='cat':        j=j+1        dst=namelist[0]+str(j)+'.0'+'.'+namelist[2] #猫标签设置为0        catList.append(dst)#获得cat的图片名集合    else:        k=k+1        dst=namelist[0]+str(k)+'.1'+'.'+namelist[2] #狗标签设置为1        dogList.append(dst)#获得dog的图片名集合    dst=path+dst    os.rename(src,dst)

注：path为下载的数据集图片的路径

在这步操作后，cat和dog的图片名则变为了下列格式：

cat1.0.jpg,
cat2.0,jpg
cat3.0.jpg
....
cat12500.0.jpg
dog1.1.jpg,
dog2.1.jpg
....
dog12500.1.jpg

需要强调的是这里的cat1，dog1...，jpg格式仅仅是一个习惯，没有太多的含义，真正重要的是0，1，...,这是个标签，指明了这张图片的类别,并在构建Dataset类时发挥作用。0代表cat,而1代表dog。

同时，catList和dogList还分别存储了猫和狗的图片路径名程，就像这样。

['cat1.0.jpg', 'cat2.0.jpg', 'cat3.0.jpg', 'cat4.0.jpg', 'cat5.0.jpg'...]
['dog1.1.jpg', 'dog2.1.jpg', 'dog3.1.jpg', 'dog4.1.jpg', 'dog5.1.jpg'...]

之所以这样处理，是因为为了易于划分训练集和测试集。

接着，实现自己的Dataset类

import torch import os from torch.utils.data import Dataset from torchvision import transforms from PIL import Image import numpy as np 
class MyDataset(Dataset):     def __init__(self,path_file,namelists,transform=None):         self.path_file=path_file        self.imgs=namelists         self.transform=transform     def __len__(self):         return len(self.imgs)     def __getitem__(self, idx):         #get the image         img_path = os.path.join(self.path_file,self.imgs[idx])        image=Image.open(img_path)         image=image.resize((28,28))#修改图片大小，默认大小         if self.transform:             image = self.transform(image)         #get the label
        str1=self.imgs[idx].split('.')         label=eval(str1[1])         return image, label

train_data=MyDataset(path,catList[0:10000]+dogList[0:10000],transform=transforms.Compose([transforms.ToTensor(),                                                                                     transforms.Resize((224,224))]) ) test_data=MyDataset(path,catList[10000:12500]+dogList[10000:12500],transform=transforms.Compose([transforms.ToTensor(),                                                                                            transforms.Resize((224,224))]) )

训练集和测试集按8：2的比例划分。

导入DataLoader:

train_loader=torch.utils.data.DataLoader(train_data, batch_size=32, shuffle=True) test_loader=torch.utils.data.DataLoader(test_data, batch_size=32, shuffle=True)

测试：

#测试len(train_data)20000
len(test_data)5000
imgs,labels=next(iter(train_loader))
imgs.size()torch.Size([32, 3, 224, 224])
labels.size()torch.Size([32])
labelstensor([0, 1, 1, 0, 0, 1, 0, 1, 1, 0, 0, 0, 1, 0, 1, 0, 1, 0, 1, 1, 1, 1, 0, 1,        1, 0, 0, 0, 0, 1, 0, 0])

math and code

计算机专业研究生在读，拥有深厚的计算机科学和数学背景，对编程、算法、数据结构、深度学习等领域都有着深入的了解和实践经验。对编程语言的掌握熟练而全面，无论是主流的Python、Java，还是强大的C++、Go，都能轻松驾驭。

最新文章

NLP介绍

卷积神经网络|制作自己的Dataset

一个简单的车辆计数程序，amazing！

简单实现一个目标检测项目！amazing!

还在焦虑学习资源吗？看看这些吧！

使用python将蓝底证件照变为红底。

python这10个编程技巧，你需要知道

python这15个编程技巧，你需要知道

自学编程推荐的10个学习及刷题网站

python这些细节知识点，你需要知道

快速提高编程能力--python之编程易错点深究2

GitHub|一些计算机相关的开源电子书

卷积神经网络|猫狗分类系列--使用预训练模型构建新模型

快速提高编程能力--python之编程易错点深究1

卷积神经网络|猫狗分类系列--构建自己的模型

python读取文件路径,上一级文件路径，上上一级文件路径的方法！

工具推荐——CloudConvert

计算机视觉——停车位(可用)自动计数！

Python技巧|Python中浅拷贝，深拷贝的区别

Python技巧|二

卷积神经网络|猫狗分类系列--导入kaggle猫狗数据集

Segment Anything Model--一个来自Meta的新的AI模型

卷积神经网络|迁移学习-猫狗分类完整代码实现

PyTorch|保存与加载自己的模型

卷积神经网络|合集系列

一文读懂交叉熵损失函数

构建神经网络模型--使用Jupyter Notebook

如何安装PyTorch?—— 一种最简单有效的方法！

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉