matplotlib+pandas+jupyter-notebook
基于Python+matplotlib+pandas+jupyter-notebook的数据探索分析第一弹
数据分析
数据为天猫双十一女性美妆的数据集,围绕产品及其销量和评论撰写。数据具有7个特征,可以从多个维度解析文本。由于是真实的商业数据,所以做了匿名处理,数据集中对店名的引用被处理为产品的品牌名以保护店家隐私。
数据处理
首先,使用Pandas库加载CSV文件,使用Pandas提供的函数查看数据的前几行和数据结构信息,对要分析的总体数据进行概览。
查看数据
查看数据表的基本信息,快速了解数据表的基本结构,包括每列的数据类型、非空值计数以及内存使用情况。
统计店铺记录数
统计数据集中每个店铺的记录数量,查看每个店铺在数据集中出现的次数,从而了解不同化妆品品牌的销售数据量。
数据清洗
对数据进行清洗,处理重复数据并重置索引,确保数据的唯一性和索引的连续性。
处理缺失值
对数据集中的缺失值进行处理,检查数据集中是否存在缺失值,并进行相应的填充。
提取表格中有用信息并新增为列
对标题进行分词,给商品添加分类,比如:将“乳液”分为“护肤品-乳液类”,“眼霜”分为“护肤品-眼部护理”等。通过这一步骤,完成对美妆产品销售数据的清理和准备工作:从数据清洗、分类标签的添加、判断是否男士专用、销售额计算、日期处理到数据格式的保存,为后续的数据分析和建模提供了规整的数据结构和准备好的数据文件。
安装与使用
本项目在python3.8下通过测试,具体可以查看requirements中的环境要求,在这里出一个简单的项目使用教程,一般项目中的requirements.txt中包含了项目的python依赖环境,在安装好python的前提下只需要在cmd窗口中
pip install -r requirements.txt
有时候因为路径问题会提示requirements这个文件不存在,可以改为完整的路径,比如c:\requirements.txt,对于本项目只需要运行python manage.py runserver
,在pycharm的配置更为方便,可以不用每次都在终端输入命令使用。
获取方式
有需要的小伙伴可以通过后台联系方式获取,如果加不上可以后台留言留下联系方式,不经常看后台,但是看到了会回复的~,源码获取只收取很少的钱钱,除非是标记了For Free的。