Pandas数据清洗+数据分析小例，实战带图版

文摘科技 2023-08-28 18:45 北京

ISEE小语

小时候想拯救世界,长大后发现要先拯救自己。

When I grew up,I realized that l had to save myself first.

——摘自：网络

回顾上篇

python中处理图像-调整尺寸、裁剪、旋转、添加滤镜和特效
ISEE小栈，公众号：ISEE小栈python中运用Pillow处理图像-调整尺寸、裁剪、旋转、添加滤镜和特效等，实践版

开始本篇

在用pandas做数据分析的时候，拿到的原始数据，会有些无效数据，为了更准确的进行数据分析和结果输出，我们通常需要先进行数据清洗，然后再进行后续的分析操作。

环境：

Pycharm

Python 3.9.16

安装：

pip install pandas==2.0.3

pip install matplotlib==3.7.1

pip install numpy==1.25.2

导入：

import pandas as pdimport matplotlib.pyplot as plt

（左右滑动查看完整代码）

设置全局字体：

# 设置全局字体plt.rcParams['font.family'] = 'Arial Unicode MS'

（左右滑动查看完整代码）

注：这个[设置全局字体]也需要补充到前篇，上次遗漏了

如果不设置全局字体的话，有可能在分析图上会出现乱码

首先，我们先准备分析的原数据data.csv，文章末尾附获取方式

读取CSV文件

通过pandas读取csv中的数据

df = pd.read_csv('data.csv')print(df)

（左右滑动查看完整代码）

结果：

原始数据559条

清洗数据

以上数据可以看到有些空值，还有重复的数据，那么就开始清洗吧

user_id列的数据

首先，我们先删除user_id重复的数据

使用drop_duplicates函数删除重复值

# 删除重复值，保留最后一项df.drop_duplicates(subset=['user_id'], inplace=True, keep='last')# 重新排序索引以使其连续df.reset_index(drop=True, inplace=True)print(df)

（左右滑动查看完整代码）

结果：

可以看出原来有559条数据，删除用户重复的数据，目前剩下531条数据

result列的数据

一、删除没有结果的值，即将result列为空的行删除

对整个DataFrame中的所有列进行检查并删除包含空值的行，可以使用df.dropna()

# 将result列为空的行删除df.dropna(subset=['result'], inplace=True)# 重新排序索引以使其连续df.reset_index(drop=True, inplace=True)print(df)

（左右滑动查看完整代码）

结果：

result列，已经没有显示NaN的数据了，目前剩下526条数据

二、将result列，float类型转为int类型

对于result只有两个值，1为拒绝，0为通过，改为整数，方便操作。

对整个DataFrame中的所有列进行类型转换，可以使用df.astype(int)

df['result'] = df['result'].astype(int)print(df)

（左右滑动查看完整代码）

结果：

result列，都显示为整数了

score列的数据

将score列的空值填充为数字0.00，定为默认值

用fillna函数实现空值的填充

df['score'].fillna(value=0.00, inplace=True)print(df)

（左右滑动查看完整代码）

结果：

score列，原来显示NaN的数据，都改为0.00

elapsed(ms)列的数据

一、将elapsed(ms)列的空值填充为数字1000.0，定为默认值

df['elapsed(ms)'].fillna(value=1000.0, inplace=True)print(df)

（左右滑动查看完整代码）

结果：

elapsed(ms)列，原来显示NaN的数据，都改为1000.0了

二、将elapsed(ms)列的毫秒，改为秒，并保留两位小数

将耗时换算成单位：秒，显示更加直接

df['elapsed(ms)'] = (df['elapsed(ms)'] / 1000).round(2)print(df)

（左右滑动查看完整代码）

结果：

elapsed(ms)列，单位秒，保留两位小数了

二、将列名elapsed(ms)修改为elapsed

df.rename(columns={'elapsed(ms)': 'elapsed'}, inplace=True)print(df)

（左右滑动查看完整代码）

结果：

原列名elapsed(ms)变为了elapsed

数据分析图

以上数据清洗完了，接下来根据实际需求，生成相应的分析图

统计结果生成饼状图

分别统计result通过和拒绝的数量，并以饼状图显示

# 统计数据results = dict()result_block = df['result'].value_counts(normalize=False)[1]results['result_block'] = result_blockresult_pass = df['result'].value_counts(normalize=False)[0]results['result_pass'] = result_pass# 生成饼状图df_results = pd.DataFrame.from_dict(results, orient='index', columns=['count'])plt.figure(figsize=(6, 6))df_results.plot.pie(y='count', autopct='%1.1f%%')plt.ylabel('')plt.title('结果分布比例')# 坐标轴plt.axis('equal')# 添加标签和图例plt.legend(['result_block:拒绝', 'result_pass:通过'], loc='best')plt.xlabel('2023年数据')plt.show()

（左右滑动查看完整代码）

结果：

统计分数线score数量

分别统计score大于0.5且result为0、score小于0.5且result为0和result为1拒绝的数据数量

count = dict()count_pass_up = df[(df['score'] > 0.5) & (df['result'] == 0)]['score'].shape[0]count_pass_down = df[(df['score'] <= 0.5) & (df['result'] == 0)]['score'].shape[0]count_block = df[df['result'] == 1]['score'].shape[0]count['0.5线上'] = count_pass_upcount['0.5线下'] = count_pass_downcount['拒绝'] = count_block# 创建DataFramedf_count = pd.DataFrame.from_dict(count, orient='index', columns=['Count'])# 设置柱子颜色colors = ['green', 'yellow', 'red']# 设置柱子宽度width = 0.4# 绘制柱状图ax = plt.bar(df_count.index, df_count['Count'], color=colors, width=width)# 添加数据标签for a in ax:    height = a.get_height()    plt.annotate(f'{height}', xy=(a.get_x() + a.get_width() / 2, height),                 xytext=(0, 3), textcoords='offset points',                 ha='center', va='bottom')# 设置标题和坐标轴标签plt.title('XXX分数线统计')plt.xlabel('指标')plt.ylabel('数量')# 设置图例handles = [plt.Rectangle((0, 0), 1, 1, color=color) for color in colors]plt.legend(handles, df_count.index, loc='best')# 显示图形plt.show()

（左右滑动查看完整代码）

结果：

统计耗时elapsed数据

分别统计elapsed在大于4秒、3-4秒之间、2-3秒之间，1-2秒之间，0-1秒之间，并且均为result为0的数据

elapsed = dict()elapsed_4 = len(df.query('elapsed >= 4 and result == 0'))elapsed_3_4 = len(df.query('elapsed >= 3 and elapsed < 4 and result == 0'))elapsed_2_3 = len(df.query('elapsed >= 2 and elapsed < 3 and result == 0'))elapsed_1_2 = len(df.query('elapsed >= 1 and elapsed < 2 and result == 0'))elapsed_0_1 = len(df.query('elapsed >= 0 and elapsed < 1 and result == 0'))elapsed['elapsed_0_1'] = elapsed_0_1elapsed['elapsed_1_2'] = elapsed_1_2elapsed['elapsed_2_3'] = elapsed_2_3elapsed['elapsed_3_4'] = elapsed_3_4elapsed['elapsed_4'] = elapsed_4# 创建DataFramedf_elapsed = pd.DataFrame.from_dict(elapsed, orient='index', columns=['Count'])# 设置柱子宽度width = 0.4fig, ax1 = plt.subplots()# 绘制柱状图ax = ax1.bar(df_elapsed.index, df_elapsed['Count'], color='blue', alpha=0.5, width=width)ax1.set_ylabel('Count')ax1.set_xlabel('Elapsed')# 添加数据标签for a in ax:    height = a.get_height()    plt.annotate(f'{height}', xy=(a.get_x() + a.get_width() / 2, height),                 xytext=(0, 3), textcoords='offset points',                 ha='center', va='bottom')# 绘制折线图ax2 = ax1.twinx()ax2.plot(df_elapsed.index, df_elapsed['Count'], color='red', marker='o', markersize=5)ax2.set_ylabel('Count')# 设置标题和坐标轴标签plt.title('XXX耗时量统计')plt.xlabel('指标')plt.ylabel('数量')# 显示图形plt.show()

（左右滑动查看完整代码）

结果：

总结

将以上分步归整：

--data.csv为测试数据

--data_analysis_tools.py为实际操作

有需求的朋友可自取哟

后台回复“pandas_analysis”即可获取~！

寄语：世间三美，明月，清风，眼前……

看到这儿的朋友帮点个“赞”和“在看”，谢谢支持~！

文章就分享到这儿，喜欢就点个赞吧!

推荐阅读点击标题可跳转

ISEE小栈

没有花里胡哨，简单才是王道。

最新文章

急！紧急！优化Python分析图片颜色至Excel报异常的问题

分享8种方式用来对比两个列表(list)的差异，并提取公共元素

介绍一款开源的工具XTestRunner，可输出惊艳的测试报告（附实例源码）

Python画流程图，从0到实践，完整版（附源码）

Python获取历史上的今天，每一天都是一本书(附源码)

从文字到视频：Python实现全程转换（附源码）

Python项目自动化及输出报告完整实例（附源码）

Python数据分析之匿名函数实例使用

Python在多线程环境中如何保护共享资源

Flask制作本地语言模型聊天室（附源码）

惊艳了，Python可以分析一张图片中包含有几种颜色？（附源码）

Python办公自动化超酷的三方库集锦

Python下载网易云音乐特色榜Top歌曲，完整版(附源码)

Django现代化的后台管理UI界面-simpleui高效使用(附源码)

Python实现Mysql查询字段缺失处理

Python自动生成头像图片

Python对yaml文件的增删改查操作

Python-字符串操作的七大实例，实用版

一篇文章学会Django-从无到有

Python将文本转为语音播放，并生成mp3音频文件(附源码)

Python爬虫豆瓣电影排行榜并保存至Excel中，完整版

Python制作日志监控工具（附源码）

Python列表(list)操作实例大全，让你的数据舞起来！

Python对MongoDB数据库的增、删、改、查操作，独立封装版

Python图像调整通用技巧，必备

Flask制作-奇葩玩转电子书

Python中4个超燃的文本设计三方库，必备！

Python制作个带对联的时间表-元旦快乐

Python下载神器爬虫某图网站的高清图片，详细新版

Pandas数据分析并生成图文一体的分析报告

Python对Sqlite数据库的增、删、改、查操作，独立封装版

Python中pywebview库使用并制作一个时间戳转换工具(附源码+exe)

Python中5个超实用的三方库，精简清晰版

Flask制作大屏显示-实时数据动态更新(附源码)

Python实现对MySql数据库创建和自动导入SQL文件-续篇

Python实现MySql数据库导出表结构和数据功能-实例

python中不常见却强大并好用的6个三方库，精简版

Python队列Queue的增删改查和多线程处理，简版

Python爬虫某阁网站的在线小说，详细新版

Pandas数据清洗+数据分析小例，实战带图版

python中运用Pillow处理图像-调整尺寸、裁剪、旋转、添加滤镜和特效等，实践版

Pandas数据分析，生成10种必备的可视化分析图，详细独立版

Pandas处理数据增、删、改、查，日常使用小结，清晰版

Flask+pyecharts+SQLAlchemy，统计图的数据存放在mysql中，综合版

Flask+pyecharts结合，html统计图呈现在前端页面-优化前端加导航栏显示

Flask+pyecharts结合，html统计图呈现在前端页面

python操作Redis增、删、改、查，独立版本

python制作发送各类内容的邮件，并设置定时自动触发，独立封装

python操作.ini文件增、删、改、查，二次独立封装

python巧妙使用数据库连接池PooledDB连接MySQL，操作性能比对

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉