20个案例详解Pandas的数据统计与排序

科技 2024-09-04 13:31 江苏

今天来给大家讲一下Pandas模块当中的数据统计与排序，说到具体的就是value_counts()方法以及sort_values()方法。

value_counts()方法，顾名思义，主要是用于计算各个类别出现的次数的，而sort_values()方法则是对数值来进行排序，当然除了这些，还有很多大家不知道的衍生的功能等待被挖掘，下面小编就带大家一个一个的说过去。

导入模块并且读取数据库

我们这次用到的数据集是“非常有名”的泰坦尼克号的数据集，该数据源能够在很多平台上都能够找得到

import pandas as pd
df = pd.read_csv("titanic_train.csv")
df.head()

output

常规的用法

首先我们来看一下常规的用法，代码如下

df['Embarked'].value_counts()

output

S    644
C    168
Q     77
Name: Embarked, dtype: int64

下面我们简单来介绍一下value_counts()方法当中的参数，

DataFrame.value_counts(subset=None,
                       normalize=False,
                       sort=True,
                       ascending=False,
                       dropna=True)

常用到参数的具体解释为：

subset: 表示根据什么字段或者索引来进行统计分析
normalize: 返回的是比例而不是频次
ascending: 降序还是升序来排
dropna: 是否需要包含有空值的行

对数值进行排序

上面返回的结果是按照从大到小来进行排序的，当然我们也可以反过来，从小到大来进行排序，代码如下

df['Embarked'].value_counts(ascending=True)

output

Q     77
C    168
S    644
Name: Embarked, dtype: int64

对索引的字母进行排序

同时我们也可以对索引，按照字母表的顺序来进行排序，代码如下

df['Embarked'].value_counts(ascending=True).sort_index(ascending=True)

output

C    168
Q     77
S    644
Name: Embarked, dtype: int64

当中的ascending=True指的是升序排序

包含对空值的统计

默认的是value_counts()方法不会对空值进行统计，那要是我们也希望对空值进行统计的话，就可以加上dropna参数，代码如下

df['Embarked'].value_counts(dropna=False)

output

S      644
C      168
Q       77
NaN      2
Name: Embarked, dtype: int64

百分比式的数据统计

我们可以将数值的统计转化成百分比式的统计，可以更加直观地看到每一个类别的占比，代码如下

df['Embarked'].value_counts(normalize=True)

output

S    0.724409
C    0.188976
Q    0.086614
Name: Embarked, dtype: float64

要是我们希望对能够在后面加上一个百分比的符号，则需要在Pandas中加以设置，对数据的展示加以设置，代码如下

pd.set_option('display.float_format', '{:.2%}'.format)
df['Embarked'].value_counts(normalize = True)

output

S   72.44%
C   18.90%
Q    8.66%
Name: Embarked, dtype: float64

当然除此之外，我们还可以这么来做，代码如下

df['Embarked'].value_counts(normalize = True).to_frame().style.format('{:.2%}')

output

  Embarked
S 72.44%
C 18.90%
Q 8.66%

连续型数据分箱

和Pandas模块当中的cut()方法相类似的在于，我们这里也可以将连续型数据进行分箱然后再来统计，代码如下

df['Fare'].value_counts(bins=3)

output

(-0.513, 170.776]     871
(170.776, 341.553]     17
(341.553, 512.329]      3
Name: Fare, dtype: int64

我们将Fare这一列同等份的分成3组然后再来进行统计，当然我们也可以自定义每一个分组的上限与下限，代码如下

df['Fare'].value_counts(bins=[-1, 20, 100, 550])

output

(-1.001, 20.0]    515
(20.0, 100.0]     323
(100.0, 550.0]     53
Name: Fare, dtype: int64

分组再统计

pandas模块当中的groupby()方法允许对数据集进行分组，它也可以和value_counts()方法联用更好地来进行统计分析，代码如下

df.groupby('Embarked')['Sex'].value_counts()

output

Embarked  Sex   
C         male       95
          female     73
Q         male       41
          female     36
S         male      441
          female    203
Name: Sex, dtype: int64

上面的代码是针对“Embarked”这一类别下的“Sex”特征进行分组，然后再进一步进行数据的统计分析，当然出来的结果是Series数据结构，要是我们想让Series的数据结果编程DataFrame数据结构，可以这么来做，

df.groupby('Embarked')['Sex'].value_counts().to_frame()

数据集的排序

下面我们来谈一下数据的排序，主要用到的是sort_values()方法，例如我们根据“年龄”这一列来进行排序，排序的方式为降序排，代码如下

df.sort_values("Age", ascending = False).head(10)

output

对行索引重新排序

我们看到排序过之后的DataFrame数据集行索引依然没有变，我们希望行索引依然可以是从0开始依次的递增，就可以这么来做，代码如下

df.sort_values("Age", ascending = False, ignore_index = True).head(10)

output

下面我们简单来介绍一下sort_values()方法当中的参数

DataFrame.sort_values(by, 
               axis=0, 
               ascending=True, 
               inplace=False, 
               kind='quicksort', 
               na_position='last', # last，first；默认是last
               ignore_index=False, 
               key=None)

常用到参数的具体解释为：

by: 表示根据什么字段或者索引来进行排序，可以是一个或者是多个
axis: 是水平方向排序还是垂直方向排序，默认是垂直方向
ascending: 排序方式，是升序还是降序来排
inplace: 是生成新的DataFrame还是在原有的基础上进行修改
kind: 所用到的排序的算法，有快排quicksort或者是归并排序mergesort、堆排序heapsort等等
ignore_index: 是否对行索引进行重新的排序

对多个字段的排序

我们还可以对多个字段进行排序，代码如下

df.sort_values(["Age", "Fare"], ascending = False).head(10)

output

同时我们也可以对不同的字段指定不同的排序方式，如下

df.sort_values(["Age", "Fare"], ascending = [False, True]).head(10)

output

我们可以看到在“Age”一样的情况下，“Fare”字段是按照升序的顺序来排的

自定义排序

我们可以自定义一个函数方法，然后运用在sort_values()方法当中，让其按照自己写的方法来排序，我们看如下的这组数据

df = pd.DataFrame({
    'product': ['keyboard', 'mouse', 'desk', 'monitor', 'chair'],
    'category': ['C', 'C', 'O', 'C', 'O'],
    'year': [2002, 2002, 2005, 2001, 2003],
    'cost': ['$52', '$24', '$250', '$500', '$150'],
    'promotion_time': ['20hr', '30hr', '20hr', '20hr', '2hr'],
})

output

当中的“cost”这一列带有美元符号“$”，因此就会干扰排序的正常进行，我们使用lambda方法自定义一个函数方法运用在sort_value()当中

df.sort_values(
    'cost', 
    key=lambda val: val.str.replace('$', '').astype('float64')
)

output

当然我们还可以自定义一个更加复杂一点的函数，并且运用在sort_values()方法当中，代码如下

def sort_by_cost_time(x):
    if x.name == 'cost':
        return x.str.replace('$', '').astype('float64')
    elif x.name == 'promotion_time':
        return x.str.replace('hr', '').astype('int')
    else:
        return x
        
df.sort_values(
   ['year', 'promotion_time', 'cost'], 
   key=sort_by_cost_time
)

output

还有另外一种情况，例如我们遇到衣服的尺码，XS码、S码、M码、L码又或者是月份，Jan、Feb、Mar、Apr等等，需要我们自己去定义大小，这个时候我们需要用到的是CategoricalDtype

cat_size_order = CategoricalDtype(
    ['XS', 'S', 'M', 'L', 'XL'], 
    ordered=True
)
cat_size_order

output

CategoricalDtype(categories=['XS', 'S', 'M', 'L', 'XL'], ordered=True)

于是针对下面的数据

df = pd.DataFrame({
    'cloth_id': [1001, 1002, 1003, 1004, 1005, 1006],
    'size': ['S', 'XL', 'M', 'XS', 'L', 'S'],
})

output

我们将事先定义好的顺序应用到该数据集当中，代码如下

df['size'] = df['size'].astype(cat_size_order)
df.sort_values('size')

output

先通过astype()来转换数据类型，然后再进行排序。

Crossin的新书《码上行动：用ChatGPT学会Python编程》已经上市了。本书以ChatGPT为辅助，系统全面地讲解了如何掌握Python编程，适合Python零基础入门的读者学习。【点此查看详细介绍】

购买后可加入读者交流群，Crossin为你开启陪读模式，解答你在阅读本书时的一切疑问。

Crossin的其他书籍：

添加微信 crossin123 ，加入编程教室共同学习~

感谢转发和点赞的各位~

Crossin的编程教室

每天5分钟，轻松学编程。点击关注这里有浅显易懂的 Python 入门教程。编程世界的新手指南。

最新文章

真的建议赶紧搞个软考证书！（红利期）

用Python打造你的AI播客：从转录到语音生成

Pandas如何快速定位数据集中的缺失值？

何同学用到的ASCII-generator是干嘛的

not not x 和 bool(x) 用哪个比较好？

一文让你搞懂 Python 的 pyc 文件

万人期待的《算法图解（第2版）》终于来了！一天就能读完，236页很薄很有料，算法入门读这本就够了！

可视化大屏展示北京生活成本有多高

突发，这可能是软考最好过的一年！

REST API 已经25岁了：它从哪来？又往哪去？

总结下Python中的常用数据结构

Flask，极简的Web框架，助你快速开发

数据可视化学习者的福音！“对比Excel”畅销书系第5本新书来啦，轻松学习Python数据可视化

全体AI大模型的数学几乎都是0分？陶哲轩和Karpathy推荐的这个测试有多难

这几个高级爬虫软件真的强！

为什么说Python大数据处理一定要用Numpy Array?

预热双十一，某平台美妆销售数据可视化分析

一行Python代码能做什么?

AI产品榜第一是怎么来的？百度文库又进化了

用Python制作一个随机抽奖小工具

如何用Python读写Excel中图片？

如何选用最合适的图形表达数据？

强烈建议尽快搞个软考证！（重大利好）

聊一聊面试中经常问到的哈希表

如何将视频大小压缩90%？

专补大模型短板的RAG入门与实战书来了！

利用Python的Paramiko库让网络通信更安全

从诺贝尔奖到鬼畜视频

豆瓣9.3计算机神作：真遗憾为什么没再早一点读到这本书

Python开发者必知的错误跟踪技巧

OpenAI canvas一夜封神！超强AI编码研究神器，ChatGPT再次颠覆人机交互

8个超实用Python办公自动化脚本，提升你的工作效率

3个代码习惯，提升你的Python运行速度

别老用折线图柱状图了，试试这5种高级可视化图表

Python自带超好用的counter计数器

CSP25赛年开启：没有安排是万万不行的，只有安排是远远不够的！

深入了解os.environ环境变量管理

Python元类是怎么创建一个类的？

大模型辅助开发：哪些交给人，哪些交给AI？读完这本书我悟了！

pip install 成功了，import 却出错了

20个案例详解Pandas的数据统计与排序

五行Python代码自动更换你的电脑桌面壁纸

无敌了！强烈建议今年拿下软考！

Python上下文管理器：with语句

如何在Android上查看网络请求

《黑神话·悟空》是用什么编程语言开发的？

大神李宏毅“机器学习”课程集结成书，Datawhale新书出版了！

调试Python代码，也可以不用print

没想到啊！智能PPT这个需求，80%人都用百度文库

Python函数的动态参数传递全解析

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉