你还在Pandas中使用for循环吗？太慢了！

科技 2024-08-10 10:38 江苏

来源：Deephub Imba

这篇文章将讲解pandas dataframe循环的各种方法，为了验证循环的有效性，我们将生成百万级别的数据，这也是我们在日常处理中经常遇到的数量级。

实验数据集

我们将生成一个包含600万行和4列的DataFrame。每一列将被分配一个0到50之间的随机整数。

 import numpy as np
 import pandas as pd
 df = pd.DataFrame(np.random.randint(0, 50, size=(6000000, 4)), columns=('a','b','c','d'))
 df.shape
 # (6000000, 5)
 df.head()

Iterrows

我们通过基于以下标准引入一个新的列' e '来扩展数据框架' df ':

如果' a '等于0，那么' e '取' d '的值。如果' a '在0(不包括)到25(包括)的范围内，' e '计算为' b '减去' c '。如果以上条件都不成立，则计算“e”为“b”+“c”。

首先我们使用pandas提供的' iterrows() '函数遍历DataFrame ' df '。' iterrows() '函数遍历DataFrame的行，在迭代期间返回(index, row)对。

 import time
 start = time.time()
 # Iterating through DataFrame using iterrows
 for idx, row in df.iterrows():
    if row.a == 0:
        df.at[idx,'e'] = row.d
     
    elif (row.a <= 25) & (row.a > 0):
        df.at[idx,'e'] = (row.b)-(row.c)
    else:
        df.at[idx,'e'] = row.b + row.c
 end = time.time()
 print(end - start)
 # time taken: 335.212792634964

iterrows()函数需要335秒(约5.5分钟)来实现对600万行的操作。

Itertuples

另一种遍历pandas DataFrame的方法是使用' itertuples '，它以命名元组的形式遍历DataFrame行。

下面代码说明了如何使用' itertuples '访问元素。生成的行对象将索引作为第一个字段，然后是数据框的列。

 for row in df[:1].itertuples():
    print(row) ## accessing the complete row - index following by columns
    print(row.Index) ## accessing the index of the row
    print(row.a) ## accessing the value of column 'a'

使用下面的代码，使用itertuples()遍历DataFrame df。

 start = time.time()
 # Iterating through namedtuples
 for row in df.itertuples():
    if row.a == 0:
        df.at[row.Index,'e'] = row.d
     
    elif (row.a <= 25) & (row.a > 0):
        df.at[row.Index,'e'] = (row.b)-(row.c)
    else:
        df.at[row.Index,'e'] = row.b + row.c
         
 end = time.time()
 print(end - start)
 ## Time taken: 41 seconds

在DataFrame上执行所需的操作，itertuples()函数耗时约54秒，比iterrows()函数快6倍。

字典

迭代DataFrame行的另一种方法是将DataFrame转换为字典，这是一种轻量级的内置数据类型。我们遍历该字典以执行所需的操作，然后将更新后的字典转换回DataFrame。转换可以使用' to_dict() '函数来实现。

 start = time.time()
# converting the DataFrame to a dictionary
df_dict = df.to_dict('records')  
# Iterating through the dictionary
for row in df_dict[:]:
   if row['a'] == 0:
       row['e'] = row['d']
    
   elif row['a'] <= 25 & row['a'] > 0:
       row['e'] = row['b']-row['c']
   else:
       row['e'] = row['b'] + row['c']
# converting back to DataFrame
df4 = pd.DataFrame(df_dict)
 end = time.time()
 print(end - start)
 ## Time taken: 31 seconds

字典方法大约需要31秒，大约比' itertuples() '函数快11倍。

数组列表

我们还可以将DataFrame转换为一个数组，遍历该数组以对每行(存储在列表中)执行操作，然后将该列表转换回DataFrame。

 start = time.time()
 # create an empty dictionary
 list2 = []
 # intialize column having 0s.
 df['e'] = 0
 # iterate through a NumPy array
 for row in df.values:
    if row[0] == 0:
        row[4] = row[3]
     
    elif row[0] <= 25 & row[0] > 0:
        row[4] = row[1]-row[2]
 
    else:
        row[4] = row[1] + row[2]
 ## append values to a list
    list2.append(row)
 ## convert the list to a dataframe  
 df2 = pd.DataFrame(list2, columns=['a', 'b', 'c', 'd','e'])
 end = time.time()
 print(end - start)
 #Time Taken: 21 seconds

花费的时间约为21秒(比iterrows快16倍)，这与遍历字典所花费的时间非常接近。

字典和数组是内置的轻量级数据结构，因此迭代DataFrame所需的时间最少。

总结

在文探索了使用循环遍历DataFrame的四种不同方法。

' iterrows '函数在遍历DataFrame时显示出最高的时间消耗。与“iterrows”函数相比，使用“itertuples”函数可以使DataFrame迭代的速度提高6倍。在字典和数组上迭代被证明是最有效的方法，使用循环提供最快的迭代时间和最佳的数据操作。

当然，在处理大型数据集时，最佳实践是矢量化。向量化上述代码将执行时间减少到0.29秒(比遍历数组快72倍)。但是使用矢量化时会增加开发的成本，所以在一些时候为了我们开发方便，可以选择一个比较快速for循环来替代矢量化。当然，如果你对矢量化非常的了解，那还是推荐继续使用。

往期文章

推荐我常用的几个爬虫插件&工具，值得收藏~
推荐3款自动爬虫神器，再也不用手撸代码了
新式爬虫利器，网页解锁能力非常强大！
使用八爪鱼爬虫+Kimi AI分析小米SU7舆情数据，终于知道它为什么火了
推荐我常用的爬虫工具，三种爬虫方式，搞定反爬和动态页面
6个强大且流行的Python爬虫库，强烈推荐！

加入知识星球【我们谈论数据科学】

提供100节专属Pandas数据分析视频教程

600+小伙伴一起学习！

http://mp.weixin.qq.com/s?__biz=MzA3ODYwNDkzOQ==&mid=2659081525&idx=1&sn=752439ab9190b2926b0545204571266d

Python大数据分析

分享Python编程、数据分析、爬虫、人工智能等

最新文章

7款电商数据必备的爬虫利器，强烈推荐~

开源项目：纯Python构建的中后台管理系统

用Python可视化分析热门股票

彻底杀疯了｜博士利用ChatGPT-4o做Python大数据分析，写论文，太方便了...

Python快速上手爬虫的7大技巧

我常用的几个Python金融数据接口库，非常好用~

用Python开发基金策略模拟工具

对比pip、conda等7种Python包管理工具

用Python轻松实现个人考勤管理

web scraper无代码爬虫工具怎么入门？

微软开源最强Python自动化爬虫神器！不用写一行代码！

Python网页应用开发神器Dash 2.18.1稳定版本来啦

MoviePy，一个超强的Python库

用Python写个电子木鱼，在线积攒功德🤣

强大的3款自动爬虫利器，再也不用手撸代码了

Python应用开发神器Dash 2.18新版本介绍

为什么Pandas是最流行的Python数据分析库？

登顶Nature | 揭秘python深度学习模型方向文章登上Nature正刊的原因！

常用的15个Matplotlib可视化图表，推荐~

Python爬虫必备的8大技巧，收藏~

python自动化办公？学这些就够用了

用Python写个网盘应用

比 requests 更强大 Python 库，让你的爬虫效率提高一倍！

机器学习到底是什么？附sklearn代码

不用写一行Python代码，“Excel” 能直接爬虫了

7种好看的数据可视化方式，很实用~

这10个Github 热门Python库，非常实用！

Python selenium爬虫被检测到，该怎么破？

我竟然"开发"了一款大模型应用，AI门槛这么低了吗？

Web Scraper，强大的浏览器爬虫插件！

对比这两款爬虫利器抓取抖音，编程小白也能玩

推荐常用的工作必备Python自动化代码

15 个好玩实用的Python包~

用Python写个待办事项网页应用

取代数据岗！某司从业人员已集体转行…

Python网页应用开发神器fac新版本发布

10个简单好用的Python装饰器

你还在Pandas中使用for循环吗？太慢了！

“我见过最牛的Python金融分析”

推荐我常用的几个爬虫插件&工具，值得收藏~

ibis：极具潜力的Python数据分析新框架

惊呆了｜GPT4o在Python大数据分析与论文写作能力爆棚…

收藏！这些Python自动化代码，你可能会用得到

这几个Python自动探索性数据分析库，非常好用~

关于举办“数据创造价值大数据分析与应用实战”专题培训班的通知

这个可视化 Python 打包神器，很实用！

ChatGPT金融实操(从未如此详尽)

做Python数据分析最好的编辑器是什么？

这几个高级爬虫软件真的强！

Python数据分析必备的工具有哪些

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉