续：Python提速终极杀手Polars, 再也不用Pandas

财富 2024-07-02 19:23 美国

前文介绍了4种提高python运算速度的思路，1是向量化函数（一文搞懂所有Python金融场景提速神器），2是多进程，3是内存映射惰性计算（续：Python加速之多进程(Swifter, Modin, Multiprocess, Pandarallel)和Vaex），4是JIT编译器续：python提速之JIT即时编译 (Numba)。本篇文章将会介绍一个融合了前述多种方法的库——Polars!

【关注公众号，回复 Polars 就可以获得本文全部Python代码！】

Polars的目标是提供一个快速的DataFrame库，从而替代Pandas。为什么Polars会比pandas快？以下几个原因：

1、可以多核心并行运算（不需要用multiprocessing）

2、支持类似于Vaex的惰性计算和内存映射，通过Lazy API实现

3、使用了Apache Arrow数据格式，列式存储，减少了IO操作和内存占用，numpy是行式存储

4、底层Rust编写，接近C语言编译的速度（不再需要JIT）

接下来，让我们具体看如何使用polars，以及比pandas快多少

直接pip install polars 就可以,本文使用的是最新的0.20.6

测试数据集：5000*4500的pandas Dataframe, index是日期，value是float，用pl.from_pandas把pandas.Dataframe转化成Polars.dataframe，但是注意polars不支持index索引,没有.index的attribute，所以需要reset_index后再转化就可以保留index列，不然直接转化，index会消失。

功能目录

1、行筛选

polars行筛选用filter,没有iloc,loc等索引相关的切片操作，但是可以通过slice(row,col)来切片，速度比pandas快，polars也支持is_in()筛选运算

2、列筛选

列筛选polars的表达式是select, filter和select可以串行使用，这和pandas性质一样。

注意，多个条件筛选最好是放在一个filter内部用与或非连接，而不是多个filter串行，因为多个filter串行实际是在内存上复制了多个原始数据，占用了很多内存，速度也会变慢。

3、基础运算

pandas的统计运算都支持，字符串操作也支持，还支持类似pandas case...when的语法，when... then..otherwise

4、拼接concat,join,hstack,vstack

各类join都支持

也支持pandas的merge_asof

还提供了merge_sorted函数，类似concat(axis=0)

5、特殊数据结构Struct

struct类似C语言的结构体，是apache arrow的一种数据类型，在rust编程中也会遇到

函数unnest()可以把struct拆开

6、添加列，删除列

用with_columns或者select都可以添加列，类似SQL语言；用pl.exclude()删除指定列，这些内部都是并行计算

7、Rolling

我们测试了常见的rolling窗口函数，求mean和max。Pandas耗时3s，但是polars只需要0.18s，速度是pandas的接近20倍！具体看Polars语法，

1、pldf.lazy()是启动惰性计算，如果没有最后的.collect()则并不会实际执行，只有.collect()后才会实际执行

2、rolling前需要确保index是排序后的，所以用了sort(）。rolling()函数有两个重要参数，一是按照哪一列rolling,金融场景下多是时间，period则是window，polars支持1d,1s,1m等时间单位，也支持index count，1i。

3、agg()的用法和pandas相同。pl.exclude()是排除index日期列，对剩余的值来求mean和max

如果是复杂的函数计算，需要用到自定函数，可以直接python普通语法写函数，如下图所示，我们自定义了一个回归函数，rolling(window=4)滚动回归。按照这个方式调用self_func(x,y).rolling()，使用with_columns是在原始df中新增列，也可以使用select()来只获得计算结果。

也可以使用上述第一步的rolling().agg(result=func(x,y))实现

但是不支持在agg里面使用rolling()，agg里也不支持over()

polars的rolling()有一个参数by,意味着rolling里面可以实现groupby的功能，这个我们在下面Groupby+Rolling部分重点介绍

8、Groupby

当使用groupby.mean()等简单聚合函数操作时候，不需要apply的时候，polars是pandas的2倍速度

如果是自定义了复杂的函数运算，pandas就需要用Apply，polars并不需要apply，直接类SQL的写法就可以，是pandas的6倍速度

9、Groupby+Rolling+Agg

polars不支持groupby().rolling()，也不支持rolling().groupby()，最简便的写法是利用over()窗口函数实现groupby，再在前面叠加rolling_sum()或rolling_map()，但是不支持普通的rolling().over()

对于简单的聚合函数，polars提供了直接的rolling_sum()等函数，对于其他的算子，可以调用rolling_map(func,window_size)来实现，注意这里的func并不支持复杂的自定义函数，仅支持numpy的通用函数，元素层面的 (element-wise) 函数，具体的通用函数见链接http:/numpy.org/doc/stable/reference/ufuncs.html#methods

如果要实现自定义复杂函数怎么办呢？polars的rolling函数自带了参数by，0.19版本之前是group_by_rolling。所以可以直接rolling().agg()就可以计算了。

我们在测试数据集：5000*4500的pandas Dataframe, index是日期，value是float上做了比较测试。按照日期的年份groupby,然后rolling（window=20）计算每一列的mean()/max()

polars计算需要0.345s

pandas计算，需要9s，polars是pandas的20倍+速度。在本系列的第一篇文章中，同样的数据集用numpy stride实现rolling window=20计算mean()/max()用时1.8s，如果加上groupby耗时会更久，为了提速还要叠加numba，代码会更加复杂

http://mp.weixin.qq.com/s?__biz=Mzg3NTA4MTc0NA==&mid=2247516994&idx=7&sn=d8e329112627ee55e8579cafc5d92bde

人工智能与量化交易算法知识库

黄含驰的人工智能、优化与量化交易算法知识库，干货满满，不容错过！

最新文章

量化金融研报合集终极版：史上最全，不容错过！

GenerativeRL：使用生成式模型(Diffusion Model/Flow Model) 解决强化学习问题的算法库

2024年，强化学习的主流是什么？

量化投研协作的复利效应

量化研究员集训队招募

《算力芯片》诞生始末

潞晨云：高性价比 GPU 算力租赁（比autodl便宜，4090一块多/h，A100 80G 5.99/h）

聚宽揭秘：为什么量化研究员喜欢在Kubernetes上使用Fluid简化数据管理？

基于数据挖掘框架下的策略公式生成器

日内交易&T0资料合集

议程及引导 | 2024年第三届“运筹学与人工智能在业界的前沿应用”研讨会

周鸿祎撺了十五家大模型公司，说要组一个「复仇者联盟」干灭霸？

探索超级洞察力，您的开源智能情报新助手|SuperInsights

AI数据清洗革命：cleanlab让机器学习更精准、更可靠！（文末有彩蛋！）

Deepchecks|开箱即用的机器学习项目分析验证套件

多篇期权研报策略代码与回测效果

让你开挂的效率葵花宝典

做风控工作的体验是怎样的？

多篇期权研报策略代码与回测效果

AIGC-interview/CV-interview/LLMs-interview面试问题与答案集合仓

SignalPlus: 让数字资产期权交易民主化

百面机器学习问题汇总

百面深度学习问题汇总

SignalPlus: 让数字资产期权交易民主化

百面机器学习问题汇总

百面深度学习问题汇总

如何使用“鲨鱼鳍产品”增强期权+现货组合wheel策略收益？

人见人爱的美股，如何投资？

ETH事件即将开牌，事件驱动波动率预测方法分享

停了！跪了！

Greeks.live 如何协助双币投资者获取更高收益

百亿私募聚宽故事与价值观推文集合

Crypto量化:如何兼得Python的便利和C++的高效?|文末彩蛋不容错过！

不同本金的Crypto期权玩家，如何利用期权跨越财富等级？

Crypto期权宝典

Crypto上的双动量和特征标准化

高频因子没有秘密

因子选币（二）：逐笔成交数据研究

因子选币（一）：深度学习选币框架

Alpha2：一个更高效的Alpha因子挖掘框架[附开源代码]

股票Level2高频因子数据篇（三）：重构高频订单簿

书籍介绍|加密货币和外汇的高胜率日间交易策略

书籍介绍|均值回归日交易手册

书籍介绍|2022年加密货币和外汇市场最赚钱的算法交易策略

续：Python提速终极杀手Polars, 再也不用Pandas

如何快速感知加密市场，构建数据方法论？

BTC和ETH高位震荡，为何山寨币“转熊”？

2023中国量化投资白皮书研讨会个人小结

关于T＋0制度和做市商的研究

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉