为什么我要转向 Polars

文摘 2024-09-14 08:26 上海

我最近决定在使用数据框的 Python 项目中从 Pandas^[1] 转向 Polars^[2] 。我是在上周参加一个关于 Polars 的工作坊^[3] 时做出这个决定的:我发现它的语法如此直观,以至于我无法再为继续尝试"更好地"使用 Pandas 找到理由,尽管 Pandas 是更成熟的库。令人惊讶的是,Polars 更快(这是它的主要卖点)并不是我做出这个决定的因素。

R 语言最近也发生了类似的转变。在 R 的大部分历史中,只有一种与数据框交互的方式:Base R。然后 Tidyverse 出现了,它提供了性能改进和更简单的语法。最终,Tidyverse 成为许多人与数据框交互的主要方式。我认为 Tidyverse 更简单的语法导致了它的广泛采用,我认为 Polars 也可能会发生类似的情况。

这很大程度上可以用布鲁姆分类法^[4] 来解释。我第一次了解布鲁姆分类法是在多年前参加"培训师培训"课程时。该分类法列出了人们从初学者到专家的过程中所经历的阶段。这里有一个关键点:金字塔的基础是"记忆"。如果你无法记住如何执行一个基本任务(比如说子集化一个数据框),那么你就无法将其应用到你的工作中,评估他人的代码,或为该语言/库贡献你自己的扩展。

我认为 Polars 和 Tidyverse 都比它们之前的库有更容易记忆的语法。对于 Tidyverse 来说,这可能促使它成为许多用户的主要数据框库。我预计 Polars 也会发生类似的情况。

理解这些语法差异可以帮助我们都成为更好的程序员。虽然我们中很少有人开发下载量达数百万的库,但我们大多数人都会编写供他人使用的代码。弄清楚是什么使某些 API 比其他 API 更容易掌握,可以帮助我们的下一个项目更加成功。为了帮助实现这一点,下面我用 Polars 和 Tidyverse 以及它们之前的数据框库(Pandas 和 Base R)解决了同一个简单问题。这个问题是:

将美国县的 CSV 文件读入数据框。
将行子集化为名为"Washington"的县。
将列子集化为"county.name"和"state.name"。

(选择这个例子是因为对行和列进行子集化是最基本的操作之一,但它仍然能说明我的观点。而且当我在做一个美国县数据的项目时,我发现很多州都有一个名为"Washington"的县,这很有趣。)

本文中使用的代码也可以在 github^[5] 上找到。欢迎将其作为起点来自行探索这些库。

Polars vs. Pandas

Polars

在 Polars 中,你可以使用 filter 函数对行进行子集化。你可以使用 select 函数对列进行子集化。这些函数都是数据框类的方法。Python 用户通过将长方法"链"放在 () 内来设置样式。所以在读入数据后,代码看起来像这样:

(
    df
    .filter(pl.col('county.name')=='washington')
    .select(['county.name','state.name'])
)

当我第一次读到这段代码时,我的第一个想法是,你对数据框执行的每个操作都有一个描述性的函数名。虽然这听起来很明显,但 Pandas 和 Base R 经常使用运算符/符号而不是函数,而且运算符可能会根据输入做不同的事情。这可能会使人难以记住如何使用该库。

R 程序员会注意到 filter 和 select 与 dplyr 用于相同任务的名称完全相同。当我看到这一点时,我以为 Ritchie Vink(Polars 的创始人)只是复制了 Tidyverse 的做法。但当我在 LinkedIn 上问^[6] 他时,他说他不编写 R 程序,实际上并不知道这一点!他幽默地称之为"趋同进化"。

当我第一次看到这种语法时,我很高兴,因为我认为它很容易记住:每个任务(对行进行子集化、对列进行子集化、按名称提取列)都有一个与之相关的函数,而且函数的命名方式使其易于记忆。正如我们将在下面看到的,这与 tidyverse 非常相似,而与 Pandas 和 Base R 都非常不同。

Pandas

当我尝试使用 pandas 编写这段代码时,我想:"啊,我应该在这里使用 .loc (而不是 .iloc),对吧?但是那个函数是使用 [] 还是 ()?我总是忘记。让我问问 Copilot。"

Copilot 的回答让我感到惊讶。它没有提到 .loc 或 .iloc。相反,它说使用普通的 []:

df[df['county.name'] == 'washington']

这种语法的优点是非常简洁。所以如果你知道你在做什么,那么读写都很快。但作为新手,它可能会令人困惑。一种令人困惑的方式是你使用的是运算符/符号而不是明确命名的函数(所以你必须记住 [] 的作用)。其次,[] 实际上在同一行代码中做了两件不同的事情。在内部表达式中,你给它一个列名,它返回该列的值。但在外部表达式中,你给它一个逻辑 Series,它返回数据框中相应的行。

由于我想看到 .loc 版本,我告诉 Copilot "展示另一种方式"。它返回了这个:

df.query('`county.name` == "washington"')

当我第一次学习 Pandas 时,我对"query" API 感到兴奋,因为它似乎很容易使用。但后来一个我仰慕的"高级" Pandas 用户告诉我,他从不使用它。所以我决定自己也不使用它。于是我再次告诉 Copilot "展示另一种方式"。它返回了:

df.loc[df['county.name'] == 'washington']

正是我在寻找的。所以我在这里使用 .loc 的直觉是正确的。尽管我不确定它是使用 [] 还是 (),但我能够记住这是需要注意的事情。加入选择列的代码,我们得到这个解决方案:

(
    df
    .loc[df['county.name'] == 'washington']
    [['county.name', 'state.name']]
)

有趣的是,列选择代码又增加了两对 []。而且它们再次表示不同的含义(内部的表示"Python 列表",外部的表示"子集列")。

对我来说,在攀登布鲁姆分类法方面,关于 Pandas 有两个障碍。第一个是知道我应该使用许多可能的方法中的哪一种来解决一个任务。这实际上让我想起了 Python 之禅^[7] 中的一句话:"应该有一种 - 最好只有一种 - 明显的方法来做到这一点。"第二个是记住语法的细节。

Tidyverse vs. Base R

Tidyverse

tidyverse 有一个原则,即代码应该为人类设计^[8] 。在实践中,这意味着创建具有清晰名称的函数,并让每个函数只做一件事。它还意味着使用管道运算符 |> (读作"然后")来组合这些函数。这意味着我们的简单分析可以这样完成:

df |>
    filter(county.name == "washington") |>
    select(county.name, state.name)

这段代码与等效的 Polars 代码非常相似。7 月份,我教授了一个"R 入门"工作坊。我们同时涵盖了 Tidyverse 和 Base R。学生们使用 Tidyverse 解决简单问题的速度比使用 Base R 解决类似问题的速度快得多。我将这归因于 Tidyverse 依赖于具有明确名称且只做一件事的函数。

这段代码的另一个特点是它使用了非标准评估(NSE)^[9] 。在调用 filter 时,我们可以通过不加引号写列名来引用列的内容(例如 county.name)。在 Polars 中,我们需要写 pl.col('county.name'),在 Pandas 中,我们需要写类似 df['county.name'] 的内容。NSE 非常有用,并且会产生如此简洁的代码,以至于我不确定为什么 Pandas 和 Polars 都没有采用它。[更新 2024-09-05:在 LinkedIn 上,Ritchie Vink 很友好地回应^[10] 了这一点:"注意,NSE 在 Python 中是不可能的。这意味着一些 DSL 在 Python 中无法表达,需要像 pl.col(..) 这样的实用对象。"]

Base R

上述代码的"Base R"版本非常不同。与 Pandas 类似,没有明确的函数调用。相反,你使用运算符/符号 [] , 和 $:

df[df$county.name == "washington", c("county.name", "state.name")]

作为一个长期的 R 用户,我发现这样的代码非常容易读写。但我工作坊中的学生在编写它时遇到了困难。他们能够轻松地单独编写向量化的逻辑测试(df$county.name == "washington")。但他们很难将该测试放入 [] 中。

这段代码暴露的另一个问题是,运算符通常可以被重载,这可能会进一步混淆新手。例如,在上面的代码中,df$county.name == "washington" 被用作下标。这没问题,一旦你理解了布尔索引,你就可以继续了。但是 R 中有五种下标^[11] ,新手需要学习所有这些。使用明确的函数时,这个问题就不那么严重了,事实上,Tidyverse 对于特殊情况有很多明确命名的函数(例如 starts_with 和 ends_with)。

总结

去年 12 月,当我第一次开始学习如何在 Python 中处理表格数据时,我选择学习 Pandas,因为它是 Python 中最流行的数据框库。现在我认为新手最好学习 Polars,我正在把精力放在那里。我的主要原因是我发现 Polars 的语法更容易记忆。根据布鲁姆分类法,我认为一个更容易记住如何使用的库反过来会使我能够更快地做出重大贡献。作为额外的好处,Polars 的性能比 Pandas 更好。

"Polars vs. Pandas"的争论让我想起了大约十年前开始的"Tidyverse vs. Base R"的争论。当时,有经验的 R 用户(比如我自己)嘲笑那些认为"学习 Tidyverse"在某种程度上等同于"学习 R"的人。回想起来,我们错了。我们低估了人们采用更简单、更明确的数据框 API 的速度。我认为今天对 Polars 持类似立场的有经验的 Pandas 用户也可能被证明是错误的,原因也类似。当然,只有时间才能证明一切。

Polars和Tidyverse的创建让我想起了我第一份工作时一位首席工程师告诉我的话:"第一次构建某样东西时,要专注于让它能够工作。第二次构建时,要专注于让它变得漂亮。"Pandas和Base R都是统计计算领域的重大贡献。它们工作得很好,非常好。而后来出现的Polars和Tidyverse则有奢侈的机会可以专注于变得"漂亮"。

正如俗话所说:"历史不会重复,但总会押韵。"

参考链接

1. Pandas: https://pandas.pydata.org/
2. Polars: https://pola.rs/
3. 工作坊: https://store.lerner.co.il/polars
4. 布鲁姆分类法: https://cft.vanderbilt.edu/guides-sub-pages/blooms-taxonomy/
5. github: https://github.com/arilamstein/polars-pandas/tree/main
6. 问: https://www.linkedin.com/feed/update/urn:li:activity:7236435167987294209?commentUrn=urn%3Ali%3Acomment%3A(activity%3A7236435167987294209%2C7236446743855288320)&replyUrn=urn%3Ali%3Acomment%3A(activity%3A7236435167987294209%2C7236765479673974784)&dashCommentUrn=urn%3Ali%3Afsd_comment%3A(7236446743855288320%2Curn%3Ali%3Aactivity%3A7236435167987294209)&dashReplyUrn=urn%3Ali%3Afsd_comment%3A(7236765479673974784%2Curn%3Ali%3Aactivity%3A7236435167987294209)
7. Python 之禅: https://en.wikipedia.org/wiki/Zen_of_Python
8. 为人类设计: https://tidyverse.tidyverse.org/articles/manifesto.html#design-for-humans
9. 非标准评估(NSE): https://adv-r.hadley.nz/metaprogramming.html
10. 回应: https://www.linkedin.com/feed/update/urn:li:activity:7237182297102295041?commentUrn=urn%3Ali%3Acomment%3A(activity%3A7237182297102295041%2C7237485477031759872)&dashCommentUrn=urn%3Ali%3Afsd_comment%3A(7237485477031759872%2Curn%3Ali%3Aactivity%3A7237182297102295041)
11. 五种下标: https://www.johndcook.com/blog/2008/10/23/five-kinds-of-r-language-subscripts/

http://mp.weixin.qq.com/s?__biz=MjM5NzUwODgyNA==&mid=2247487265&idx=1&sn=a79d3163e463e297f15f3ce4858a0183

幻想发生器

图解技术本质

最新文章

为 Nintendo Switch™ 编译 Go 程序

Go sync.Once 很简单... 真的是这样吗？

为高延迟环境优化HTTP

3种简单方法在Go中添加版本标识

通过从头编写HTTP服务器探索Postgres的内存分配器

优化和可视化 Go 测试的并行性：为什么更多的核心并不能加速你的 Go 测试

奇怪的语言词法

如何构建更小的容器镜像：Docker 多阶段构建

Octoverse：AI推动Python成为顶级语言，全球开发者数量激增

Web已死？前一千万个网站中有27.6%已经死亡

编写安全的 Go 代码

基准测试：Go语言中的性能测试

Genie：Uber的生成式AI随叫随到副驾驶

使用装饰器实现Python单例模式

使用 Asyncio 实现 Python 自由线程

使用htmx构建单页应用

关于 Python 3.13 你需要知道的一切 – JIT 和 GIL 携手并进

在浏览器中使用 Pyodide、PyScript 和 JupyterLite 运行 Python 版 DuckDB

超越多核并行：使用 SIMD 加速 Mandelbrot 计算

重构：从 Redis 到 SQLite

Golang 在 Windows 上的高精度计时器

Golang 的反射

使用Go Embed

一些 Go Web 开发笔记

将 Golang API 与 MySQL 和 Docker Compose 容器化

使用SQL进行采样

Golang 解释器：Yaegi 内部实现

云上资源到本地IaC

实现自己的拼写检查

Discord如何将Websocket流量减少40%

让我们构建并优化一个 Rust 的 Python 扩展

在生产环境中使用Rust 一年之后感想

Golang 随机公平库 satmihir/fair

Go/Golang中的集合 – 使用映射和推荐的包

Golang Type Alias 中有什么?

我们应该拆解我们的单体应用吗?

理解Rust中的内存排序

为什么语言文档仍然如此糟糕?

拥有灵魂的软件:人工智能被低估的前沿领域

在 Go 中构建基于 LLM 的应用程序 - Go 编程语言

为什么我在Docker中仍然使用Python虚拟环境

构建 Bubble Tea 程序的技巧

网络剪贴板及其如何存储不同类型的数据

良好的软件开发习惯 - Zarar

推到极限：Netflix WebSocket代理的未来演进

使用trace和PYREPL_TRACE调试新的Python REPL

为什么我要转向 Polars

探索 Goja: 一个 Golang JavaScript 运行时

异步 Rust 可以很愉快

函数类型的Range - Go编程语言

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉