DuckDB 到底能处理多大的数据？

文摘 2024-08-15 05:41 北京

最近DuckDB在国内越来越火，很多人都会问一个问题，DuckDB到底能处理多大数据集，1TB， 10TB 还是 100TB？

其实我还真没考虑过这个问题，我工作中根本没有碰到过这样体量的数据，我的硬盘最大也才1TB。

不过既然有人问了，我也有些好奇，自己不跑，看看别人的报告也是好的，还真是让我找到了一份，这里分享给大家。

想必很多人都看了昨天分享给大家的多款OLAP数据库大比拼。今天的这份报告依然以顺利完成22个TPC-H Query为基准。

本机模式（Macbook Pro）

云服务器（AWS）

结论

• 本地+小型？

选择 DuckDB 或 Polars。对于小型数据（10GB 或更小），Polars 和 DuckDB（或 pandas）非常合适。而 Dask 和 Spark 在这种配置下性能会损失很多。

• 本地+大数据？

选择 Dask 或 DuckDB。对于更大的数据，Polars 尚未完全稳定。不过，Polars 正在快速改进，并且是这个组中最动态的项目。DuckDB 更可靠（Dask 也是，但速度慢）。Spark 在这里很容易失败。如果你想对 100GB 本地数据执行 SQL 查询，DuckDB 是明智的选择。

• 云存储空间在 1 TB 以下？

选择 Dask 或 DuckDB。对于能够放入单个云虚拟机的数据集，Dask 和 DuckDB 通常优于 Spark 和 Polars。当我们迁移到云端时，快速本地系统（Polars/DuckDB）和分布式系统（Dask/Spark）之间的性能差距会很大，这主要是因为 S3 访问瓶颈（即使你速度很快，但如果等待 S3 获取数据，也是无济于事）。DuckDB 在相同硬件上跨不同规模表现良好，但无法扩展到单个虚拟机之外。

• 大规模云计算？

选择 Dask 或 Spark。DuckDB 在单个大型虚拟机上可以像 Dask 或 Spark 一样高效，但如果你想快速处理大量数据，最终需要一个可扩展的系统。Dask 和 Spark 可以通过添加更多硬件在更大的问题上胜过 DuckDB 和 Polars。对于大规模计算，Dask 通常优于 Spark，并且可以很好地扩展，超过 DuckDB 和 Polars。

有兴趣的可以看看这篇文章https://docs.coiled.io/blog/tpch.html

http://mp.weixin.qq.com/s?__biz=MzAxODk3Nzg5Nw==&mid=2247486120&idx=1&sn=417879850fa53988cbe0dcfbb235716c

数据库杂记

PostgreSQL,SAP HANA,Sybase ASE/ASA,Oracle,MySQL,SQLite各类数据库, SAP BTP云计算技术, 以及陈式太极拳教学倾情分享。

周日015 意甲蒙扎VS国际米兰 1-2 比分精准预测，这场信心十足7连红拿下！

周日英超托特纳姆热刺VS阿森纳比分串直接做胆500倍直接打！近期状态火热，公推私房菜13收9，带领群里300多个兄弟收米！

大方向+比分预测】周日017 西甲马德里竞技VS巴伦西亚，喜中23W命中率高达90%+，此时不跟更待何时？

解析PostgreSQL插件pgcompacttable实现的基本原理

韩职金泉尚武VS仁川联比赛预测！！恭喜店里兄弟参考推荐拿下2400倍大乃！！

学了这么久，PostgreSQL 这些指标到底是什么？

PostgreSQL Internals之路 Part-I 第6章 Vaccum和Autovaccum

DuckDB v1.1 发布, 带来多项重大更新

北京市武术协会陈式太极拳研究会第一届理事会组织架构

PolarDB for PG15 之初体验

企业数据库工作4：连续性，我们该怎么做（中）

PostgreSQL Internals之路 Part-I 第5章页裁剪和HOT(Heap-Only Tuple)更新

PostgreSQL Internals之路第4章快照

国足0:7输日本，国产数据库7:0赢全世界

亲身经历，肾结石掉到尿道里

PostgreSQL 17 RC1 发布！与近期PG新闻

SAP 突发人事变动：CTO主动离职

PostgreSQL Internals之路第3章页和元组

PostgreSQL Internals之路第2章隔离与多版本控制

DTCC 2024大会归来有感, 迟来的小结

全球ERP巨头SAP，百亿收购获批

PostgreSQL Internals之路第1章

仅25人的数据库公司或被145亿收购，人均价值5.8亿，还不用上班打卡！是被迫，还是为了打击对手？

一文讲清国产数据库架构、形态与场景

一则案例：SAP BTP中PostgreSQL的用户及证书rotation

草台班子唱大戏，阿里云RDS翻车记

高可用集群之keepalived