Dask：一个超强大的 Python 并行计算库！

文摘 2024-11-12 10:01 广东

大家好，我是橙子！今天我们来聊聊 Dask，一个非常强大的 Python 并行计算库。Dask 的设计初衷就是解决大数据计算的难题：如果数据量大到超出单台机器的内存限制，或者计算量庞大到需要分布式集群来加速，那么 Dask 就是一个很棒的选择。它不仅可以并行计算，还可以无缝兼容现有的 Python 工具，比如 Pandas、Numpy。今天的教程将帮你快速入门 Dask 的基本功能和核心概念！

Dask 简介

Dask 的核心功能可以分为两类：延迟计算 和 并行处理。在 Dask 中，我们可以先定义计算任务，然后在需要的时候一次性执行所有计算。这种“延迟执行”的方式可以让我们更灵活地进行数据处理和计算任务优化，节省资源。此外，Dask 还能够很好地管理内存分配，将计算任务分布到多核或多台机器上，实现真正的并行加速。

一、创建 Dask 集群

我们先从最基本的创建 Dask 集群 开始吧！Dask 集群可以简单理解为多个可以同时工作的计算节点。对于单台机器，也可以创建一个多核的“本地集群”来实现并行加速。

from dask.distributed import Client

# 创建一个 Dask 客户端
client = Client()  # 本地集群，适合在本地环境调试
print(client)

运行上面的代码，Dask 会自动检测系统的核心数，并创建对应数量的工作节点。Client() 是 Dask 的核心对象之一，用于管理和监控分布式计算。创建客户端后，我们就可以在 Dask 集群上进行并行计算了！

二、Dask Arrays：轻松处理大规模数组

如果你平时使用 Numpy 处理数组数据，那么 Dask Arrays 就是你的好伙伴！它和 Numpy 的语法基本一致，但 Dask Arrays 可以自动把大数据分块来计算。下面我们用 Dask Arrays 创建一个大规模数组，并进行一些简单的数学操作。

import dask.array as da

# 创建一个 10000x10000 的 Dask 数组，分成 1000x1000 的块
x = da.random.random((10000, 10000), chunks=(1000, 1000))

# 计算总和
result = x.sum()

print(result)  # 输出的不是数值，而是一个延迟计算对象

注意，Dask 的计算是延迟的。在我们真正执行 result.compute() 之前，Dask 只是在记录任务，并不会执行。所以这里 result 是一个“延迟对象”。这个特性可以避免一次性加载所有数据，帮助我们更好地管理内存。

运行计算任务

要执行计算，我们只需要调用 .compute() 方法。

# 运行计算任务
total = result.compute()
print(total)

小贴士：Dask Arrays 非常适合矩阵运算、数值模拟等场景，因为它能帮你快速处理上百万甚至上亿个元素的矩阵！

三、Dask DataFrame：分布式处理表格数据

如果你熟悉 Pandas，那 Dask DataFrame 就会让你很容易上手。Dask DataFrame 提供了和 Pandas 类似的接口，支持分块加载和计算。这意味着即使数据超出内存限制，Dask 也能分批次处理，完美解决了大数据处理中的瓶颈。

import dask.dataframe as dd

# 加载一个 CSV 文件
df = dd.read_csv('your_large_dataset.csv')

# 计算每一列的均值
mean_values = df.mean()

# 执行计算
print(mean_values.compute())

和 Dask Arrays 类似，Dask DataFrame 也是延迟执行的。这里 df.mean() 返回的也是延迟对象，只有调用 .compute() 后才会真正执行。Dask DataFrame 是分布式的，因此可以加快大规模数据的处理速度！

实际应用：Dask DataFrame 特别适合数据清洗、ETL 任务，特别是当我们需要处理多 TB 级的数据时，Dask DataFrame 的分布式特性非常有用。

四、Dask Delayed：延迟计算提升灵活性

有时候，我们需要自定义一些复杂的计算流程，这种情况就可以使用 Dask Delayed。Dask Delayed 可以将任意 Python 函数“延迟”执行，从而使得这些函数能够在 Dask 集群上并行运行。

from dask import delayed
import time

# 定义一个简单的函数
@delayed
def square(x):
    time.sleep(1)  # 模拟耗时操作
    return x * x

@delayed
def add(x, y):
    return x + y

# 构建延迟任务
result = add(square(2), square(3))

# 执行计算
print(result.compute())

上面的代码定义了一个简单的计算任务：先计算 square(2) 和 square(3)，然后将结果相加。因为任务是延迟的，Dask 会在内部将它们安排为并行执行，以加速整体计算流程。

小贴士：Dask Delayed 适合用于需要灵活控制计算流程的场景，比如图像处理、金融建模等。通过延迟执行，可以优化复杂任务的计算路径，从而节省时间。

五、Dask Bag：处理大规模非结构化数据

Dask Bag 是专为处理非结构化数据设计的，比如 JSON 文件、日志文件等。和 Dask Arrays 和 DataFrame 不同的是，Dask Bag 更适合数据清洗、文本处理等任务。

import dask.bag as db

# 假设有一个 JSON 文件列表
data = [{'name': 'Alice', 'balance': 100},
        {'name': 'Bob', 'balance': 200},
        {'name': 'Charlie', 'balance': 300}]

# 创建一个 Dask Bag
bag = db.from_sequence(data)

# 计算总余额
total_balance = bag.pluck('balance').sum().compute()
print(total_balance)

在这里，我们先用 db.from_sequence() 创建了一个 Dask Bag。接着，我们用 .pluck('balance') 提取每个对象中的 balance 字段，并计算其总和。

实际应用：Dask Bag 非常适合处理日志分析、文本挖掘等需要处理大量非结构化数据的任务！

结语

今天的 Dask 教程到这里就告一段落啦！我们了解了 Dask 的基本操作和常见的数据结构，包括 Dask Arrays、Dask DataFrame、Dask Delayed、和 Dask Bag。希望你能用上今天学到的知识，优化你的数据处理流程！

记得动手敲代码，多多实践！祝大家学习愉快，Python 学习节节高！

http://mp.weixin.qq.com/s?__biz=MzkxOTg2NjA3NA==&mid=2247483782&idx=1&sn=ca9807ad911e2862c5b153b98aa94ab8

梦起时分

关注我了解更多信息

在单位里，领导常拿来立威的对象，基本都长这样：1.书生气、素质高；2.脸皮薄、不敢吵；3.资历浅、没靠山；4.无主见、易受摆布

在单位里，你只有这样，别人才能不敢惹你：1、不说废话，不怕冷场；2、喜怒不形于色；3、出手必见成效

有高人预测，到 2025 年，我国可能会出现以下六大变化趋势

在单位里，为工作生气的人真的很傻：1.只要按时发放工资就行；2.别怕领导；3.别被同事负面情绪影响；4.拒绝内耗，保持成长

在单位里，吃过大亏的人才懂得：1.管住嘴沉默是金；2.领导的话别全信；3.该争取时争取；4.控制住自己的脾气；5.别把同事当朋友

在单位里，你千万不要向领导汇报这三件事：1、个人负面情绪或不满；2、同事间的闲言碎语；3、不要随意评价别人

在单位里，没人告诉你的5条人情世故：1.做事要留痕；2.少主动给建议；3.干活别太快；4.少掺和别人事；5.积极汇报工作

在单位里，能干到高层的人，都有这些共同的特点：1.脸皮比墙厚；2.气场有压迫感；3.胆量过人；4.社交手段高明

在单位里，想要混得好，千万要记住：1.和男领导相处，满足他好为人师；2.和女领导相处，提供情绪价值；3.和直属领导相处，表好态度

在单位里，领导一定要“除掉”的人，都有以下共同特征：1、能力过硬，威胁领导；2、太强势，领导镇不住；3、总让领导下不了台

numpy，一个必学的 Python 数学库！

在单位里，一个奇怪的现象，领导最放心的反而是这4种人：1.从不主动邀功；2.准时完成任务；3.不热衷办公室社交；4.默默按时上班

BeautifulSoup，超简单的网页解析库，解析网页不费力！

Scrapy，一个快速高效的爬虫框架，抓取全网数据！

在单位里，想要混得好，千万要记住：1.和男领导相处，满足他好为人师；2.和女领导相处，提供情绪价值；3.和直属领导相处，表好态度

Dask：一个超强大的 Python 并行计算库！

在单位里，主要领导调走，聪明的老员工一定不会干这“三件事”：1.不再联系；2.不再上心；3.不再维护

Flask，简洁而强大的 Web 开发框架！

在单位里，有这3个迹象，你就该离职了：1、收入和付出长期不对等； 2、领导和同事始终不认可你； 3、个人成长停滞，长期内耗

TensorFlow，一个无敌的机器学习库！

SQLAlchemy，一个强大的 Python ORM 库！

BeautifulSoup，一个神奇的 HTML 解析器！

PyInstaller，一个简单易用的打包工具！

tqdm，一个优雅的进度条库！

Alembic，一个数据库迁移管理库！

Pydantic，一个数据验证的神器！

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉