Dask，一个Python并行计算框架的智能库！

文摘 2024-11-10 12:27 河南

Dask，一听名字就感觉很厉害！它是一个Python的并行计算库，能把你的大数据任务切成小块，然后像指挥千军万马一样，让它们在你的电脑或者集群上并行执行。想想都刺激！

Dask入门：为啥要用它？

你有没有遇到过这种情况：数据量太大，单核CPU跑起来像老牛拉破车？或者你的代码逻辑很复杂，执行时间长得让人想砸电脑？这个时候，Dask就派上用场了！它能充分利用你的多核CPU，甚至可以扩展到集群上，让你的计算速度飞起来！

Dask的利器：DataFrame和Array

Dask提供了两种核心数据结构：DataFrame 和 Array 。DataFrame就像Pandas的DataFrame，但它可以处理比内存更大的数据。Array则类似NumPy的Array，也能处理超大规模的数据。它们的区别？DataFrame适合表格数据，Array适合数值计算。选哪个取决于你的数据类型。

    import dask.dataframe as dd
    import dask.array as da
    import pandas as pd
    import numpy as np
    
    # 创建一个Dask DataFrame
    data = {'col1'： [1， 2， 3， 4， 5]， 'col2'： [6， 7， 8， 9， 10]}
    df = pd.DataFrame(data)
    ddf = dd.from_pandas(df， npartitions=2) # 注意这里分成两个分区
    
    # 创建一个Dask Array
    x = np.array([1， 2， 3， 4， 5])
    dx = da.from_array(x， chunks=2) # 注意chunks参数，它指定了每个分块的大小
    
    print(ddf.compute()) # compute()方法会触发计算，并将结果返回为Pandas DataFrame
    print(dx.compute()) # 同理，返回NumPy Array

温馨提示：npartitions和chunks参数很重要！它们决定了数据如何被切分。分块太小，开销大；分块太大，并行效果不好。得根据你的数据量和硬件配置来调整。

Dask的魔法：延迟计算

Dask有个神奇的特性：延迟计算 。它不会立即执行你的操作，而是先构建一个计算图。只有当你真正需要结果的时候，它才会开始计算。这就像一个懒惰的厨师，只在你点菜的时候才开始做饭。这样可以避免不必要的计算，提高效率。

    import dask.delayed as delayed
    
    @delayed
    def inc(x)：
        return x + 1
    
    @delayed
    def double(x)：
        return x * 2
    
    @delayed
    def add(x， y)：
        return x + y
    
    x = inc(1)
    y = double(2)
    z = add(x， y)
    
    print(z) # 这时z只是一个Delayed对象，并没有实际计算结果
    print(z.compute()) # 调用compute()才会执行计算

Dask的应用：并行处理大文件

假设你有一个巨大的CSV文件，用Pandas读取会爆内存。用Dask就轻松多了！

    import dask.dataframe as dd
    
    # 读取CSV文件
    ddf = dd.read_csv(“huge_data.csv”)
    
    # 计算平均值
    mean_value = ddf['some_column'].mean().compute()
    
    print(mean_value)

温馨提示：别忘了compute()！没有它，Dask什么也不会做。

Dask还有很多强大的功能，比如机器学习、自定义函数等等。今天就先聊到这里。希望这篇教程能让你对Dask有个初步的了解。记住，Dask是处理大数据和并行计算的利器！

http://mp.weixin.qq.com/s?__biz=MzkzMzQ5ODY1Mg==&mid=2247489698&idx=1&sn=8cbf1c37c74b5360909af7f9eae79c7f

翔宇风

精彩纷呈，引人入胜。

最新文章

Scikit-learn，一个Python数据建模的便捷库！

Rasa，一个Python对话系统开发的简洁库！

Transformers，一个PythonNLP的智能库！

Rasa，一个Python聊天机器人的灵活库！

PyJWT，一个PythonJWT认证的高效库！

PyInstaller，一个Python应用打包的智能库！

PyJWT，一个Python认证加密的智能库！

Asyncio，一个Python异步编程的轻量库！

SymPy，一个Python符号计算的智能库！

FastAPI，一个Python高性能Web框架的便捷库！

Dash，一个Python数据应用的便捷库！

Dask，一个Python并行计算框架的智能库！

Dash：一个数据仪表板超人的Python库！

Django：一个Web开发之王的Python库！

Faker：一个测试数据生成器的Python库！

Flask：一个轻量级Web框架精灵的Python库！

FastAI：一个深度学习助手的Python库！

Jinja2，一个强大的 Python 库！

Pandas——一个Python中非常有用的库

Pandas，一个神奇的 Python 库！

httpx，一个现代的 Python 库！

Pygame Zero,一个游戏开发入门超友好的Python库!

Hypothesis,一个属性测试超实用的Python库!

Construct,一个二进制数据解析神器级的Python库!

PySide,一个Qt绑定超实用的Python库!

Pygal,一个SVG图表生成神奇的Python库!

Jinja2,一个模板引擎超强的Python库!

Typer,一个CLI应用开发超赞的Python库!

Pandas,让数据分析变得轻松的Python神器!

Matplotlib,一个绘图界的魔法师Python库!

Requests,网络请求的瑞士军刀Python库!

BeautifulSoup,网页解析的绝世高手Python库!

Flask,轻量级Web开发的王牌Python库!

Django,全能型Web框架的巨星Python库!

NumPy,一个数据处理的超级英雄Python库!

PyTorch,一个深度学习界新星的Python库!

Scikit-learn,一个机器学习全能冠军的Python库!

Pillow,一个图像处理大师级的Python库!

TensorFlow,一个机器学习界霸主级的Python库!

继取消年龄限制，驾驶证又迎来“2加、3减”调整，车主：太好了

宝马SUV中真正的王者，连降近20万，3.0T+333马力+8AT带五连杆，实在太香了！

驾驶人需知！驾驶证除了开车，交警：还有4项功能，实用性也很高

百度硬刚小米？近5米新车19万多，入门660公里续航，还能自动驾驶

高速限速标准将调整，120或将成历史，车主：终于能放心踩油门了

你的驾驶证可以“终身免检”了！交警：只要满足3个标准，就能申请成功

为什么交警查酒驾，看到小车必查，而货车、出租车很少查？

固态电池若2025年发布：“老款电车”就会大幅贬值，油车也会价格跳水？

2024最建议买的5款SUV，很耐用开不坏，其它的请慎买

“以为很正常，却很伤车”的5种行为，你中了几个？

为什么4S店宁愿不收利息，也要劝你贷款买车？内行人说出大实话！

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉