pandas-profiling:数据分析神器,不用愁!

文摘   2024-10-16 19:57   黑龙江  

点击蓝字

关注我们


你是不是经常为数据分析头疼不已?别担心,今天咱聊聊 pandas-profiling 这个宝贝。它是个基于 pandas 的 Python 库,能帮你快速生成数据报告,省时又省力。


PART01

安装那些事儿

安装 pandas-profiling 超简单,就一行代码的事:    



pip install pandas-profiling


要是遇到啥问题,试试加个 --user 参数。不过记住啊,得先装好 pandas 和 numpy 这俩大哥。


PART02

快速上手

来看看咋用这玩意儿:    



import pandas as pdfrom pandas_profiling import ProfileReport# 读取数据df = pd.read_csv('你的数据文件.csv')# 生成报告profile = ProfileReport(df, title=“数据报告”)# 保存报告profile.to_file(“report.html”)


就这么几行,你就能搞定一份漂亮的数据报告了。是不是很爽?


PART03

报告里都有啥

pandas-profiling 生成的报告里可有料了:


  1. 概览 :数据集的基本信息,比如行数、列数、缺失值啥的。

  2. 变量 :每列数据的详细统计,包括分布、唯一值、缺失值等。

  3. 相关性 :变量间的关系,用热力图展示,一目了然。

  4. 样本数据 :随机抽取的几行数据,让你直观感受数据长啥样。

PART04

高级玩法

想要更酷的报告?来试试这些参数:    



profile = ProfileReport(df,    title=“666数据报告”,    explorative=True,    minimal=False,    correlations={        “pearson”: True,        “spearman”: True,        “kendall”: True,        “phi_k”: True,        “cramers”: True,    })


这样设置,报告就更全面了,还能看到更多相关性分析。


温馨提示:要是数据量太大,生成报告可能会慢一些,耐心等等哈。


PART05

自定义报告

有时候,你可能只想看特定的内容。没问题,pandas-profiling 支持自定义配置:    



from pandas_profiling import ProfileReportprofile = ProfileReport(df, config_file=“你的配置文件.yaml”)


配置文件里可以设置各种参数,比如要不要计算相关性、要不要画图表等等。


PART06

在 Jupyter 里玩耍

如果你喜欢用 Jupyter Notebook,那更棒了!pandas-profiling 在 Jupyter 里用起来简直不要太爽:    



from pandas_profiling import ProfileReportprofile = ProfileReport(df, title=“666报告”, explorative=True)profile.to_notebook_iframe()


这样就能在 Notebook 里直接看到交互式的报告了,想看哪儿点哪儿,不要太方便。


数据分析有时候挺烦人的,尤其是面对一堆陌生数据的时候。但有了 pandas-profiling,你就能快速摸清数据的底细,省下不少时间去琢磨更有意思的事情。


用好这个工具,你的数据分析工作肯定能事半功倍。不过记住啊,工具是死的,人是活的。pandas-profiling 给你的报告只是个开始,真正的分析还得靠你自己的脑子。


好了,今天就聊到这儿。赶紧去试试 pandas-profiling 吧,相信你会爱上它的!



往期回顾



乐意说事
阅他人故事,品百味人生,坚持日更,加油!
 最新文章