点击蓝字
关注我们
你是不是经常为数据分析头疼不已?别担心,今天咱聊聊 pandas-profiling 这个宝贝。它是个基于 pandas 的 Python 库,能帮你快速生成数据报告,省时又省力。
PART01
安装那些事儿
安装 pandas-profiling 超简单,就一行代码的事:
pip install pandas-profiling
要是遇到啥问题,试试加个 --user
参数。不过记住啊,得先装好 pandas 和 numpy 这俩大哥。
PART02
快速上手
来看看咋用这玩意儿:
import pandas as pd
from pandas_profiling import ProfileReport
# 读取数据
df = pd.read_csv('你的数据文件.csv')
# 生成报告
profile = ProfileReport(df, title=“数据报告”)
# 保存报告
profile.to_file(“report.html”)
就这么几行,你就能搞定一份漂亮的数据报告了。是不是很爽?
PART03
报告里都有啥
pandas-profiling 生成的报告里可有料了:
概览 :数据集的基本信息,比如行数、列数、缺失值啥的。
变量 :每列数据的详细统计,包括分布、唯一值、缺失值等。
相关性 :变量间的关系,用热力图展示,一目了然。
样本数据 :随机抽取的几行数据,让你直观感受数据长啥样。
PART04
高级玩法
想要更酷的报告?来试试这些参数:
profile = ProfileReport(df,
title=“666数据报告”,
explorative=True,
minimal=False,
correlations={
“pearson”: True,
“spearman”: True,
“kendall”: True,
“phi_k”: True,
“cramers”: True,
}
)
这样设置,报告就更全面了,还能看到更多相关性分析。
温馨提示:要是数据量太大,生成报告可能会慢一些,耐心等等哈。
PART05
自定义报告
有时候,你可能只想看特定的内容。没问题,pandas-profiling 支持自定义配置:
from pandas_profiling import ProfileReport
profile = ProfileReport(df, config_file=“你的配置文件.yaml”)
配置文件里可以设置各种参数,比如要不要计算相关性、要不要画图表等等。
PART06
在 Jupyter 里玩耍
如果你喜欢用 Jupyter Notebook,那更棒了!pandas-profiling 在 Jupyter 里用起来简直不要太爽:
from pandas_profiling import ProfileReport
profile = ProfileReport(df, title=“666报告”, explorative=True)
profile.to_notebook_iframe()
这样就能在 Notebook 里直接看到交互式的报告了,想看哪儿点哪儿,不要太方便。
数据分析有时候挺烦人的,尤其是面对一堆陌生数据的时候。但有了 pandas-profiling,你就能快速摸清数据的底细,省下不少时间去琢磨更有意思的事情。
用好这个工具,你的数据分析工作肯定能事半功倍。不过记住啊,工具是死的,人是活的。pandas-profiling 给你的报告只是个开始,真正的分析还得靠你自己的脑子。
好了,今天就聊到这儿。赶紧去试试 pandas-profiling 吧,相信你会爱上它的!
往期回顾
◆
◆
◆