我愿称之为 Jupyter Notebook 最好的数据摘要工具

科技   2024-10-18 11:29   中国香港  

一个更强大的Python数据摘要工具

大家好,我是章北海

在数据科学领域,能够快速、准确地了解数据集的特性至关重要。

对使用 Jupyter Notebook 进行数据分析的用户而言,jupyter-summarytools 是一个强大且便捷的工具。

本文将详细介绍 jupyter-summarytools 的功能、安装方法及使用示例,帮助你在数据分析过程中事半功倍。

什么是 Jupyter Summary Tools?

jupyter-summarytools 是一个 Python 包,旨在为 Jupyter Notebook 用户提供类似于 R 语言中 summarytools 包的功能。它通过生成标准化且全面的数据框(DataFrame)摘要,帮助用户快速了解数据集的结构和主要特征。当前,jupyter-summarytools 主要提供了 dfSummary 函数,用于生成 HTML 格式的数据摘要,并支持多种展示方式,如可折叠摘要和标签页摘要。

主要特性

  • 标准化摘要:快速生成包含数据类型、缺失值、描述性统计等信息的综合摘要。

  • 可折叠摘要:通过折叠功能,用户可以选择性查看详细信息,避免信息过载。

  • 标签页摘要:将不同数据集的摘要以标签页形式展示,便于在同一页面查看多个数据集。

安装

在使用 jupyter-summarytools 之前,确保已安装该库。可以通过以下命令使用 pip 进行安装:

pip install summarytools

依赖

jupyter-summarytools 依赖于以下环境和库:

  1. Python:版本 3.6 及以上。
  2. Pandas:版本 1.4.0 及以上。

确保您的环境符合上述要求,以避免安装或运行时出现问题。

快速开始

以下是 jupyter-summarytools 的快速入门指南,帮助您快速在 Jupyter Notebook 中生成数据框的摘要。

基本用法

首先,导入必要的库并加载数据集:

import pandas as pdfrom summarytools import dfSummary
# 加载数据集titanic = pd.read_csv('./data/titanic.csv')
# 生成数据框摘要dfSummary(titanic)

可折叠摘要

为了更好地展示数据摘要,可以使用可折叠摘要功能:

import pandas as pdfrom summarytools import dfSummary
titanic = pd.read_csv('./data/titanic.csv')
# 生成可折叠的数据框摘要dfSummary(titanic, is_collapsible=True)

标签式摘要

jupyter-summarytools 还支持标签式摘要,允许在不同标签页中查看多个数据框的摘要:

import pandas as pdfrom summarytools import dfSummary, tabset
# 加载多个数据集titanic = pd.read_csv('./data/titanic.csv')vaccine = pd.read_csv('./data/country_vaccinations.csv')vaccine['date'] = pd.to_datetime(vaccine['date'])
# 生成标签式摘要tabset({ 'titanic': dfSummary(titanic).render(), 'vaccine': dfSummary(vaccine).render()})

导出 Notebook 为 HTML

在将 Jupyter Notebook 导出为 HTML 时,确保已安装并启用了 Export Embedded HTML 扩展。使用以下命令可以保留数据框摘要在导出的 HTML 中:

jupyter nbconvert --to html_embed path/of/your/notebook.ipynb
模型篇P1:机器学习基本概念
迄今最好的AI代码编辑器,编程只需狂按Tab
【大模型实战,完整代码】AI 数据分析、可视化项目
108页PDF小册子:搭建机器学习开发环境及Python基础 
116页PDF小册子:机器学习中的概率论、统计学、线性代数 
全网最全 Python、机器学习、AI、LLM 速查表(100 余张)
Obsidian AI写作神器:一键配置DeepSeek,写作效率飙升1000%!
基于 QAnything 的知识库问答系统:技术解析与应用实践【附代码】


机器学习算法与Python实战
长期跟踪关注统计学、数据挖掘、机器学习算法、深度学习、人工智能技术与行业发展动态,分享Python、机器学习等技术文章。回复机器学习有惊喜资料。
 最新文章