在公众号「python风控模型」里回复关键字:学习资料
介绍
您在数据科学任务中使用 Pandas 库多少次?几乎每次!Pandas 是一个必不可少的库,用于数据操作和以汇总表、可视化等形式从数据集中生成洞察力。
PandasGUI 是一个基于 Python 的库,它有助于使用 GUI 将数据操作和汇总统计应用于数据集。这意味着所有操作都将通过图形用户界面 (GUI) 执行,但 Pandas 将用于在后台执行它们。
在本文中,我将带您了解这个库的所有功能,它如何生成交互式绘图,以及如何访问为通过 GUI 执行的所有操作生成的自动 Python 代码!
安装
PandasGUI 是一个 Python 包,可以通过 pip 包管理器安装。注意:我建议使用 Python 3.8 及更高版本进行安装。另外,请确保创建一个单独的环境(虚拟环境)并将库安装在该环境中。
创建虚拟环境(conda)
在终端中运行这些命令
conda create -n nameofenv python=version
conda activate nameofenv
安装 pandasgui
pip install pandasgui
安装该库需要一点时间,因为它的依赖项非常重。
设置
首先,加载库。我们对初始化应用程序的 pandasGUI 库的 show() 函数。
from pandasgui import show
此功能可以通过两种方式使用:
您可以直接实例化 pandasGUI 显示功能,该功能将在没有任何数据集的情况下打开应用程序。
您可以将数据框传递给函数,应用程序将填充数据集的行和列。这样,您可以同时加载多个数据集,绕过所有数据框对象到 show() 方法。
现在,我们将加载没有任何数据集的应用程序,
show()
你会得到一个这样的屏幕:
各种功能
现在,我们将逐步探索此应用程序的所有功能。
加载数据集
要将数据集加载到应用程序中,您有多种选择:
将数据框对象传递给 show 函数
使用编辑菜单的“导入”选项手动添加
使用编辑菜单的“从剪贴板导入”从剪贴板导入数据框
使用调试菜单的“浏览样本数据集”加载任何样本数据集进行测试。
将 CSV 文件拖放到应用程序中
请参阅下面的 GIF:
屏幕操作
除了 pandasGUI 应用程序提供的各种选项卡和菜单外,您还可以通过触发显示的 GUI 元素直接应用一些操作:
1.显示的数据集的所有单元格都是可编辑的。您可以单击任何单元格并进行编辑。它与您在 Excel 工作表中所做的非常相似。任何值都可以直接更改。
2.右键单击列标题将为您提供一个交互式列菜单,其中包含按升序、降序对列进行排序、将列移动到最末端或在范围内、将包含日期的列作为字符串解析为熊猫日期时间的选项格式,并删除列选项。
3.通过拖动并选择数据集的任何部分,您可以复制该部分并将其粘贴到 Excel 工作表的任何单元格中。它将自动转换为表格格式,如应用程序本身所示。
4.右键单击左侧面板上的数据框名称,弹出从应用程序中删除数据框的选项。
过滤器
将过滤器应用于数据集是任何数据科学任务中最重要的任务之一。它有助于隔离数据集的一部分并处理该隔离部分。在 Pandas 中,您通常使用比较、列的阈值或整个数据集来过滤数据。在 pandasGUI 中,您可以使用右侧的“过滤器”选项卡执行相同类型的过滤。
输入过滤表达式,只显示满足条件的数据。请参阅下面的示例:
您可以应用多个过滤器并使用左侧的复选框启用/禁用它们。请参阅下面的示例,其中应用了多个文件管理器:
注意:所有过滤器都是在后台使用“pandas.dataframe.query()”方法应用的。
统计选项卡
统计数据在数据集所有特征的描述性视图中起着重要作用。这些包含诸如百分位数之类的参数,有助于深入了解数据的分布方式,均值(受影响的异常值)仍然可以告诉我们数据的中心,而标准差则告诉我们列数据在内部变化的程度。标准差为 0 的列将毫无用处,因为这意味着该列的所有值都相同,这对预测目标值毫无帮助。
要得出此类见解,请单击统计选项卡,您将获得数据类型、计数、唯一值数量、平均值、标准偏差和最小值-最大值的摘要。对于字符串类型的值,数值计算的参数(例如均值)将为空。
Grapher 选项卡
图形和可视化是使用视觉元素呈现数据摘要的非常强大的工具。例如,分布图可以帮助确定列值是否与正态分布/钟形曲线一致,这简化了我们确定总体参数和基于样本得出结论的任务。
箱线图有助于确定数据的分布,应将多少值视为异常值。它还表示 50% 的数据所在的位置。其他类型的图,如直方图、条形图、散点图、折线图、等高线图,各有优势,因此绘制数据很重要。
要使用 pandasGUI 绘制此类可视化,只需切换到 Grapher 选项卡,您将获得如下初始屏幕:
您可以选择直方图、散点图、条形图、箱线图、小提琴图、3D 散点图、热图、等高线图、饼图、splom、烛台、烛台和词云。所有这些图都是使用后端的 Plotly 库创建的,因此,这些图本质上是交互式的。
让我们绘制一些数据。要进行绘图,只需选择任何类型的绘图,然后将列名称从左侧面板拖到右侧提到的绘图参数中。请参阅以下示例:
您可以看到,随着“x”的增加,“价格”呈指数增长。由于情节后端,该情节本质上是交互式的。“x”、“y”、“颜色”等参数根据要显示的图而变化。例如,您不会获得词云的“x”、“y”参数。
让我们为不同的数据集 Google Play 商店应用评论绘制一个词云,其中包含有关应用反馈的文本信息:
列和参数面板底部提供了适用于每个图的其他常用选项。这些包括:
自定义 kwargs:由于绘图是 plotly,您可以添加 plotly express 支持的所有 kwargs。当前参数可能受限于最佳用例,但您可以使用此选项传递自定义参数。例如,可以使用“labels”参数将列“x”的默认名称更改为其他名称:
保存 HTML:使用此选项,您可以将生成的绘图保存到 HTML 文件中。这个文件可以独立使用,不需要任何后端。HTML 文件使用 JavaScript 以交互方式显示图形。
重置:此选项清除所有参数值。
代码导出:您可以使用此选项导出用于绘制图形的代码。该代码将缺少提供的自定义关键字,但基本代码将有助于您开始绘图。
预览 kwargs:它显示用于绘制图形的所有当前参数。
完成:每当您想重新运行绘图代码时,您都可以单击此选项。如果您应用了自定义参数并且想要重新加载应用了这些参数的图形,这将非常有用。
Reshaper Tab
汇总表(例如数据透视表)对于基于聚合函数(例如平均值、中值、总和等)汇总数据起着至关重要的作用。您可以使用 reshaper 选项卡简单地创建这些表。此选项卡提供数据透视表、熔化表、合并和连接表。只需将列名称从左侧面板拖到所需的参数,然后单击完成。
您将获得一个选择了摘要的新数据框。让我们创建一个数据透视表,以“切割”为索引,“颜色”为新列,以及钻石数据集的聚合平均值“深度”:
设置首选项
与任何其他应用程序一样,您可以使用设置的菜单集首选项选项更改 pandasGUI 的默认设置。您可以将应用程序的主题更改为暗模式,禁用可编辑的屏幕功能,将 auto_finish 设置为 True,更改渲染模式,将默认聚合函数从 mean 更改为其他函数,以及格式化标题。
导出数据集和代码
完成所有数据探索和操作后,您可以访问使用编辑菜单的导出代码选项执行的所有操作的 Pandas 等效代码。此代码将按照操作顺序进行格式化,并为每个执行的操作提供适当的注释。下图是通过 PandasGUI 生成代码
结论
在这篇详细的文章中,我向您介绍了 PandasGUI。它是通过图形用户界面执行数据操作和探索的非常强大的工具。我们从安装库开始,加载数据集,然后探索所有屏幕功能,更详细地查看每个选项卡,然后查看一些其它功能。
PandasGUI就为大家介绍到这里,欢迎各位同学报名《呆瓜半小时入门python数据分析》,学习更多相关知识
重庆未来之智信息技术咨询服务有限公司专业从事AI机器学习建模,为国内外多家金融公司建立模型。公司客户包括国内诸多金融机构,银行,证券公司,科研所。
同时我们也为科研高端人群提供专利,论文定制服务,例如研究生,博士生,导师涉及的毕业论文,申博论文,中文核心期刊,CCF,EI会议。
专利,论文定制服务项目提供发票,合同,流程全齐。
如果你有专利,论文定制服务需求,请商务联系QQ:231469242,微信:drug666123,或扫描下面二维码加微信咨询。