PandasGUI | python可视化GUI 神器

财富   科技   2024-09-23 12:20   重庆  

在公众号「python风控模型」里回复关键字:学习资料


介绍

您在数据科学任务中使用 Pandas 库多少次?几乎每次!Pandas 是一个必不可少的库,用于数据操作和以汇总表、可视化等形式从数据集中生成洞察力。

PandasGUI 是一个基于 Python 的库,它有助于使用 GUI 将数据操作和汇总统计应用于数据集。这意味着所有操作都将通过图形用户界面 (GUI) 执行,但 Pandas 将用于在后台执行它们。

在本文中,我将带您了解这个库的所有功能,它如何生成交互式绘图,以及如何访问为通过 GUI 执行的所有操作生成的自动 Python 代码!

安装

PandasGUI 是一个 Python 包,可以通过 pip 包管理器安装。注意:我建议使用 Python 3.8 及更高版本进行安装。另外,请确保创建一个单独的环境(虚拟环境)并将库安装在该环境中。

创建虚拟环境(conda)

在终端中运行这些命令

conda create -n nameofenv python=version
conda activate nameofenv

安装 pandasgui

pip install pandasgui

安装该库需要一点时间,因为它的依赖项非常重。

设置

首先,加载库。我们对初始化应用程序的 pandasGUI 库的 show() 函数。

from pandasgui import show

此功能可以通过两种方式使用:

  1. 您可以直接实例化 pandasGUI 显示功能,该功能将在没有任何数据集的情况下打开应用程序。

  2. 您可以将数据框传递给函数,应用程序将填充数据集的行和列。这样,您可以同时加载多个数据集,绕过所有数据框对象到 show() 方法。


现在,我们将加载没有任何数据集的应用程序,

show()

你会得到一个这样的屏幕:


各种功能

现在,我们将逐步探索此应用程序的所有功能。

加载数据集

要将数据集加载到应用程序中,您有多种选择:

  1. 将数据框对象传递给 show 函数

  2. 使用编辑菜单的“导入”选项手动添加

  3. 使用编辑菜单的“从剪贴板导入”从剪贴板导入数据框

  4. 使用调试菜单的“浏览样本数据集”加载任何样本数据集进行测试。

  5. 将 CSV 文件拖放到应用程序中


请参阅下面的 GIF:


屏幕操作

除了 pandasGUI 应用程序提供的各种选项卡和菜单外,您还可以通过触发显示的 GUI 元素直接应用一些操作:

1.显示的数据集的所有单元格都是可编辑的。您可以单击任何单元格并进行编辑。它与您在 Excel 工作表中所做的非常相似。任何值都可以直接更改。

2.右键单击列标题将为您提供一个交互式列菜单,其中包含按升序、降序对列进行排序、将列移动到最末端或在范围内、将包含日期的列作为字符串解析为熊猫日期时间的选项格式,并删除列选项。

列标题选项



3.通过拖动并选择数据集的任何部分,您可以复制该部分并将其粘贴到 Excel 工作表的任何单元格中。它将自动转换为表格格式,如应用程序本身所示。

4.右键单击左侧面板上的数据框名称,弹出从应用程序中删除数据框的选项。

过滤器

将过滤器应用于数据集是任何数据科学任务中最重要的任务之一。它有助于隔离数据集的一部分并处理该隔离部分。在 Pandas 中,您通常使用比较、列的阈值或整个数据集来过滤数据。在 pandasGUI 中,您可以使用右侧的“过滤器”选项卡执行相同类型的过滤。

输入过滤表达式,只显示满足条件的数据。请参阅下面的示例:


通过“cut=ideal”过滤数据


您可以应用多个过滤器并使用左侧的复选框启用/禁用它们。请参阅下面的示例,其中应用了多个文件管理器:

将多个过滤器应用于数据集的示例

注意:所有过滤器都是在后台使用“pandas.dataframe.query()”方法应用的。

统计选项卡

统计数据在数据集所有特征的描述性视图中起着重要作用。这些包含诸如百分位数之类的参数,有助于深入了解数据的分布方式,均值(受影响的异常值)仍然可以告诉我们数据的中心,而标准差则告诉我们列数据在内部变化的程度。标准差为 0 的列将毫无用处,因为这意味着该列的所有值都相同,这对预测目标值毫无帮助。

要得出此类见解,请单击统计选项卡,您将获得数据类型、计数、唯一值数量、平均值、标准偏差和最小值-最大值的摘要。对于字符串类型的值,数值计算的参数(例如均值)将为空。


Grapher 选项卡

图形和可视化是使用视觉元素呈现数据摘要的非常强大的工具。例如,分布图可以帮助确定列值是否与正态分布/钟形曲线一致,这简化了我们确定总体参数和基于样本得出结论的任务。

箱线图有助于确定数据的分布,应将多少值视为异常值。它还表示 50% 的数据所在的位置。其他类型的图,如直方图、条形图、散点图、折线图、等高线图,各有优势,因此绘制数据很重要。

要使用 pandasGUI 绘制此类可视化,只需切换到 Grapher 选项卡,您将获得如下初始屏幕:


Grapher 选项卡初始屏幕

您可以选择直方图、散点图、条形图、箱线图、小提琴图、3D 散点图、热图、等高线图、饼图、splom、烛台、烛台和词云。所有这些图都是使用后端的 Plotly 库创建的,因此,这些图本质上是交互式的。

让我们绘制一些数据。要进行绘图,只需选择任何类型的绘图,然后将列名称从左侧面板拖到右侧提到的绘图参数中。请参阅以下示例:


您可以看到,随着“x”的增加,“价格”呈指数增长。由于情节后端,该情节本质上是交互式的。“x”、“y”、“颜色”等参数根据要显示的图而变化。例如,您不会获得词云的“x”、“y”参数。

让我们为不同的数据集 Google Play 商店应用评论绘制一个词云,其中包含有关应用反馈的文本信息:


列和参数面板底部提供了适用于每个图的其他常用选项。这些包括:

自定义 kwargs:由于绘图是 plotly,您可以添加 plotly express 支持的所有 kwargs。当前参数可能受限于最佳用例,但您可以使用此选项传递自定义参数。例如,可以使用“labels”参数将列“x”的默认名称更改为其他名称:


保存 HTML:使用此选项,您可以将生成的绘图保存到 HTML 文件中。这个文件可以独立使用,不需要任何后端。HTML 文件使用 JavaScript 以交互方式显示图形。

重置:此选项清除所有参数值。

代码导出:您可以使用此选项导出用于绘制图形的代码。该代码将缺少提供的自定义关键字,但基本代码将有助于您开始绘图。

预览 kwargs:它显示用于绘制图形的所有当前参数。

完成:每当您想重新运行绘图代码时,您都可以单击此选项。如果您应用了自定义参数并且想要重新加载应用了这些参数的图形,这将非常有用。


Reshaper Tab

汇总表(例如数据透视表)对于基于聚合函数(例如平均值、中值、总和等)汇总数据起着至关重要的作用。您可以使用 reshaper 选项卡简单地创建这些表。此选项卡提供数据透视表、熔化表、合并和连接表。只需将列名称从左侧面板拖到所需的参数,然后单击完成。

您将获得一个选择了摘要的新数据框。让我们创建一个数据透视表,以“切割”为索引,“颜色”为新列,以及钻石数据集的聚合平均值“深度”:



设置首选项

与任何其他应用程序一样,您可以使用设置的菜单集首选项选项更改 pandasGUI 的默认设置。您可以将应用程序的主题更改为暗模式,禁用可编辑的屏幕功能,将 auto_finish 设置为 True,更改渲染模式,将默认聚合函数从 mean 更改为其他函数,以及格式化标题。




导出数据集和代码

完成所有数据探索和操作后,您可以访问使用编辑菜单的导出代码选项执行的所有操作的 Pandas 等效代码。此代码将按照操作顺序进行格式化,并为每个执行的操作提供适当的注释。下图是通过 PandasGUI 生成代码

在同一个编辑菜单中,您可以选择导出修改后的数据框。您可以选择该选项或更轻松地,您可以将数据框名称拖放到任何文件夹,然后将为该数据框创建一个 CSV 文件。


结论

在这篇详细的文章中,我向您介绍了 PandasGUI。它是通过图形用户界面执行数据操作和探索的非常强大的工具。我们从安装库开始,加载数据集,然后探索所有屏幕功能,更详细地查看每个选项卡,然后查看一些其它功能。


PandasGUI就为大家介绍到这里,欢迎各位同学报名《呆瓜半小时入门python数据分析》,学习更多相关知识

专利_论文建模定制服务


重庆未来之智信息技术咨询服务有限公司专业从事AI机器学习建模,为国内外多家金融公司建立模型。公司客户包括国内诸多金融机构,银行,证券公司,科研所。

同时我们也为科研高端人群提供专利,论文定制服务,例如研究生,博士生,导师涉及的毕业论文,申博论文,中文核心期刊,CCF,EI会议。

专利,论文定制服务项目提供发票,合同,流程全齐。

如果你有专利,论文定制服务需求,请商务联系QQ:231469242,微信:drug666123,或扫描下面二维码加微信咨询。


python风控模型
金融风控领域企业科研,论文核心期刊,专利,毕业设计建模定制服务,商务联系QQ:231469242
 最新文章