Pandas高效处理数据方法汇总

文摘   2024-10-21 00:08   湖北  

Pandas是Python中用于数据分析和处理的一个非常流行的库。它提供了大量的函数和方法来帮助数据科学家和分析师进行高效的数据处理。在本文中,我们将详细介绍Pandas中一些最常用的函数和方法。

1. 基本统计方法

Pandas提供了一系列的描述性统计方法,这些方法可以快速地对数据进行基本的统计分析。

  • mean(): 计算列的均值。
  • median(): 计算列的中位数。
  • min()max(): 分别计算列的最小值和最大值。
  • sum(): 计算列的总和。
  • std()var(): 分别计算列的标准差和方差。
  • count(): 计算列中非空值的数量。

示例代码

import pandas as pd

# 创建DataFrame
df = pd.DataFrame({
    'A': [1234],
    'B': [5678]
})

# 计算均值
mean_a = df['A'].mean()
print(f"Mean of A: {mean_a}")

# 计算总和
sum_b = df['B'].sum()
print(f"Sum of B: {sum_b}")

2. 数据清洗

数据清洗是数据分析中的重要步骤,Pandas提供了多种方法来处理缺失值和重复值。

  • dropna(): 删除包含缺失值的行或列。
  • fillna(): 填充缺失值。
  • drop_duplicates(): 删除重复的行。
  • unique(): 返回列中的唯一值。

示例代码

# 删除缺失值
df_dropped = df.dropna()

# 填充缺失值
df_filled = df.fillna(0)

# 删除重复值
df_unique = df.drop_duplicates()

3. 数据转换

数据转换是将数据从一种形式或格式转换为另一种形式。

  • map(): 将Series中的值映射到一个函数或字典。
  • apply(): 对DataFrame中的每个元素应用一个函数。

示例代码

# 使用map函数
df['A'] = df['A'].map(lambda x: x*2)

4. 数据筛选

数据筛选是在DataFrame中选择特定的数据子集。

  • query(): 基于条件表达式筛选数据。
  • loc[]: 基于标签选择数据。
  • iloc[]: 基于整数位置选择数据。

示例代码

# 使用query筛选
filtered_df = df.query('A > 2')

# 使用loc筛选
selected_df = df.loc[df['A'] > 2, ['A''B']]

# 使用iloc筛选
selected_df = df.iloc[1:30:2]

5. 数据合并

数据合并是将多个数据集合并成一个。

  • merge(): 合并两个DataFrame。
  • concat(): 沿着一个轴将多个对象堆叠在一起。

示例代码

# 创建另一个DataFrame
df2 = pd.DataFrame({
    'A': [567],
    'C': [91011]
})

# 使用merge合并
merged_df = pd.merge(df, df2, on='A')

6. 数据分组

数据分组是将数据集分割成组,并对每组进行聚合运算。

  • groupby(): 根据某些标准将数据分组。

示例代码

# 使用groupby分组并计算均值
grouped_df = df.groupby('A').mean()

7. 数据排序

数据排序是将数据按照一定的顺序排列。

  • sort_values(): 根据一个或多个列的值对DataFrame进行排序。
  • sort_index(): 根据索引标签对DataFrame进行排序。

示例代码

# 使用sort_values排序
sorted_df = df.sort_values(by='A')

# 使用sort_index排序
sorted_df = df.sort_index()

8. 数据重塑

数据重塑是改变数据的形状。

  • pivot_table(): 创建透视表。
  • melt(): 将DataFrame从宽格式转换为长格式。
  • wide_to_long(): 将宽格式DataFrame转换为长格式。

示例代码

# 使用pivot_table创建透视表
pivot_table = df.pivot_table(index='A', columns='B', values='A', aggfunc='mean')

# 使用melt
melted_df = df.melt(id_vars=['A'], value_vars=['B'])

9. 数据聚合

数据聚合是将数据分组并进行计算。

  • agg(): 将一个或多个聚合函数应用于DataFrame的列。

示例代码

# 使用agg聚合
aggregated_df = df.agg({'A''mean''B''sum'})

10. 窗口函数和滚动操作

窗口函数和滚动操作用于计算数据的滑动窗口统计量。

  • rolling(): 提供滚动窗口计算。
  • expanding(): 提供扩展窗口计算。

示例代码

# 使用rolling计算滑动平均
rolling_mean = df['A'].rolling(window=2).mean()

# 使用expanding计算扩展平均
expanding_mean = df['A'].expanding().mean()

11. 时间序列分析

Pandas在处理时间序列数据方面也非常强大,提供了许多专门的方法。

  • shift(): 将数据沿指定轴移动,常用于时间序列数据的滞后(lag)或提前(lead)分析。
  • diff(): 计算数据的差分,用于发现时间序列数据的变化。

示例代码

# 使用shift进行滞后分析
df_lagged = df.shift(1)

# 使用diff计算日增长率
df_diff = df['A'].diff()

12. 条件选择

条件选择用于基于条件表达式选择数据。

  • numpy.where(): 基于条件选择元素。

示例代码

import numpy as np

# 使用numpy.where选择
selected_values = np.where(df['A'] > 2, df['A'], 0)

13. 数据索引

Pandas提供了灵活的索引功能。

  • set_index(): 将列设置为索引。
  • reset_index(): 重置索引。

示例代码

# 设置索引
df_set = df.set_index('A')

# 重置索引
df_reset = df_set.reset_index()

14. 数据切片

数据切片是选择DataFrame中的一部分数据。

  • .iloc[]: 基于整数位置的切片。
  • .loc[]: 基于标签的切片。

示例代码

# 使用iloc进行切片
df_slice = df.iloc[1:30:2]

# 使用loc进行切片
df_slice = df.loc[(df['A'] > 1) & (df['B'] < 8), ['A''B']]

15. 数据可视化

Pandas可以与Matplotlib等可视化库结合,提供数据可视化功能。

  • .plot(): 绘制数据的图表。

示例代码

# 使用plot绘制线图
df['A'].plot()

Pandas是一个功能丰富的库,提供了大量的函数和方法来处理和分析数据。从基本的统计分析到复杂的数据转换和聚合,Pandas都能提供有效的解决方案。掌握这些函数和方法,将极大地提高大家的数据处理能力。


Python学习杂记
数据分析与挖掘、运筹优化、机器学习、AI 、数据可视化等。
 最新文章