Pandas是Python中一个非常强大的数据处理库,它提供了许多有用的功能来处理和分析数据。以下是Pandas经常用到的案例。
生成DataFrame数据
import pandas as pd
data = {
'Name': ['Tom', 'Nick','Tom', 'John'],
'Age': [20, 21, 19,20]
}
df = pd.DataFrame(data)
print(df)
查看数据
print(df.head()) # 查看前5行数据
print(df.tail()) # 查看后5行数据
print(df.info()) # 查看数据框的基本信息
print(df.describe()) # 查看数据的统计信息
选择数据
# 通过列名选择数据
print(df['Name'])
# 通过行索引选择数据
print(df.loc[0])
# 通过条件选择数据
print(df[df['Age'] > 20])
数据过滤与排序
# 筛选年龄大于20的数据
filtered_data = df[df['Age'] > 20]
print(filtered_data)
# 对数据进行排序
sorted_data = df.sort_values(by='Age')
print(sorted_data)
缺失值处理
# 引入缺失值
df.loc[3, 'Name'] = np.nan
# 查看缺失值
print(df.isnull())
# 删除含有缺失值的行
df = df.dropna()
print(df)
数据合并
data2 = {
'Name': ['Alice', 'Bob', 'Charlie'],
'Age': [40, 30, 18]
}
df2 = pd.DataFrame(data2)
# 合并两个数据框
merged_data = pd.concat([df, df2], ignore_index=True)
print(merged_data)
数据分组
# 根据姓名分组并计算年龄之和
grouped_data = df.groupby('Name').sum()
print(grouped_data)
数据可视化
import matplotlib.pyplot as plt
df.plot(x='Name', y='Age', kind='bar')
plt.show()
数据保存与读取
# 保存数据到CSV文件
df.to_csv('data.csv', index=False)
# 从CSV文件读取数据
df = pd.read_csv('data.csv')
print(df)
数据切片
# 获取第1行到第2行的数据(不包括第2行)
sliced_data = df.iloc[1:2]
print(sliced_data)
数据类型转换
# 将Age列转换为整数类型
df['Age'] = df['Age'].astype(int)
print(df)
重命名列名
# 重命名列名
df.rename(columns={'Age': 'New Age'}, inplace=True)
print(df)
修改列的值
# 修改列的值
df['New Age'] = df['Age'] + 10
print(df)
添加新列
# 添加新列
df['City'] = ['Beijing', 'Shanghai', 'Guangzhou','Wuhan']
print(df)
删除列
# 删除列
df.drop('City', axis=1, inplace=True)
print(df)
重置索引
# 重置索引
df.reset_index(drop=True, inplace=True)
print(df)
合并多个数据框
data3 = {
'Name': ['David', 'Emily', 'Frank'],
'Age': [50, 60, 70]
}
df3 = pd.DataFrame(data3)
# 合并三个数据框
merged_data2 = pd.concat([df, df2, df3], ignore_index=True)
print(merged_data2)
以上就是Pandas最常用的一些函数的使用代码示例。通过这些示例,我们可以方便地进行数据的导入、查看、选择、过滤、排序、缺失值处理、合并、可视化以及保存和读取等操作。掌握这些技巧将极大地提升我们在数据分析和处理方面的能力。