利用Pandas库进行数据筛选
为了高效地从数据集中筛选出满足特定条件的数据,可以利用 pandas 库中的布尔索引功能。这种方法允许基于一个或多个逻辑条件来选取数据子集。
import pandas as pd
# 创建示例 DataFrame
data = {'Name': ['Tom', 'Nick', 'Krish', 'Jack'],
'Age': [20, 21, 19, 18],
'City': ['New York', 'London', 'Sydney', 'Tokyo']}
df = pd.DataFrame(data)
# 单一条件筛选:年龄大于等于20岁的人
filtered_df_single_condition = df[df['Age'] >= 20]
# 多重条件筛选:来自伦敦且年龄小于21岁的个体
filtered_df_multiple_conditions = df[(df['City'] == 'London') & (df['Age'] < 21)]
print(filtered_df_single_condition)
print(filtered_df_multiple_conditions)
对于更加复杂的查询需求,还可以采用isin()函数用于匹配列表内元素;而当涉及到数值区间时,则可借助于between()方法。
查询字符串表达式的使用除了上述方式外,另一种简洁明了的选择是运用query()方法来进行数据过滤:
# 使用 query 方法执行相同的操作
filtered_query_method = df.query('City=="London" and Age<21')
print(filtered_query_method)
此语法不仅易于阅读而且支持更为灵活的SQL风格语句构建。
Excel文件中数据的提取与筛选如果目标是从Excel文档里获取并处理表格型数据,那么同样可以通过pandas.read_excel()加载工作表之后再实施相应的筛选策略。
# 假设有一个名为 "example.xlsx" 的 Excel 文件位于当前目录下
excel_data = pd.read_excel('./example.xlsx')
# 对读入的数据按照一定规则做进一步加工...
processed_data = excel_data[excel_data['SomeColumn'].notna()] # 移除某列为空值的所有行作为例子
综上所述,无论是简单的还是较为复杂的情形,在掌握了基本概念和技术手段的基础上都能顺利完成所需的任务。