让我针对“pandas系列之DataFrame行列数据筛选实例”给出一个完整攻略。
总体介绍
DataFrame
是 Pandas 中一个重要的数据结构,类似于电子表格或数据库中的表格。它由行和列组成,你可以对它们进行多种操作,包括调整列或行、添加或删除行或列、筛选数据等。
行列数据筛选是使用 DataFrame 的一个十分重要的功能。Pandas 提供了多种方法进行行列数据筛选。
在本攻略中,我们将介绍 DataFrame 的基本结构以及海量数据筛选和处理技巧,方便读者快速掌握这一重要的功能。
Part 1:DataFrame 的基本结构
- 创建 DataFrame
要创建一个 DataFrame,你需要使用 pd.DataFrame()
。下面是一个例子,展示如何通过列表创建一个 DataFrame:
import pandas as pd
data = {'name': ['Tom', 'Jerry', 'Mike', 'Lucy'],
'age': [28, 26, 34, 23],
'gender': ['M', 'M', 'M', 'F']
}
df = pd.DataFrame(data)
print(df)
输出结果:
name age gender
0 Tom 28 M
1 Jerry 26 M
2 Mike 34 M
3 Lucy 23 F
- DataFrame 排序
Pandas DataFrame 中的数据排序可以根据索引或列中的值进行排序。sort_values()
是 DataFrame 中用于排序的方法。下面的例子演示了如何根据“age”列中的数值对 DataFrame 排序:
df = pd.DataFrame(data)
sorted_df = df.sort_values("age")
print(sorted_df)
输出结果:
name age gender
3 Lucy 23 F
1 Jerry 26 M
0 Tom 28 M
2 Mike 34 M
Part 2:海量数据的行列数据筛选实例
- 按照条件筛选数据
我们可以使用 df.loc[]
方法按照特定的条件筛选数据,这个函数接受一个条件表达式作为参数,返回满足条件的所有行。下面展示如何筛选年龄在 30 岁以下的所有行:
df = pd.DataFrame(data)
young_people = df.loc[df['age'] < 30]
print(young_people)
输出结果:
name age gender
1 Jerry 26 M
3 Lucy 23 F
- 按照列名筛选数据
我们可以使用 df['columnName']
方法按照列名筛选数据,返回该列中的所有行。下面展示如何筛选 “name” 列:
df = pd.DataFrame(data)
names = df['name']
print(names)
输出结果:
0 Tom
1 Jerry
2 Mike
3 Lucy
Name: name, dtype: object
以上就是本攻略的基本内容,通过本攻略,你应该可以对 Pandas DataFrame 行列数据筛选有更进一步的了解。