在Pandas中,可以使用drop_duplicates()方法来删除重复的内容。如果想要基于两列删除重复的内容,可以在方法中指定subset参数来指定这两列。下面将详细讲解基于两列的Pandas数据框架中删除重复的内容的攻略,过程中将以实例说明。
1. 创建数据框架
首先,我们需要创建一个示例数据框架。这里我们选择创建一个包含“name”和“age”的数据框架。
import pandas as pd
df = pd.DataFrame({
'name': ['John', 'Jane', 'John', 'Alice', 'Bob', 'Bob'],
'age': [25, 30, 25, 22, 27, 27]
})
print(df)
输出结果为:
name age
0 John 25
1 Jane 30
2 John 25
3 Alice 22
4 Bob 27
5 Bob 27
2. 基于两列删除重复的内容
接下来,可以使用drop_duplicates()方法,并将subset参数设置为[‘name’, ‘age’],来基于两列删除重复的内容。
df = df.drop_duplicates(subset=['name', 'age'])
print(df)
输出结果为:
name age
0 John 25
1 Jane 30
3 Alice 22
4 Bob 27
从输出结果可以看出,数据框架中重复的记录已经被删除。
3. 总结
以上就是基于两列的Pandas数据框架中删除重复的内容的完整攻略。只需要使用drop_duplicates()方法,并将subset参数设置为需要删除重复的列,就可以很容易地完成这一操作。