基于两列的Pandas数据框架中删除重复的内容

  • Post category:Python

在Pandas中,可以使用drop_duplicates()方法来删除重复的内容。如果想要基于两列删除重复的内容,可以在方法中指定subset参数来指定这两列。下面将详细讲解基于两列的Pandas数据框架中删除重复的内容的攻略,过程中将以实例说明。

1. 创建数据框架

首先,我们需要创建一个示例数据框架。这里我们选择创建一个包含“name”和“age”的数据框架。

import pandas as pd

df = pd.DataFrame({
    'name': ['John', 'Jane', 'John', 'Alice', 'Bob', 'Bob'],
    'age': [25, 30, 25, 22, 27, 27]
})
print(df)

输出结果为:

    name  age
0   John   25
1   Jane   30
2   John   25
3  Alice   22
4    Bob   27
5    Bob   27

2. 基于两列删除重复的内容

接下来,可以使用drop_duplicates()方法,并将subset参数设置为[‘name’, ‘age’],来基于两列删除重复的内容。

df = df.drop_duplicates(subset=['name', 'age'])
print(df)

输出结果为:

    name  age
0   John   25
1   Jane   30
3  Alice   22
4    Bob   27

从输出结果可以看出,数据框架中重复的记录已经被删除。

3. 总结

以上就是基于两列的Pandas数据框架中删除重复的内容的完整攻略。只需要使用drop_duplicates()方法,并将subset参数设置为需要删除重复的列,就可以很容易地完成这一操作。