Python Pandas中两个数据框架的交集

  • Post category:Python

Python Pandas中两个数据框架的交集可以使用merge函数实现,具体步骤如下:

1.导入Pandas库

import pandas as pd

2.创建两个数据框架DataFrame1和DataFrame2,每个数据框架包含两列数据,分别为Name和Age

data1 = {'Name': ['Tom', 'Jerry', 'Mickey', 'Minnie', 'Donald'], 'Age': [22, 24, 21, 23, 20]}
DataFrame1 = pd.DataFrame(data1)

data2 = {'Name': ['Mickey', 'Minnie', 'Daffy', 'Daisy', 'Goofy'], 'Age': [21, 23, 19, 24, 22]}
DataFrame2 = pd.DataFrame(data2)

3.使用merge函数将两个数据框架按照Name列进行合并,并设置参数how=’inner’表示取交集。这里需要注意的是,合并的两个数据框架必须至少有一个共同的列,以此作为合并的依据。

merge_df = pd.merge(DataFrame1, DataFrame2, on='Name', how='inner')

4.输出合并的结果

print(merge_df)

输出:

     Name  Age_x  Age_y
0  Mickey     21     21
1  Minnie     23     23

在上述代码中,Age_x表示来自DataFrame1的Age列,Age_y表示来自DataFrame2的Age列,两列都是用Name列作为合并的依据,最终输出了两个数据框架的交集,其中只有Mickey和Minnie两个人的信息被保留下来。

需要说明的是,以上代码只是一个简化的示例,实际使用中,两个数据框架的数据量往往比较大,因此必须先进行数据清洗、处理和格式化,以便更好地进行数据合并。