如何在Pandas中用平均值填充NAN值

  • Post category:Python

在Pandas中,使用平均值填充缺失值是一种常见的数据清洗操作。下面详细介绍如何使用平均值填充缺失值。

首先,假设我们有一个数据集,其中包含一些缺失值。

例如,我们有以下数据集:

import pandas as pd
import numpy as np

data = pd.DataFrame({'A': [1, 2, np.nan, 4],
                     'B': [5, np.nan, 7, 8],
                     'C': [9, 10, 11, np.nan]})

这个数据集中有一些缺失值(即NaN值)。

接下来,我们可以使用fillna()函数来填充缺失值。具体地,我们可以使用mean()函数计算每列的平均值,并将其用于填充该列中的所有缺失值。

以下是用平均值填充NAN值的代码:

# 计算每列的平均值
means = data.mean()

# 用平均值填充缺失值
data = data.fillna(means)

在这个例子中,我们使用了mean()函数计算了各列的平均值,然后将其传递给fillna()函数。

运行以上代码后,数据集中的所有缺失值都将用各列的平均值进行了填充。

如果我们想用中位数去填充缺失值,我们可以使用median()函数代替mean()函数。如果我们想用众数去填充缺失值,我们可以使用mode()函数代替mean()函数。

因此,在Pandas中使用平均值填充缺失值是一种非常常见和简单的操作,通常用于数据清洗和准备。