Pandas 是 Python 中最为流行的数据分析库之一,提供了丰富的数据处理工具,其中包括处理频率统计问题的功能。在 Pandas 中,我们可以通过使用 value_counts()
方法对一列数据进行频率统计。在频率统计的结果中,通常会包括两个常见的指标:绝对频率和相对频率。
绝对频率
绝对频率指的是某个值在整个数据集中出现的次数。在 Pandas 中,我们可以通过使用 value_counts()
方法来计算绝对频率。下面是一个使用 value_counts()
方法计算绝对频率的示例代码:
import pandas as pd
# 构造一个示例数据集
data = [1, 2, 2, 3, 3, 3, 4, 4, 4, 4]
df = pd.DataFrame({'data': data})
# 计算绝对频率
freq = df['data'].value_counts()
print(freq)
在上述代码中,我们首先构造了一个示例数据集,然后使用 value_counts()
方法对数据集中的每个值进行计数,并将结果存储到一个名为 freq
的变量中。最后,我们使用 print()
函数将计算结果输出到控制台中。
运行代码后,你会看到输出结果如下:
4 4
3 3
2 2
1 1
Name: data, dtype: int64
该结果中,每行表示一个数据值及其对应的绝对频率。例如,第一行表示数值 4 在数据集中出现了 4 次,因此其绝对频率为 4。
相对频率
相对频率指的是某个值在整个数据集中出现的比例。在 Pandas 中,我们可以通过将绝对频率除以总数来计算相对频率。下面是一个使用 Pandas 计算相对频率的示例代码:
import pandas as pd
# 构造一个示例数据集
data = [1, 2, 2, 3, 3, 3, 4, 4, 4, 4]
df = pd.DataFrame({'data': data})
# 计算相对频率
freq = df['data'].value_counts(normalize=True)
print(freq)
与计算绝对频率的代码类似,我们在上述代码中使用 value_counts()
方法计算每个数据值的出现次数,并将 normalize
参数设置为 True
来计算相对频率。最后,我们使用 print()
函数将计算结果输出到控制台中。
运行代码后,你会看到输出结果如下:
4 0.4
3 0.3
2 0.2
1 0.1
Name: data, dtype: float64
该结果中,每行表示一个数据值及其对应的相对频率。例如,第一行表示数值 4 在数据集中出现的比例为 40%,因此其相对频率为 0.4。
绝对频率和相对频率是频率统计中两个重要的概念。计算绝对频率和相对频率是帮助我们更好地理解数据集分布特征的重要手段。