如何计算Pandas数据框架列的不同值

计算 Pandas 数据框架列的不同值可以使用 value_counts() 函数。该函数可用于计算数据框架某一列中不同值出现的个数，并返回计数结果及相应的索引。

以下是使用 value_counts() 函数的步骤：

import pandas as pd
df = pd.read_csv('file.csv')

counts = df['column_name'].value_counts()

例如，假设存在名为 grades.csv 的文件，包含学生姓名、科目和成绩。要计算每个科目下各个成绩出现的次数，可以使用以下代码：

import pandas as pd
df = pd.read_csv('grades.csv')
counts = df['subject'].value_counts()
print(counts)

输出结果将如下所示：

Math    5
English 4
Science 3
Name: subject, dtype: int64

其中，索引是科目名称，值是该科目下不同成绩值出现的次数。例如，在 Math 科目中，出现了 5 种不同的成绩。可以通过 counts['Math'] 或 counts.loc['Math'] 获得这个值。

注意，Pandas 默认将字符串值排在值计数结果的首位，因此您不需要为数据预处理。如果您希望按照值的出现次数对值进行排序，则可以传递额外的参数 sort=True 给 value_counts() 函数。

Tags: pandas