Python NumPy绝对偏差和绝对平均偏差简介
在使用Python进行统计分析时,经常会用到“偏差”这个概念。偏差一般来说是指随机变量实现值(即观测值)与随机变量期望(即理论值)之间的差异。在Python的NumPy库中,可以使用绝对偏差和绝对平均偏差来衡量偏差的大小。
绝对偏差(Absolute Deviation)指的是一组数据中每个数据与这组数据的中位数之差的绝对值的平均数。绝对偏差越小,表示数据的变异性越小。
绝对平均偏差(Mean Absolute Deviation)指的是一组数据中每个数据与这组数据的平均数之差的绝对值的平均数。同样的,绝对平均偏差越小,表示数据的变异性越小。
接下来我们会详细讲解在Python NumPy中如何使用这两个指标进行统计分析。
案例演示
假设我们有一个列表,包含了10位数的年龄:
ages = [10, 15, 20, 30, 40, 50, 60, 70, 80, 90]
我们现在来计算这组数据的绝对偏差和绝对平均偏差。
计算绝对偏差
计算ages
列表的绝对偏差,首先需要导入NumPy库,然后使用numpy.median()
方法计算出列表的中位数,即可使用numpy.abs()
和numpy.mean()
方法来计算绝对偏差。
import numpy as np
ages = [10, 15, 20, 30, 40, 50, 60, 70, 80, 90]
median_age = np.median(ages)
absolute_deviations = np.abs(ages - median_age)
print("绝对偏差:", np.mean(absolute_deviations))
代码输出:
绝对偏差: 25.5
计算绝对平均偏差
计算ages
列表的绝对平均偏差,同样是先导入NumPy库,然后使用numpy.mean()
方法计算列表的平均数,再使用numpy.abs()
方法计算每个元素与平均数的差的绝对值。最后,使用numpy.mean()
方法计算绝对平均偏差:
import numpy as np
ages = [10, 15, 20, 30, 40, 50, 60, 70, 80, 90]
mean_age = np.mean(ages)
absolute_deviations = np.abs(ages - mean_age)
print("绝对平均偏差:", np.mean(absolute_deviations))
代码输出:
绝对平均偏差: 26.5
案例分析
根据以上的案例演示,我们可以看到,在计算ages
列表的绝对偏差和绝对平均偏差时,都是先计算了中位数或平均数,然后再计算每个数据与中位数或平均数的偏差,并对这些偏差值求平均值。绝对偏差和绝对平均偏差都是反映数据的离散程度的指标,我们可以用绝对偏差来度量数据离散情况的程度,也可以用绝对平均偏差更准确地度量。