使用Numpy对特征中的异常值进行替换及条件替换方式
什么是异常值
异常值(Outliers)是在样本集中偏离其余观测值较远的观测值,它们可能是测量错误或与变量所代表的特定过程无关的随意观察结果。
用Numpy对特征中的异常值进行替换
- 识别异常值。
首先,需要识别数据集中的异常值。常用的方法有箱线图、帕累托图等。对于偏态分布的数据,可以通过离群值的Z-score来识别异常值,标准定义是距离均值>3个标准差。
import numpy as np
def detect_outlier_Zscore(data):
threshold = 3
mean = np.mean(data)
std = np.std(data)
Z_scores = [(i-mean)/std for i in data]
return np.where(np.abs(Z_scores) > threshold)
2.替换异常值
替换异常值的方法有很多,一个常用的方法是用均值或中位数替换异常值。
import numpy as np
def replace_with_mean(data):
mean = np.mean(data)
outlier_index = detect_outlier_Zscore(data)
data[outlier_index] = mean
用Numpy进行条件替换
用Numpy进行条件替换,即根据特定条件替换数组中的元素。
import numpy as np
array = np.array([1, 2, 3, 4, 5])
array[array < 4] = 0
通过条件array < 4
选择了元素1、2、3,将这些元素替换成0,输出结果为array([0, 0, 0, 4, 5])
。
另一个例子,替换数组中的非负数:
import numpy as np
array = np.array([1, -2, 3, -4, 5])
array[array < 0] = 0
通过条件array < 0
选择了元素-2和-4,将这些元素替换成0,输出结果为array([1, 0, 3, 0, 5])
。