当我们进行数据分析时,经常需要对数据进行标准化(也叫归一化)。标准化处理可以将不同变量的数据转化为同一范围内,消除数据之间的量纲差异,便于分析。在 Pandas 数据框架中,标准化数据可以使用 StandardScaler
类来实现。
下面我们来演示一个例子:
import pandas as pd
from sklearn.preprocessing import StandardScaler
# 构造一个数据框架
df = pd.DataFrame({
'A': [1, 2, 3, 4, 5],
'B': [100, 200, 300, 400, 500],
'C': [0.1, 0.2, 0.3, 0.4, 0.5]
})
# 创建标准化器对象,并对数据进行标准化
scaler = StandardScaler()
df_scaled = scaler.fit_transform(df)
# 将标准化后的数据转为数据框架,并打印出来
df_scaled = pd.DataFrame(df_scaled, columns=df.columns)
print(df_scaled)
在这个例子中,我们首先构造了一个数据框架,其中包含三列数据。然后,我们创建了一个 StandardScaler
对象,使用 fit_transform
方法对数据进行标准化。标准化后的数据被存储在 df_scaled
变量中,其中每一列的数据都已经满足均值为 0,标准差为 1 的特性。最终,我们将标准化后的数据再转为数据框架,并打印出来。
需要注意的是,标准化数据要基于每一个列进行计算,因此在整个过程中,我们都没有改变数据框架的列名和列数,而只是将数据进行了标准化处理。