从Pandas数据框架中随机选择列

  • Post category:Python

从 Pandas 数据框架中随机选择列需要用到 Pandas 库中的 sample() 方法,该方法可以实现从 DataFrame 中随机选择指定数量或比例的行或列。

首先,我们需要导入 Pandas 库。示例代码如下:

import pandas as pd

接下来,我们可以使用 pandas.read_csv() 方法读取 CSV 文件并将其转换为 DataFrame。示例代码如下:

df = pd.read_csv('data.csv')  # 读取 CSV 文件并转换为 DataFrame

完成数据的读取和转换后,就可以使用 DataFrame.sample() 方法随机选择指定数量或比例的列。示例代码如下:

# 从 DataFrame 中随机选择一列
random_col = df.sample(axis=1).iloc[:, 0]

# 从 DataFrame 中随机选择两列
random_cols = df.sample(axis=1, n=2)

# 从 DataFrame 中随机选择 50% 的列
random_cols_50_percent = df.sample(axis=1, frac=0.5)

在上面的示例代码中,我们首先使用 sample() 方法从 DataFrame 中随机选择了一列,其中 axis=1 表示按列选择,iloc[:, 0] 则表示选择第一列(即随机选择的那一列)。接着,我们使用 sample() 方法随机选择了两列,其中 n=2 表示选择两列。最后,我们使用 sample() 方法随机选择了 50% 的列,其中 frac=0.5 表示选择 50% 的列。

值得注意的是,使用 sample() 方法随机选择列时,默认情况下会排除包含空值(NaN)的列。如果需要包含空值的列,可以将 dropna 参数设置为 False。示例代码如下:

random_cols_with_na = df.sample(axis=1, n=2, dropna=False)

在上面的示例代码中,我们将 dropna 参数设置为 False,即可包含空值的列。

以上就是从 Pandas 数据框架中随机选择列的完整攻略,使用 sample() 方法可以实现快速、方便的随机选择列的功能。