如何在Python中把Sklearn数据集转换成Pandas数据框

  • Post category:Python

首先,我们需要先了解一下Sklearn数据集的格式。

Sklearn数据集一般会包含两个属性:data 和 target。其中,data 代表样本的特征数据,是一个二维的数组;target 代表样本的类别标签,是一个一维的数组。

将 Sklearn 数据集转换成 Pandas 数据框的过程可以分为以下三个步骤:

步骤一:导入所需要的库和数据集

首先,在 Python 中,我们需要导入以下的库:

import pandas as pd
from sklearn import datasets

然后,选择所需要的数据集,例如 iris 数据集:

iris = datasets.load_iris()

注意,这里导入的是 datasets 模块中的 load_iris() 方法。同时,我们将导入的数据集保存在变量 iris 中,以备下一步使用。

步骤二:建立 Pandas 数据框

接下来,我们可以使用 Pandas 中的 DataFrame() 方法,将 iris.datairis.target 合并成一个 Pandas 数据框:

df = pd.DataFrame(data=iris.data, columns=iris.feature_names)
df['target'] = iris.target

这里,我们先使用 pd.DataFrame() 方法将 iris.data 转换成 Pandas 数据框格式。其中,data 参数代表传入的数据,columns 参数指定了列名。然后,在新建的数据框中,我们再添加一列 target,将 iris.target 的值附加到新建数据框的列中。

步骤三:保存 Pandas 数据框

最后,我们可以使用 Pandas 中的 to_csv() 方法将新建的数据框保存为 csv 文件:

df.to_csv('iris.csv', index=False)

其中,to_csv() 方法接收两个参数,第一个参数代表文件名,可以包含路径信息;第二个参数的默认值为 True,表示将 Pandas 数据框的索引也保存到文件中。这里我们将 index 设为 False,以避免保存索引。

综上,将 Sklearn 数据集转换为 Pandas 数据框的完整代码如下:

import pandas as pd
from sklearn import datasets

iris = datasets.load_iris()
df = pd.DataFrame(data=iris.data, columns=iris.feature_names)
df['target'] = iris.target
df.to_csv('iris.csv', index=False)

在这个例子中,我们选择了 iris 数据集,并将其转换成了 Pandas 数据框,并保存为 csv 文件 iris.csv。