首先,我们需要先了解一下Sklearn数据集的格式。
Sklearn数据集一般会包含两个属性:data 和 target。其中,data 代表样本的特征数据,是一个二维的数组;target 代表样本的类别标签,是一个一维的数组。
将 Sklearn 数据集转换成 Pandas 数据框的过程可以分为以下三个步骤:
步骤一:导入所需要的库和数据集
首先,在 Python 中,我们需要导入以下的库:
import pandas as pd
from sklearn import datasets
然后,选择所需要的数据集,例如 iris 数据集:
iris = datasets.load_iris()
注意,这里导入的是 datasets
模块中的 load_iris()
方法。同时,我们将导入的数据集保存在变量 iris
中,以备下一步使用。
步骤二:建立 Pandas 数据框
接下来,我们可以使用 Pandas 中的 DataFrame()
方法,将 iris.data
和 iris.target
合并成一个 Pandas 数据框:
df = pd.DataFrame(data=iris.data, columns=iris.feature_names)
df['target'] = iris.target
这里,我们先使用 pd.DataFrame()
方法将 iris.data
转换成 Pandas 数据框格式。其中,data
参数代表传入的数据,columns
参数指定了列名。然后,在新建的数据框中,我们再添加一列 target
,将 iris.target
的值附加到新建数据框的列中。
步骤三:保存 Pandas 数据框
最后,我们可以使用 Pandas 中的 to_csv()
方法将新建的数据框保存为 csv 文件:
df.to_csv('iris.csv', index=False)
其中,to_csv()
方法接收两个参数,第一个参数代表文件名,可以包含路径信息;第二个参数的默认值为 True
,表示将 Pandas 数据框的索引也保存到文件中。这里我们将 index
设为 False
,以避免保存索引。
综上,将 Sklearn 数据集转换为 Pandas 数据框的完整代码如下:
import pandas as pd
from sklearn import datasets
iris = datasets.load_iris()
df = pd.DataFrame(data=iris.data, columns=iris.feature_names)
df['target'] = iris.target
df.to_csv('iris.csv', index=False)
在这个例子中,我们选择了 iris 数据集,并将其转换成了 Pandas 数据框,并保存为 csv 文件 iris.csv。