如何在Python中使用Sklearn进行培训测试分割

  • Post category:Python

使用Sklearn进行培训测试分割,主要分为以下几个步骤:

1.导入必要的库

在进行培训测试分割之前需要导入必要的库,包括Sklearn库和Python常用的相关库。其中Sklearn库中的train_test_split模块用于进行培训测试分割。

import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split

2.读取数据并进行预处理

进行培训测试分割之前,需要先读取数据,并对数据进行预处理,包括数据清洗,特征选择等。根据预处理的结果,将数据分为特征数据和目标数据。

data = pd.read_csv('data.csv')
# 进行数据清洗和特征选择,最终得到特征数据features和目标数据target
features = data.iloc[:, :-1]
target = data.iloc[:, -1]

3.进行培训测试分割

使用train_test_split函数,将数据按照一定比例进行培训测试分割,其中test_size参数控制测试数据的比例,random_state参数控制数据分割的随机程度,一般情况下取默认值即可。

# 设置测试样本比例为30%
X_train, X_test, y_train, y_test = train_test_split(features, target, test_size=0.3, random_state=0)

4.使用分割后的数据进行建模和评估

将分割后的数据进行建模和评估,比如使用Sklearn库中的分类器或回归器进行建模,并使用测试数据进行评估。以下是一个示例:

from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score

# 使用逻辑回归分类器进行建模
lr = LogisticRegression()
lr.fit(X_train, y_train)

# 使用测试数据进行评估
y_pred = lr.predict(X_test)
accuracy = accuracy_score(y_test, y_pred)
print('Accuracy: {:.2f}%'.format(accuracy * 100))

除了逻辑回归之外,还可以使用SVM、决策树、KNN等不同的分类器或回归器进行建模和评估。