一般步骤
一、得到数据集并做预处理
1.分割数据集(train_test_split)
可以用train_test_split来处理得到的数据集,代码基本形式如下:
from sklearn.model_selection import train_test_split
X_train, X_test, Y_train, Y_test = train_test_split(X_original, Y_original, test_size=0.2)
2.数据集归一化
使用StandScaler进行归一化,归一化目的是为了让数据之间的差别不那么大。代码基本形式如下:
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
scaler.fit_transform(X_train)
scaler.transform(X_test)
二、选择机器学习中的算法,确定模型
首先,确定目的。目的是为了分类,还是为了回归。
之后,确定是多类别输出、多标签输出还是单一输出,如何确定可查看我另一篇文章:点击此处
然后,根据分类和回归来选择估计器estimator、得分指标(如MSE、ACCURACY)等。
算法很多,不同算法对应不同estimator。无脑一点,estimator可以随便选择,然后通过得分来选择适合的esitmator。
算法种类不再赘述。
三、训练模型并进行交叉验证(调超参、选estimator等)
有空更新(我的结果跑出来了哈哈哈)
四、验证曲线与学习曲线
五、训练数据集多次训练(epoch)
六、测试数据测试模型
七、预测新结果
说明:LZ每次都是程序在跑的时候更新文章,刚刚LZ的结果跑出来了,处理一下哈哈哈哈,后面几项慢慢更新,不慌。
来源:CSDN
作者:haha456487
链接:https://blog.csdn.net/haha456487/article/details/103990636