交叉验证

妖精的绣舞 提交于 2020-03-06 03:16:13

交叉验证可分解为交叉和验证,两者都必不可少。

先讲讲较常见的cross-validation的例子

step 1: 将有标签的数据平均分为6份, D1, D2, D3, D4, D5, D6, 将D6设置成测试集,不参与任何的模型训练和参数选择,只用来评估最后模型的结果

step 2: 对所有想要测试数据预处理,模型和参数的组合列出来 (unigram 处理特征的 c=1 的 linear SVM, bigram 处理特征的 c=1 的 linear SVM)。

step 3: D1 到 D5轮流做validation set, 用剩余四个做模型训练集, 训练每一个step 2 得到的组合。并在validation set上计算度量指标(MSE, ACCURACY, F1等)。

step 4: 根据每个模型组合在五个validation set中的平均指标,选出最好的模型组合

step 5: 选择最好的模型参数组合, 使用D1,D2,D3,D4,D5来进行训练,并计算在D6上的指标,用此来估计模型的泛化误差

 



作者:大数据小学生
链接:https://www.zhihu.com/question/39259296/answer/623836397
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。
标签
易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!