训练集,验证集和测试集
注: 好文章摘抄自 https://testerhome.com/topics/11390 模型训练的时候通常会将数据分成三部分。 分别是training set, dev set(也叫validation set)和 test set。 在模型调研过程中,training set用来训练模型, dev set用来统计单一评估指标,调节参数, 选择算法。 test set 则用来在最后整体评估模型的性能。 三者之间的关系与作用 如上图,假设有一份数据,会将它按一定的规则进行拆分。其中training set和dev set分别输入到了逻辑回归算法中,而test set则是在模型训练结束后,被输入到模型中评估结果。 我们可以根据report来看一下他们各自的作用。 尤其是dev set和test set,在很多文章中对他们的介绍很模棱两可,让人搞不明白他们之间到底有什么区别。 给我的感觉就是写文章的人也不懂,在那里随便写写罢了。 我们先看training set和dev set,因为他们都被输入到了模型训练算法中。 上图是模型训练的report。 我们可以从中看到training set和dev set(图中叫验证集) 的auc指标。这里便引入了dev set的作用, training set 很好理解,训练模型用的。 而dev set的作用就是在这里很方便的评估算法的单一评估指标