偏差-方差分解
最近在看机器学习周志华那本书,受益颇多。我们先抛过来几个问题,再一一解答。 什么是偏差-方差分解?为什么提出这个概念? 什么是偏差?什么是方差? 什么是偏差-方差窘境?应对措施? 1、偏差-方差分解的提出 我们知道训练往往是为了得到泛化性能好的模型,前提假设是训练数据集是实际数据的无偏采样估计。但实际上这个假设一般不成立,针对这种情况我们会使用训练集训练,测试集测试其性能,上篇博文有介绍评估策略。对于模型估计出泛化性能,我们还希望了解它为什么具有这样的性能。这里所说的偏差-方差分解就是一种解释模型泛化性能的一种工具。它是对模型的期望泛化错误率进行拆解。 2、偏差-方差分解推导 样本可能出现噪声,使得收集到的数据样本中的有的类别与实际真实类别不相符。对测试样本 x,另 y d 为 x 在数据集中的标记,y 为真实标记,f(x;D) 为训练集D上学得模型 f 在 x 上的预测输出。接下来以回归任务为例: 模型的期望预测: 样本数相同的不同训练集产生的方差: 噪声: 期望输出与真实标记的差别称为偏差: 通过简单的多项式展开与合并,模型期望泛化误差分解如下: 画红线部分是分解后由这三部分方差、偏差、噪声组成。偏差那部分因为和D无关,所以去掉了E D 。画蓝线部分用了数学技巧,并且有两项等于0约简。 3、偏差、方差、噪声 偏差:度量了模型的期望预测和真实结果的偏离程度