李航统计学习方法笔记——泛化误差上界

泄露秘密 提交于 2020-03-03 06:54:00

泛化误差上界

References

统计学习方法(第2版)李航著 p25~27

定理

对于二分类问题,当假设空间是有限个函数的集合F={f1,f2,...,fd}F=\{f_1,f_2,...,f_d\}时,对任意一个函数fFf\in F,至少以概率1δ1-\delta0<δ<10<\delta<1,以下不等式成立:R(f)R^(f)+ε(d,N,δ)R(f)\leq \hat{R}(f)+\varepsilon(d,N,\delta)其中,ε(d,N,δ)=12N(logd+log1δ)\varepsilon(d,N,\delta)=\sqrt{\frac{1}{2N}(\log{d}+\log{\frac{1}{\delta}})}

前置知识

关于ff的期望风险:R(f)=E[L(Y,f(X))]R(f)=E[L(Y,f(X))]经验风险:R^(f)=1Ni=1NL(yi,f(xi))\hat{R}(f)=\frac{1}{N}\sum_{i=1}^NL(y_i,f(x_i))其中,LL是损失函数。

个人理解

首先,看定理的名字“泛化误差上界”。泛化误差指的是模型ff对未知数据预测的误差,大白话来说就是测试集上的cost。事实上,泛化误差就是期望风险R(f)R(f)。泛化误差反应了模型的真实性能。用一句话解释泛化误差上界,“模型实际表现最烂能烂到什么程度”。这个解释还不够严谨,继续补充。
接下来,看定理内容。注意到以下几点

  1. 定理的适用范围是二分类问题。这使得LL为0-1损失函数,LL的取值{0,1}\in\{0,1\}
  2. 集合FF为模型的假设空间,包含了有限个备选函数。具体的个数为dd。这句话可以在推导过程中有更深刻的体会。
  3. 1δ1-\delta的通俗含义。 对于集合FF中任意的函数ff,至少以1δ1-\delta的置信度使不等式成立。1δ1-\delta代表了这个上界的可信程度
  4. 不等式含义。期望风险也就是泛化误差R(f)R(f),小于等于经验风险R^(f)\hat{R}(f)加某个数ε\varepsilon。经验风险R^(f)\hat{R}(f)就是模型ff在训练集上的表现。假设我们训练好了一个模型ff,那么R^(f)\hat{R}(f)就是已知量了。对不等式移项得R(f)R^(f)εR(f)-\hat{R}(f)\leq\varepsilon。根据直觉也能知道,期望风险肯定是比经验风险大的,大多少呢?可以看到,这个差距不超过ε\varepsilon
  5. ε\varepsilonR(f)R(f)上界的关系。ε\varepsilon是推导过程中产生的,仅为了美观。真正影响R(f)R(f)上界的是N,d,1δN,d,1-\delta这三个参数。(1)NN是训练样本数,NN增大,ε\varepsilon减小,R(f)R(f)上界也减小,R(f)R(f)上界越接近R^(f)\hat{R}(f)。对应的解释是样本大,训练就充分,当N取极限趋于无穷时,期望风险就趋于经验风险。(2)dd表示假设空间中备选函数的个数,dd增大,ε\varepsilon增大,R(f)R(f)上界也随之增大。这里可以理解为,可选的函数越多,模型就会变得复杂,训练更加困难,有点奥卡姆剃刀的意思。(3)置信度1δ1-\delta增大,δ\delta减小,相应R(f)R(f)上界也增大。这是显然的,想要增加可信度,相应的也要放宽条件。

至此,我们已经可以用一句话总结定理了。“在有限个备选函数的模型假设空间里,通过训练集训练出来的模型,有一定概率在测试集中的表现是靠谱的”。我认为这个定理证明了机器学习的可行性和有效性。

公式推导

  • 首先介绍Hoeffding不等式。

X1,X2,...,XNX_1,X_2,...,X_N是独立随机变量,且Xi[ai,bi],i=1,2,...,NX_i\in[a_i,b_i],i=1,2,...,NXˉ\bar{X}X1,X2,...,XNX_1,X_2,...,X_N的经验均值,即Xˉ=1Ni=1NXi\bar{X}=\frac{1}{N}\sum_{i=1}^NX_i,则对任意t>0t>0,以下不等式成立:P[XˉE(Xˉ)t]exp(2N2t2i=1N(biai)2)P[\bar{X}-E(\bar{X})\geq t]\leq \exp\left({-\frac{2N^2t^2}{\sum_{i=1}^N(b_i-a_i)^2}}\right)P[E(Xˉ)Xˉt]exp(2N2t2i=1N(biai)2)P[E(\bar{X})-\bar{X}\geq t]\leq \exp\left({-\frac{2N^2t^2}{\sum_{i=1}^N(b_i-a_i)^2}}\right)

  • 将Hoeffding不等式中的XX替换为LL,其中Li=L(yi,f(xi))L_i=L(y_i,f(x_i))Li[ai,bi],ai=0,bi=1L_i\in [a_i,b_i],a_i=0,b_i=1;把tt替换为ε\varepsilon。对任意函数fFf\in F,可得Lˉ=R^(f)\bar{L}=\hat{R}(f)E(Lˉ)=R(f)E(\bar{L})=R(f)。整理的式子如下:P(R(f)R^(f)ε)exp(2Nε2)P(R(f)-\hat{R}(f)\geq\varepsilon)\leq\exp(-2N\varepsilon^2)
  • 因为FF是有限集合,故
    P(fF:R(f)R^(f)ε)=P(fF{R(f)R^(f)ε})fFP(R(f)R^(f)ε)dexp(2Nε2)\begin{aligned} P(\exist f\in F:R(f)-\hat{R}(f)\geq\varepsilon)&=P(\bigcup_{f\in F}\{R(f)-\hat{R}(f)\geq\varepsilon\})\\&\leq\sum_{f\in F}P(R(f)-\hat{R}(f)\geq\varepsilon)\\&\leq d\exp(-2N\varepsilon^2) \end{aligned}
  • dexp(2Nε2)=δd\exp(-2N\varepsilon^2)=\delta,易得P(R(f)<R^(f)+ε)1δP(R(f)< \hat{R}(f)+\varepsilon)\geq1-\deltaδ\delta表示:在集合FF中,存在ff使得期望风险与经验风险的差值大于ε\varepsilon的概率。

证毕。


博主笨拙,文章难免有纰漏,请各位大佬留言指正,如有问题欢迎讨论。
如果您觉得文章对您有用,那就领个红包支持博主吧!^_^
在这里插入图片描述

标签
易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!