泛化误差上界
References
统计学习方法(第2版)李航著 p25~27
定理
对于二分类问题,当假设空间是有限个函数的集合F={f1,f2,...,fd}时,对任意一个函数f∈F,至少以概率1−δ,0<δ<1,以下不等式成立:R(f)≤R^(f)+ε(d,N,δ)其中,ε(d,N,δ)=2N1(logd+logδ1)
前置知识
关于f的期望风险:R(f)=E[L(Y,f(X))]经验风险:R^(f)=N1i=1∑NL(yi,f(xi))其中,L是损失函数。
个人理解
首先,看定理的名字“泛化误差上界”。泛化误差指的是模型f对未知数据预测的误差,大白话来说就是测试集上的cost。事实上,泛化误差就是期望风险R(f)。泛化误差反应了模型的真实性能。用一句话解释泛化误差上界,“模型实际表现最烂能烂到什么程度”。这个解释还不够严谨,继续补充。
接下来,看定理内容。注意到以下几点
- 定理的适用范围是二分类问题。这使得L为0-1损失函数,L的取值∈{0,1}。
- 集合F为模型的假设空间,包含了有限个备选函数。具体的个数为d。这句话可以在推导过程中有更深刻的体会。
- 1−δ的通俗含义。 对于集合F中任意的函数f,至少以1−δ的置信度使不等式成立。1−δ代表了这个上界的可信程度。
- 不等式含义。期望风险也就是泛化误差R(f),小于等于经验风险R^(f)加某个数ε。经验风险R^(f)就是模型f在训练集上的表现。假设我们训练好了一个模型f,那么R^(f)就是已知量了。对不等式移项得R(f)−R^(f)≤ε。根据直觉也能知道,期望风险肯定是比经验风险大的,大多少呢?可以看到,这个差距不超过ε。
- ε与R(f)上界的关系。ε是推导过程中产生的,仅为了美观。真正影响R(f)上界的是N,d,1−δ这三个参数。(1)N是训练样本数,N增大,ε减小,R(f)上界也减小,R(f)上界越接近R^(f)。对应的解释是样本大,训练就充分,当N取极限趋于无穷时,期望风险就趋于经验风险。(2)d表示假设空间中备选函数的个数,d增大,ε增大,R(f)上界也随之增大。这里可以理解为,可选的函数越多,模型就会变得复杂,训练更加困难,有点奥卡姆剃刀的意思。(3)置信度1−δ增大,δ减小,相应R(f)上界也增大。这是显然的,想要增加可信度,相应的也要放宽条件。
至此,我们已经可以用一句话总结定理了。“在有限个备选函数的模型假设空间里,通过训练集训练出来的模型,有一定概率在测试集中的表现是靠谱的”。我认为这个定理证明了机器学习的可行性和有效性。
公式推导
设X1,X2,...,XN是独立随机变量,且Xi∈[ai,bi],i=1,2,...,N;Xˉ是X1,X2,...,XN的经验均值,即Xˉ=N1∑i=1NXi,则对任意t>0,以下不等式成立:P[Xˉ−E(Xˉ)≥t]≤exp(−∑i=1N(bi−ai)22N2t2)P[E(Xˉ)−Xˉ≥t]≤exp(−∑i=1N(bi−ai)22N2t2)
- 将Hoeffding不等式中的X替换为L,其中Li=L(yi,f(xi)),Li∈[ai,bi],ai=0,bi=1;把t替换为ε。对任意函数f∈F,可得Lˉ=R^(f),E(Lˉ)=R(f)。整理的式子如下:P(R(f)−R^(f)≥ε)≤exp(−2Nε2)
- 因为F是有限集合,故
P(∃f∈F:R(f)−R^(f)≥ε)=P(f∈F⋃{R(f)−R^(f)≥ε})≤f∈F∑P(R(f)−R^(f)≥ε)≤dexp(−2Nε2)
- 令dexp(−2Nε2)=δ,易得P(R(f)<R^(f)+ε)≥1−δ。δ表示:在集合F中,存在f使得期望风险与经验风险的差值大于ε的概率。
证毕。
博主笨拙,文章难免有纰漏,请各位大佬留言指正,如有问题欢迎讨论。
如果您觉得文章对您有用,那就领个红包支持博主吧!^_^