机器学习基石(4)--Feasibility of Learning

大兔子大兔子 提交于 2020-02-09 05:05:03

第一讲主要讲述了机器学习好像对已输入的data以外的数据没有什么办法进行学习。

通过从罐子里取弹珠的例子来引出霍夫丁不等式。

如果样本足够大的时候,sample中的比例就是population中的比例。

下图指明了霍夫丁不等式对于机器学习有什么意义:

输入的数据就相当于随机在罐子里抓的一把弹珠,也就是sample;整个罐子就是population;我们通过机器学习,学习到了sample内的各种规律,根据霍夫丁不等式,在sample内学习到的规律同样也可以应用到整个population当中去。

更新Flow:

引入Ein(样本内误差)和Eout(样本外/总体误差):

根据霍夫丁不等式,Ein和Eout应该是差不多的。也就是说在机器学习中,我们只需要最小化Ein就可以了,Eout也会随着Ein的变小而变小。(样本要足够大)

如果出现了一个BAD sample:就是抽样的结果和总体样本的真实的样子完全不同,他们相差很大。而且,当这个BAD sample又会被其中一个备选的hypothesis看中时,得出的Ein就会很小,而原本这个备选的hypothesis并不是我们想要的那个最佳的g,它只是因为BAD sample的原因误打误撞成为了最好的hypothesis,这种结果一定不是我们希望看到的。

BAD的资料虽然很小,但是还是会有如下的缺点:

但是霍夫丁不等式又告诉我们说这个BAD的资料其实出现的概率很小:

根据上面的数学推导,坏事情发生的概率和M(hypothesis的数量)是正相关的。

如果备选的hypothesis是有限的,样本量是足够大的时候,机器学习是可行的。

如果备选的hypothesis是无限的,会在之后的章节中做详细解释。

总结:

标签
易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!