第一讲主要讲述了机器学习好像对已输入的data以外的数据没有什么办法进行学习。
通过从罐子里取弹珠的例子来引出霍夫丁不等式。
如果样本足够大的时候,sample中的比例就是population中的比例。
下图指明了霍夫丁不等式对于机器学习有什么意义:
输入的数据就相当于随机在罐子里抓的一把弹珠,也就是sample;整个罐子就是population;我们通过机器学习,学习到了sample内的各种规律,根据霍夫丁不等式,在sample内学习到的规律同样也可以应用到整个population当中去。
更新Flow:
引入Ein(样本内误差)和Eout(样本外/总体误差):
根据霍夫丁不等式,Ein和Eout应该是差不多的。也就是说在机器学习中,我们只需要最小化Ein就可以了,Eout也会随着Ein的变小而变小。(样本要足够大)
如果出现了一个BAD sample:就是抽样的结果和总体样本的真实的样子完全不同,他们相差很大。而且,当这个BAD sample又会被其中一个备选的hypothesis看中时,得出的Ein就会很小,而原本这个备选的hypothesis并不是我们想要的那个最佳的g,它只是因为BAD sample的原因误打误撞成为了最好的hypothesis,这种结果一定不是我们希望看到的。
BAD的资料虽然很小,但是还是会有如下的缺点:
但是霍夫丁不等式又告诉我们说这个BAD的资料其实出现的概率很小:
根据上面的数学推导,坏事情发生的概率和M(hypothesis的数量)是正相关的。
如果备选的hypothesis是有限的,样本量是足够大的时候,机器学习是可行的。
如果备选的hypothesis是无限的,会在之后的章节中做详细解释。
总结:
来源:https://www.cnblogs.com/cyoutetsu/p/5911765.html