干货|PRML读书后记(一): 拟合学习
1 优美的高斯分布 [P29]图1.16很好的描绘了这样表达的优美之处: 2 极大似然估计的病态拟合 3 参数-Regularizer 4 先验分布:高斯分布 高斯分布应该算是我们认知中,描绘一切连续型数值不确定性的最基本、最硬派的先验知识了。 甭管你是什么妖魔鬼怪,只要你是连续的,不是离散的,先给你套个高斯分布的罪状。 当然,钦定高斯分布从数学角度是由原因的,和其优美的数学共轭形式有关。 [P98]的练习证明了,高斯似然分布 x 高斯先验分布,结果仍然是一个高斯分布。 (此证明需要熟读第二章关于高斯分布的 150 个公式,需要很好的概率论、线代基础。) 高斯分布在数学形式上有许多便利,比如下面提到的零均值简化版高斯分布,这为贝叶斯方法招来很多 恶评,[P23] 是这样解释的:贝叶斯方法广受批判的原因之一,是因为其在选取先验概率分布上,根据的是 数学形式的便利为基础而不是 先验分布的信度 。 贝叶斯方法讲究推导严谨,公式齐全,对于那些奇怪的、无法用数学语言表达原理的、广布自然界的先验知识, 如Deep Learning思想,自然不会考虑,这也是为什么有人会认为Deep Learning与Bayesian是对着干的。[Quroa] 5 波动性惩罚:简化高斯分布 6 稀疏性惩罚:L1 Regularizer I、大脑中有1000亿以上的神经元,但是同时只有1%~4%激活