干货|PRML读书后记(一): 拟合学习

1 优美的高斯分布

[P29]图1.16很好的描绘了这样表达的优美之处：
干货|PRML读书后记(一): 拟合学习

2 极大似然估计的病态拟合

干货|PRML读书后记(一): 拟合学习

3 参数-Regularizer

干货|PRML读书后记(一): 拟合学习

4 先验分布：高斯分布

高斯分布应该算是我们认知中，描绘一切连续型数值不确定性的最基本、最硬派的先验知识了。

甭管你是什么妖魔鬼怪，只要你是连续的，不是离散的，先给你套个高斯分布的罪状。

当然，钦定高斯分布从数学角度是由原因的，和其优美的数学共轭形式有关。

[P98]的练习证明了，高斯似然分布 x 高斯先验分布，结果仍然是一个高斯分布。

(此证明需要熟读第二章关于高斯分布的 150 个公式，需要很好的概率论、线代基础。)

高斯分布在数学形式上有许多便利，比如下面提到的零均值简化版高斯分布，这为贝叶斯方法招来很多

恶评，[P23] 是这样解释的：贝叶斯方法广受批判的原因之一，是因为其在选取先验概率分布上，根据的是

数学形式的便利为基础而不是先验分布的信度。

贝叶斯方法讲究推导严谨，公式齐全，对于那些奇怪的、无法用数学语言表达原理的、广布自然界的先验知识，

如Deep Learning思想，自然不会考虑，这也是为什么有人会认为Deep Learning与Bayesian是对着干的。[Quroa]

5 波动性惩罚：简化高斯分布

干货|PRML读书后记(一): 拟合学习

6 稀疏性惩罚：L1 Regularizer

干货|PRML读书后记(一): 拟合学习

I、大脑中有1000亿以上的神经元，但是同时只有1%~4%激活，而且每次激活的区域都不一样。

这是生物神经中的稀疏性。

II、稀疏性将原本信息缠绕密集数据给稀疏化，得到稀疏特征表达。比如将实数5，稀疏为一个[1,0,1]向量，

很容易线性可分了。又比如识别一直鸟，只要把噪声给稀疏掉，保留关键部位，最后就有更好的特征表达。

这是特征表达上的稀疏性，实际应用有[稀疏编码][深度神经网络]，当然还有我们的生物神经网络。

当然，以上和L1 Regularizer毫无关系，因为它稀疏的姿势错了，要不然还要Deep Learning作甚。

首先，这个稀疏策略没有Adaptive性，它并不会智能地的发现哪里需要稀疏，哪里不需要稀疏。

从数学规划问题角度理解，它就是一个多元的约束条件，至于哪个元倒霉到被约束至0，这个没人能确定。

其次，参数W直接影响着模型拟合能力，对它错误地稀疏0化，会造成严重的欠拟合。

基于以上两点，不能认为L1与L2类似，就认为L1也能缓解过拟合，实际上它更有可能造成欠拟合。

7 L1&L2 Regularizer图形化理解

来自[P146]、[P107].CHS.HIT.马春鹏的有趣配图，似乎能解释为什么L1会直接得到0，而L2却是无限接近0。
干货|PRML读书后记(一): 拟合学习

8 更好地发现特征：Adaptive Represention Regularizer

Hinton组的[Erhan10] 认为Deep Learning的Pre-Training也是一个Regularizer，原因有二：

其一，预训练后参数W的搜索方向，有更大可能从局部最小值中逃逸。

其二，预训练后参数W的搜索方向，让似然函数值变大，但是得到了更好的归纳能力(测试错误率变低)。

第一点是比较神奇的Regularizer效果，即使是身披图灵奖的Bayesian方法，也是无法解释的。

第二点有点像是L2 Regularizer的效果，但是更大可能是与模型内部存有的Attention机制有关。

若是固定Pre-Training之后的参数W，那么Pre-Training等效于一个非线性的PCA，预先注入了

对无标签观测数据的先验知识，即得到了更合理的P(W)，这又是Bayesian方法所无法解释的。

9 可靠的稀疏性：Adaptive Sparsity Regularizer

Deep Learning中有两个能够自适应引入稀疏性的方法，[ReLU]&[Dropout]。

I、[ReLU]对神经元的输出稀疏，而神经元的输出显然是可变的。

II、[Dropout]是对神经元的输出稀疏，不过方式有点特别，采用随机概率来决定，而不是自适应方法。

但这并不能表明[Dropout]得不到自适应稀疏，它的自适应恰恰来自于随机本身。

由于随机性，每次网络结构都不同，这压迫了参数W朝一个稳定方向调整。

如2.1.2分析，[I]可以认为是发现了稀疏特征，替代L1。[II]可以认为是类似生物神经网络的稀疏激活机制，替代L2。

这两者并不冲突，所以常规Deep Learning模型中，[I]+[II]是标配手段。

博客园：http://www.cnblogs.com/neopenx/p/4820567.html

干货|PRML读书后记(一): 拟合学习

1

优美的高斯分布

2

极大似然估计的病态拟合

3

参数-Regularizer

4

先验分布：高斯分布

5

波动性惩罚：简化高斯分布

6

稀疏性惩罚：L1 Regularizer

7

L1&L2 Regularizer图形化理解

8

更好地发现特征：Adaptive Represention Regularizer

9

可靠的稀疏性：Adaptive Sparsity Regularizer

推荐阅读：