神经网络参数初始化方法

文章目录

过大或者过小的初始化
1. 所有的参数初始化为0或者相同的常数
2. 随机初始化
3. Batch Normalization
4. Xavier

限制
均匀分布
正态分布

5. MSRA

正态分布
均匀分布
总结及使用的概率公式

神经网络模型一般依靠随机梯度下降进行模型训练和参数更新，网络的最终性能与收敛得到的最优解直接相关，而收敛结果实际上又很大程度取决于网络参数的最开始的初始化。理想的网络参数初始化使模型训练事半功倍，相反，糟糕的初始化方案不仅会影响网络收敛，甚至会导致梯度弥散或爆炸。

参数初始化的理想状态是参数正负各半，期望为0。

过大或者过小的初始化

如果权值的初始值过大，则会导致梯度爆炸，使得网络不收敛；过小的权值初始值，则会导致梯度消失，会导致网络收敛缓慢或者收敛到局部极小值。

如果权值的初始值过大，则loss function相对于权值参数的梯度值很大，每次利用梯度下降更新参数的时，参数更新的幅度也会很大，这就导致loss function的值在其最小值附近震荡。

而过小的初值值则相反，loss关于权值参数的梯度很小，每次更新参数时，更新的幅度也很小，着就会导致loss的收敛很缓慢，或者在收敛到最小值前在某个局部的极小值收敛了。

1. 所有的参数初始化为0或者相同的常数

最简单的初始化方法就是将权值参数全部初始化为0或者一个常数，但是使用这种方法会导致网络中所有的神经元学习到的是相同的特征。

当网络达到稳定状态时，参数（权值）在理想情况下应该保持正负各半（此时期望为0）。因此一种看起来简单的方法，干脆将所有参数都初始化为0, 因为这样可以使得初始化全零时参数的期望与网络稳定时参数期望一致。
但是，参数全是零时网络不同神经元的输出必然相同，相同的输出必然导致梯度更新完全一样，这样会令更新后的参数仍然保持一样的状态。换句话说，如果参数进行了全零的参数化，那么网络神经元将无法训练模型。例如，对于 $y=WX+b$ ，由于参数W需要和X乘积，因此不能初始化为0，而b可以。

2. 随机初始化

3. Batch Normalization

4. Xavier

初始化方法由Bengio等人在2010年的论文《Understanding the difficulty of training deep feedforward neural networks》中提出。

它为了保证前向传播和反向传播时每一层的方差一致:在正向传播时，每层的激活值的方差保持不变；在反向传播时，每层的梯度值的方差保持不变。根据每层的输入个数和输出个数来决定参数随机初始化的分布范围，是一个通过该层的输入和输出参数个数得到的分布范围内的均匀分布。

基于上述的准则，初始的权值参数 $(W^l)$ （ $l$ 为网络的第 $l$ 层）要符合以下公式

$\begin{aligned} W^{[l]} & \sim \mathcal{N}\left(\mu=0, \sigma^{2}=\frac{1}{n^{[l-1]}}\right) \\ b^{[l]} &=0 \end{aligned}$

其中 $n^{l-1}$ 是第 $l-1$ 层的神经元的个数。也就是说，初始的权值 $w$ 可以从均值 $\mu = 0$ ，方差为 $\sigma^{2}=\frac{1}{n ^{l-1}}$ 的正态分布中随机选取。

正向传播的推导过程：

推导过程中的三个假设：

权值矩阵 $w$ 是独立同分布的，且其均值为0
每一层的输入 $a$ 是独立同分布的，且均值也为0
$w$ 和 $a$ 是相互独立的

设 $L$ 层的权值矩阵为 $W$ ，偏置为 $b$ ,其输入为 $a$

$z^l = w^la^{l-1} + b^l$

则

$Var(z^l) = Var(\sum_{i=0}^nw_{i}^la_i^l) = \sum_{i=0}^n Var(w_{i}^la_i^{l-1})$

有统计概率的知识可得到：(第一个假设 $W$ , $x$ 相互独立）

$Var(w_ix_i) = E^2(w_i)Var(w_i) + E^2(x_i)Var(x_i) + Var(w_i)Var(x_i)$

由第一第二个假设可知： $l$ 层输入的均值为0，权值参数 $W$ 的均值也为0，即: $E(x_i) = 0,E(w_i) = 0$ 则有： $Var(w_ix_i) = Var(w_i)Var(x_i)$ ，即

$Var(z^l) = \sum_{i=0}^nVar(w_i^l)Var(x_i^{l-1})$

设权值矩阵 $W$ 独立同分布的则有

$Var(w^l) = Var(w_{11}^l) = \cdots = Var(W_{ij}^l)$

输入 $a^{l-1}$ 也是独立同分布的有：

$Var(a^{l-1}) = Var(a_1^{l-1}) = \cdots = Var(a_i^{l-1})$

则有

$Var(z^l) = n^{l-1}Var(w^l)Var(a^{l-1})$

$n^{l-1}$ 是第 $l-1$ 层的神经元的个数

这里得出了第 $l$ 层输入到激活函数中的值 $z^l$ 与其输入 $a^{l-1}$ （也就是上一层输出的激活值）的方差之间的关系。但我们假设的是每一层输出的激活值的方差保持不变，也就是说要得到 $Var(a^l)$ 和 $Var(a^{l-1})$ 之间的关系。

设 $f$ 为激活函数，则有

$a^l = f(z^l)$

Xavier假设的激活函数为tanh，其函数曲线为

其中间的部分可以近似线性linear regime，而在训练的过程就要保证激活值是落在这个线性状体的区间内的，不然就会出现梯度饱和的情况。所以，这里可以近似的有

$a^l = tanh(z^l)$

也就是说：

$Var(a^l) = Var(z^l) = n^{l-1}Var(w^l)Var(a^{l-1})$

要让每一层的激活值的方差保持不变，则有

$Var(a^l) = Var(a^{l-1})$

即有

$Var(w^l) = \frac{1}{n^{l-1}}$

通常输入神经元和输出神经元的个数不一定总是相同的，这里取两者的均值

$\forall i, \operatorname{Var}\left(W^{l+1}\right)=\frac{2}{n_{l}+n_{l+1}}$

限制

对于权值的初始化，Glorot提出两个准则：

各个层激活值的方差保持不变（正向传播）
各个层的梯度值的方差保持不变（反向传播）

在Xavier的推导的过程中，做了以下假设：

权值矩阵 $w$ 是独立同分布的，且其均值为0
每一层的输入 $a$ 是独立同分布的，且均值也为0
$w$ 和 $a$ 是相互独立的

但是，对Xavier限制最大的则是，其是基于tanh作为激活函数的。
上述公式的详细推导过程可参见 http://www.deeplearning.ai/ai-notes/initialization/ 。

Xavier的初始化有个假设条件，激活函数关于0对称，且主要针对于全连接神经网络。适用于tanh和softsign。

均匀分布

通过上面的推导，得出权值矩阵的均值为：0，方差为

$\forall i, \operatorname{Var}\left(W^{l+1}\right)=\frac{2}{n_{l}+n_{l+1}}$

$[a,b]$ (间的均匀分布的方差为) $var = \frac{(b-a)^2}{12}$ ,设 $F_{in}$ (为输入的神经元个数) $F_{out}$ 为输出的神经元个数

$limit = \sqrt{\frac{6}{F_{in} + F_{out}}}$

则权值参数从分布

$W \sim U[-limit,limit] \rightarrow W \sim U\left[-\sqrt{\frac{6}{F_{in} + F_{out}}}, + \sqrt{\frac{6}{F_{in} + F_{out}}}\right]$

正态分布

基于正态分布的Xavier初始化从均值为0，方差为 $\sqrt{\frac{2}{F_{in} + F_{out}}}$ 的正态分布中随机选取。

$W \sim N(0.0,\sqrt{\frac{2}{F_{in} + F_{out}}})$

5. MSRA

由何凯明在论文Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification提出，由于Xavier的假设条件是激活函数是关于0对称的，而常用的ReLU激活函数并不能满足该条件。

只考虑输入的个数，MSRA的初始化是一个均值为0，方差为 $\sqrt{\frac{2}{F_{in}}}$ 的高斯分布

$w \sim G\left[0, \sqrt{\frac{2}{F_{in }}}\right]$
正向传播的推导过程：

其前半部分的推导和Xavider类似,对于第l层，有如下公式 :

$\mathbf{y}_{l}=\mathbf{W}_{l} \mathbf{x}_{l}+\mathbf{b}_{l}$
其中

$x_l$ 为当前层的输入，也是上一层的激活后的输出值
$y_l$ 为当前层输入到激活函数的值
$w_l$ 和 $b_l$ 为权值和偏置

其中 $x_l$ 以及 $w_l$ 都是独立同分布的，（和Xavier相同的假设条件），则有：

$\operatorname{Var}\left[y_{l}\right]=n_{l} \operatorname{Var}\left[w_{l} x_{l}\right]$
设 $w_l$ 的均值为0，即 $E(w_l)=0$ ,则有：

$\begin{aligned} \operatorname{Var}(y_l) & = n_{l}(E(W_l^2) \cdot E(x_l^2) - E^2(w_l) \cdot E^2(x_l)) \\ &= n_{l}(E(W_l^2) \cdot E(x_l^2) - 0 \cdot E^2(x_l)) \\ & = n_{l}(E(W_l^2) \cdot E(x_l^2) - 0 \cdot E(x_l^2)) \\ & = n_{l}(E(W_l^2) \cdot E(x_l^2) - E^2(w_l) \cdot E(x_l^2)) \\ & = n_{l}(E(W_l^2) - E^2(w_l)) \cdot E(x_l^2) \\ & = n_{l} \operatorname{Var}(w_l) \cdot E(x_l^2) \end{aligned}$
这里有和Xavier一个很大的不同是，这里没有假设输入的值的均值为0。这是由于，使用ReLU的激活函数， $x_l = max(0,y_{l-1})$ ,每层输出的值不可能均值为0。

上面最终得到
$\operatorname{Var}(y_l) = n_{l} \operatorname{Var}(w_l) \cdot E(x_l^2)$
初始化时通常设， $w$ 的均值为0，偏置 $b=0$ ，以及 $w$ 和 $x$ 是相互独立的，则有

$\begin{aligned} \operatorname{E}(y_l) &= \operatorname{E}(w_lx_l) \\ &= \operatorname{E}(x_l) \cdot \operatorname{E}(w_l) \\ &= 0 \end{aligned}$
也就是说， $y_l$ 的均值为0。

再假设 $w$ 是关于0对称分布的（均匀分布，高斯分布都符合），则可以得到 $y_l$ 在0附近也是对称分布的。

这样，使用ReLU作为激活函数，则有

$x_l = max(0,y_{l-1})$
由于只有当 $y_l−1>0$ 的部分， $x_l$ 才有值，且 $y_l$ 在0附近也是对称分布的，则可以得到

$\begin{aligned} \operatorname{E}(x_l^2) &=\frac{1}{2} \operatorname{E}(y_{l-1}^2） \\ &= \frac{1}{2}({E}(y_{l-1}^2) - E(y_{l-1})),(由于E(y_{l-1}) = 0）\\ & = \frac{1}{2}\operatorname{Var}(y_{l-1}) \end{aligned}$

将得到的

$\operatorname{E}(x_l^2) = \frac{1}{2}\operatorname{Var}(y_{l-1})$

带入到

$\operatorname{Var}(y_l) = n_{l} \operatorname{Var}(w_l) \cdot E(x_l^2)$

则可以得到

$\operatorname{Var}\left[y_{l}\right]=\frac{1}{2} n_{l} \operatorname{Var}\left[w_{l}\right] \operatorname{Var}\left[y_{l-1}\right]$

将所有层的方差累加到一起有：

$\operatorname{Var}\left[y_{L}\right]=\operatorname{Var}\left[y_{1}\right]\left(\prod_{l=2}^{L} \frac{1}{2} n_{l} \operatorname{Var}\left[w_{l}\right]\right)$