课时12 神经网络训练细节part2(上)
训练神经网络是由四步过程组成,你有一个完整的数据集图像和标签,从数据集中取出一小批样本,我们通过网络做前向传播得到损失,告诉我们目前分类效果怎么样。然后我们反向传播来得到每一个权重的梯度,这个梯度告诉我们如何去调整每一个权重,最终我们能够更好的分类图片。
为什么要使用激活函数?
如果在整个的神经网络中不使用激活函数,你的网络的分类能力基本等同于一个线性分类器,所以激活函数是相当关键的。他提供了所有的方法,你可以他用来存储数据
BN使得网络的训练更加健壮。
参数更新
补救SGD垂直进展快的方法,使用动量更新,他可以理解为一个球滚动着接近中间,在这个情况下的梯度可以视作一种动力,物理学中的这种力量,就相当于加速度,而mu倍的v相当于摩擦力。
v初始化为0,其实没什么影响
学习速率是应用到所有方向上的
Nesterov动量更新
我们直接达到这个目的,然后计算梯度。
我们进行了重新整理
虽然有很多局部最小值,但是他们的损失其实是差不多的。当你扩大神经网络的规模时候,你的最坏和最好局部最小值之间的差别随着时间的推移会越来越小。有研究表明,基本上也就不存在坏的局部最小值了,当然这也只在很小的网络中出现。事实上,你用不同的值初始化,你会得到相同的结果和损失,所以,基本上不存在不好的局部最小值。
AdaGrad更新
由凸优化理论发展而来的,然后被移植到了神经网络中,他的实现和一些基本的随机梯度下降的形式是一样的,我们用附加变量来放缩梯度,我们在不停地增加这一附加变量。这里的cache在这里由梯度的平方和构成,他一定是正数。变量cache是一个联合矢量,他和你的主向量是一样大的,因此cache在每一个维度计算其相应的梯度的平方和,我们有时称他为第二moment,我们将这些cache构造起来,然后逐项用这一函数除以cache的平方,这就是人们称他为每个参数自适应学习速率的方法的原因。因为参数空间的每一维,都有自己的学习速率,他会根据梯度的规模大小而动态的变化。le-7是一个平滑因子,一个超参数,防止除数变为0
问题:我们长时间训练,不断有正数加到分母的cache变量中,更新步长就会逐渐衰减到0,最后完全停止学习
改进:其主要思想是不再是在每一维度计算平方和而是变成一个泄漏的变量,最后我们利用衰减率这个超参数
Adam更新
一个动量m表示的是梯度的一阶矩,把他用指数和展开的形式表示。adagrad记录的是梯度的二阶矩,并按指数和形式表示,然后就得到Adam的更新了。可以从另一个角度来理解他,通过小批量抽样处理,在前向传播中你会得到很多随机值,你会得到这些带有噪声的梯度。所以相比于在每一步都用各自梯度值运算,我们实际上是利用前面几个梯度的衰减和,这样能稳定梯度方向,这就是动量的作用。放缩的作用是确保梯度大和梯度小的方向步长相关。
课时13 神经网络训练细节part2(下)
集成模型
小技巧:例如,当你在训练神经网络时设置一些检查点,通常是每个时期建立一个,对每个检查点都去验证这在验证集中的表现。这说明了你可以在模型中设置不同的检查点,然后在处理集合中使用他们,这被证明能够使得结果有所改善。
随机失活
在你进行神经网络前向传播的时候,你要随机的把一些神经元置零。计算每个隐藏层的激活函数,然后随机挑选出一半神经元失活。在反向传播中也要进行随机失活
意义:可以防止过拟合,因为如果我们只用网络的一半的话,他的表达能力就小了很多,我们每次只用一半网络的话,我们就能相对减少在训练中涉及到的变量数(从而减少过拟合的概率)
另一种解释是随机失活可以被视为训练一个由很多小模型集成而成的大模型。每一个子网络都是原来大网络的一个子网络,但是原网络和子网络之间并不能很好的分享参数。我们在前向传播的时候,随机失活一些,在反向传播过程中,我们也要经过这些掩模。在这时,只有那些在前向传播过程中,我们用到的没有失活的神经元的参数或者说经过这些神经元的梯度才会被更新。所以,在随机失活这个过程中,其实只是训练了一个在某一次取样中,选择的原网络的一部分。换句话说,每一个二进制掩模(随机失活后的网络)都是一个新模型,他只会被一个数据训练一次。
当你失活一个神经元的时候,他的权值也就不更新了,如果我们取样了网络的一部分,我们只会用一个数据点来训练这个子网络(因为每次循环中都有新的子网络)。每次我们都会用网络不同的部分来训练,但是他们之间都会有相同的参数(两次取样没有失活的部分),也就是说在多次循环中我们会用相同的数据点来训练不同的有共同参数的模型,这就是随机失活大概的意思。
如果想要更强的正则化,则可以失活更多的神经元。
来源:https://www.cnblogs.com/bxyan/p/6763844.html