Batch normalization + ReLU 批归一化(BN)可以抑制梯度爆炸/消失并加快训练速度 原论文认为批归一化的原理是:通过归一化操作使网络的每层特征的分布尽可能的稳定,从而减少Internal Covariate Shift relu是目前应用最为广泛的激活函数, 由于其梯度要么是1,要么是0,可以有效抑制梯度爆炸/消失 通过BN和ReLU,目前的网络已经可以达到非常深 网络越深,提取的特征往往越抽象,越具有语义信息。过渡抽象的特征可能并不适合相对简单的任务。 来源:https://www.cnblogs.com/yibeimingyue/p/11831360.html 标签 relu 归一化 bn