激活函数与注意力机制?自适应参数化ReLU激活函数
3 月,跳不动了?>>> 本文在回顾一些典型激活函数和注意力机制的基础上,解读了一种“注意力机制下的新型激活函数”,名为“自适应参数化修正线性单元”(Adaptively Parametric Rectifier Linear Unit, APReLU )。 1.激活函数 激活函数是目前人工神经网络的核心组成部分之一,其作用是进行人工神经网络的非线性化。我们首先回顾一些最为常见的激活函数,包括Sigmoid激活函数、Tanh激活函数和ReLU激活函数,分别如图所示。 Sigmoid激活函数和Tanh激活函数的梯度取值范围分别是(0,1)和(-1,1)。当层数较多时,人工神经网络可能会遭遇梯度消失的问题。ReLU激活函数的梯度要么是零,要么是一,能够很好地避免梯度消失和梯度爆炸的问题,因此在近年来得到了广泛的应用。 然而,ReLU激活函数依然存在一个缺陷。如果在人工神经网络训练的时候,遇到了特征全部小于零的情况,那么ReLU激活函数的输出就全部为零。这个时候就训练失败了。为了避免这种情况,有学者就提出了leaky ReLU激活函数,不将小于零的特征置为零,而是将小于零的特征乘以一个很小的系数,例如0.1和0.01。 在leaky ReLU中,这个系数的取值是人工设置的。但是人工设置的系数未必是最佳的,因此何恺明等人提出了Parametric ReLU激活函数(参数化ReLU激活函数