激活函数

因为线性的卷积运算，无法形成复杂的空间表示，故很难提取出高语义的信息，因此需要加入非线性的映射，称为激活函数，可以逼近任意的非线性函数，以提升整个神经网络的表达能力.

常用的激活函数

Sigmoid 函数

$\sigma(x) = \frac{1}{1+e^{-x}}$
\sigma(x) 的导数计算

$\sigma(x)' = \left(\frac{1}{1+e^{-x}}\right)' = 1 - \frac{1}{1+e^{-x}} = 1- \sigma(x)$
目的是将一个实数输入转化到 0~1 之间的输出，具体的说也是将越大的负数转化到越靠近 0, 将越大的正数转化到越靠近 1. 即 0 端对应抑制状态，1 端对应激活状态. 中间部分梯度大.

在这里插入图片描述

缺点:

(1) Sigmoid 函数会造成梯度消失.　靠近 0 和 1 两端时，梯度几乎变为 0,
(2) Sigmoid 输出不是以 0 为均值, 这会导致经过 SIgmoid 激活函数之后的输出，作为最后一层网络的输入时候是非 0 均值，这个时候如果输入进入下一层神经元时全是正的，这就导梯度全是正的, 更新参数时永远是整的。