AlexNet
这篇论文的作者包括Alex Krizhevsky,Ilya Sutskever 和Geoffrey E. Hinton,三人均来自于多伦多大学计算机科学院,其中,前两者都是Hinton的学生,Hinton就不多说了,和Yoshua Bengio以及Yann LeCun共同获得了2018年图灵奖。下面我们来看一下这篇论文《ImageNet Classification with Deep Convolutional Neural Networks》。 我主要从论文的性能提升方面,和训练提速方面进行介绍。 1、ReLU 论文并没有使用标准的tanh函数和sigmoid函数 而是使用了Rectified Linear Unit,即ReLU 结果也是显而易见的 使用ReLU(实线)的四层卷积神经网络在CIFAR-10上达到25%的训练错误率,比使用tanh(虚线)神经元的等效网络快六倍。每个网络的学习率是独立选择的,以使训练尽可能快。没有采用任何形式的正规化。这里所演示的效果的大小随着网络架构的不同而不同,但是使用ReLUs的网络始终比使用饱和神经元的网络学习速度快几倍。 为什么ReLU比tanh和sigmoid收敛速度快呢,我们来具体看一下几个函数 sigmoid tanh ReLU 从图像上可以看出,sigmoid和tanh在饱和区域非常平缓