2相关工作
- 残差表示
- shortcut连接
3深度参差学习
参差学习
实际就是用在输入和输出之间加入一个shortcut连接,使用深度网络来学习输入到输入的残差,F(x)=H(x)-x;
这个想法的起源在于,在解决了梯度消失的问题后,深层网络的表现要差于较浅层,而深层网络的模型空间显然是大于浅层网络的,因此这个问题揭示了在非线性网络中,学习恒等映射是一个比较困难的事情,因此需要加入一个恒等映射网络
由shortcut提供的恒等网络
如果输入输出相同维度:y=F(x,{Wi})+x (1)
如果输入输出不同维度:y=F(x,{Wi})+Ws*x (2)
网络架构
参差网络架构
维度不同下包含两种shortcut
- 添加额外的0输入到增加的维度
- 使用上面的公式2进行匹配
实现
- 短边resize
- 224x224crop+水平翻转
- 颜色增强
- BN
- SGD batchsize256
- learning rate 0.1/60x10^4迭代
- momentum:0.0001 weight decay+0.9
4 实验
3个观察
- 34层的普通网络error比18层普通网络的高,34层的残差网络比18层残差网络的低
- 相同层数的残差网络比普通网络error低
- 残差网络收敛更快
从上面的观察基本可以证明推断是正确的