顾名思义,深度残差收缩网络是在“残差网络”基础上的一种改进算法,是由“残差网络”和“收缩”两部分所组成的。其中,残差网络在2016年斩获了ImageNet图像识别竞赛的冠军,目前已经成为了深度学习领域的基础网络;收缩指的是软阈值化,是许多信号降噪算法的关键步骤。在深度残差收缩网络中,软阈值化所需要的阈值,实质上是借助注意力机制设置的。
在本文中,我们首先对残差网络、软阈值化和注意力机制的基础知识进行了简要的回顾,然后对深度残差收缩网络的动机、算法和应用展开解读。
1. 基础回顾
1.1 残差网络
从本质上讲,残差网络(又称深度残差网络、深度残差学习)是一种卷积神经网络。相较于普通的卷积神经网络,残差网络采用了跨层恒等连接,以减轻卷积神经网络的训练难度。残差网络的一种基本模块如图1所示。
1.2 软阈值化
软阈值化是许多信号降噪方法的核心步骤。它的用处是将绝对值低于某个阈值的特征置为零,将其他的特征也朝着零进行调整,也就是“收缩”。在这里,阈值是一个需要预先设置的参数,其取值大小对于降噪的结果有着直接的影响。软阈值化的输入与输出之间的关系如图2所示。
从图2可以看出,软阈值化是一种非线性变换,有着与ReLU激活函数非常相似的性质:梯度要么是0,要么是1。因此,软阈值化也能够作为神经网络的激活函数。事实上,一些神经网络已经将软阈值化作为激活函数进行了使用。
1.3 注意力机制
注意力机制就是将注意力集中于局部关键信息的机制,可以分为两步:第一,通过扫描全局信息,发现局部有用信息;第二,增强有用信息并抑制冗余信息。
Squeeze-and-Excitation Network是一种非常经典的注意力机制下的深度学习方法。它可以通过一个小型的子网络,自动学习得到一组权重,对特征图的各个通道进行加权。其含义在于,某些特征通道是比较重要的,而另一些特征通道是信息冗余的;那么,我们就可以通过这种方式增强有用特征通道、削弱冗余特征通道。Squeeze-and-Excitation Network的一种基本模块如下图所示。
值得指出的是,通过这种方式,每个样本都可以有自己独特的一组权重,可以根据样本自身的特点,进行独特的特征通道加权调整。例如,样本A的第一特征通道是重要的,第二特征通道是不重要的;而样本B的第一特征通道是不重要的,第二特征通道是重要的;通过这种方式,样本A可以有自己的一组权重,以加强第一特征通道,削弱第二特征通道;同样地,样本B可以有自己的一组权重,以削弱第一特征通道,加强第二特征通道。
2. 深度残差收缩网络理论
2.1 动机
首先,现实世界中的数据,或多或少都含有一些冗余信息。那么我们就可以尝试将软阈值化嵌入残差网络中,以进行冗余信息的消除。
其次,各个样本中冗余信息含量经常是不同的。那么我们就可以借助注意力机制,根据各个样本的情况,自适应地给各个样本设置不同的阈值。
2.2 算法
与残差网络和Squeeze-and-Excitation Network相似,深度残差收缩网络也是由许多基本模块堆叠而成的。每个基本模块都有一个子网络,用于自动学习得到一组阈值,用于特征图的软阈值化。值得指出的是,通过这种方式,每个样本都有着自己独特的一组阈值。深度残差收缩网络的一种基本模块如下图所示。
深度残差收缩网络的整体结构如下图所示,是由输入层、许多基本模块以及最后的全连接输出层等组成的。
2.3 应用
在原始论文中,深度残差收缩网络是应用于基于振动信号的旋转机械故障诊断。但是从原理上来讲,深度残差收缩网络面向的是数据集含有冗余信息的情况,而冗余信息是无处不在的。例如,在图像识别的时候,图像中总会包含一些与标签无关的区域;在语音识别的时候,音频中经常会含有各种形式的噪声。因此,深度残差收缩网络,或者说这种“深度学习”+“软阈值化”+“注意力机制”的思路,有着较为广泛的研究前景。
参考文献
[1] K. He, X. Zhang, S. Ren, et al. Deep residual learning for image recognition. IEEE Conference on Computer Vision and Pattern Recognition, 2016: 770-778.
[2] K. He, X. Zhang, S. Ren, et al. Identity mappings in deep residual networks. European Conference on Computer Vision, 2016: 630-645.
[3] J. Hu, L. Shen, G. Sun. Squeeze-and-excitation networks. IEEE Conference on Computer Vision and Pattern Recognition, 2018: 7132-7141.
[4] D.L. Donoho. De-noising by soft-thresholding. IEEE Transactions on Information Theory, 1995, 41(3): 613-627.
[5] K. Isogawa K, T. Ida, T. Shiodera, et al. Deep shrinkage convolutional neural network for adaptive noise reduction. IEEE Signal Processing Letters, 2017, 25(2): 224-228.
[6] M. Zhao, S, Zhong, X. Fu, et al. Deep residual shrinkage networks for fault diagnosis. IEEE Transactions on Industrial Informatics, 2019, DOI: 10.1109/TII.2019.2943898
来源:oschina
链接:https://my.oschina.net/u/4468458/blog/3179602