【模型压缩】Channel Pruning via Optimal Thresholding

论文链接：https://arxiv.org/pdf/2003.04566.pdf

动机：

现在压缩工作中，通过预定义的度量（metric）计算出的阈值进行模型剪枝，这种阈值忽略了不同层的变化和权值分布的不同，所以这种剪枝方法通常过剪枝和欠剪枝得到一个次优的结果。本篇论文中，作者提出了一个方法：最优阈值（OT，Optimal Thresholding），每层剪枝使用不同的阈值。通过使用OT，保证精度的同时，可以有效减掉那些不重要的通道；

方法：

Training with Sparsity

图2是个典型的剪枝过程，在图2中，作者首先要解决稀疏约束问题：

L，R，Θ分别是loss函数，用于稀疏的回归项，和训练参数。回归项用于减少模型尺寸约束的复杂度，计算和内存消耗。使用L1回归在bn层的scaling factors上，

Γ是scaling factor是的集合，λ控制稀疏的程度，|r|即为L1正则化，r是BN层参数scaling factor；

Distribution of Scaling Factors

为了解决过剪枝和欠剪枝问题，网络层不同的分布也是一个预定义阈值的问题。拿VGG-14的第7和第10个bn层，重要权值的分组不是一致的；通过使用一个全局阈值，对于数值较小的scaling factors而言，属于一个灾难。例如作者想使用NS【14】剪枝73%，计算阈值很合适第7层BN层，但是对于第10层BN层而言就是过剪枝了。