【模型压缩】Channel Pruning via Optimal Thresholding
论文链接: https://arxiv.org/pdf/2003.04566.pdf 动机: 现在压缩工作中,通过预定义的度量(metric)计算出的阈值进行模型剪枝,这种阈值忽略了不同层的变化和权值分布的不同,所以这种剪枝方法通常过剪枝和欠剪枝得到一个次优的结果。本篇论文中,作者提出了一个方法:最优阈值(OT,Optimal Thresholding),每层剪枝使用不同的阈值。通过使用OT,保证精度的同时,可以有效减掉那些不重要的通道; 方法: Training with Sparsity 图2是个典型的剪枝过程,在图2中,作者首先要解决稀疏约束问题: L,R,Θ分别是loss函数,用于稀疏的回归项,和训练参数。回归项用于减少模型尺寸约束的复杂度,计算和内存消耗。使用L1回归在bn层的scaling factors上, Γ是scaling factor是的集合,λ控制稀疏的程度,|r|即为L1正则化,r是BN层参数scaling factor; Distribution of Scaling Factors 为了解决过剪枝和欠剪枝问题,网络层不同的分布也是一个预定义阈值的问题。拿VGG-14的第7和第10个bn层,重要权值的分组不是一致的;通过使用一个全局阈值,对于数值较小的scaling factors而言,属于一个灾难。例如作者想使用NS【14】剪枝73%