OpenVINO 2020.01 Post-Training Optimization文档翻译
Quantization 这个工具的主要功能是一个统一的量化工具。通常,此方法支持任意Bit(>=2)来表示权重和激活值。在量化过程中,会根据预先定义的硬件目标将 FakeQuantize 操作自动插入到模型图中,以生成硬件友好的优化模型。然后,不同的量化算法可以调整 FakeQuantize 参数或删除一些操作以满足精度标准。最后这个伪量化模型可以在运行时被解释并将其转换为真正的低精度模型,从而获得真正的性能改善。 量化算法 该工具包提供了多种量化和辅助算法来帮助量化权重和激活图后的模型恢复精度。潜在地,算法可以形成独立的优化流水线去优化一个或者多个模型。但是,我们仅对以下两种用于8Bit量化的算法进行了验证,建议将其用于获得DNN模型量化稳定和可靠结果的方案。 DefaultQuantization 用作默认方法以获得快速并且在大多数情况下比较准确的int8量化结果。 AccuracyAwareQuantization 允许在量化后精度下降在预定的范围内,同事牺牲一定的性能提升。可能需要更多的时间量化。 量化准则 量化是由量化范围和量化级数来参数化的。采样公式如下: 其中 input_low 和 input_high 代表量化范围, 代表四舍五入到最接近的整数。 对称量化 该公式由在量化过程中调整的 scale 参数来参数化: 在上面的规则中, level_low 和