过拟合、欠拟合、梯度消失及梯度爆炸的理解
目录: 1,过拟合和欠拟合的定义 2, 过拟合和欠拟合的解决方法 3, 梯度消失和爆炸的定义 4,梯度消失和爆炸的解决方法 1,过拟合和欠拟合的定义 无论在机器学习还是深度学习建模当中都可能会遇到两种最常见结果,一种叫 过拟合 (over-fitting )另外一种叫 欠拟合 (under-fitting)。 所谓过拟合(over-fitting)其实就是所建的机器学习模型或者是深度学习模型在训练样本中表现得过于优越,导致在验证数据集以及测试数据集中表现不佳。如上图所示,即在训练过程中,在训练数据集上,训练误差较低,但是在验证集上,误差损失较大。也可以观察到,随着模型复杂度升高,过拟合情况越来越严重。 所谓欠拟合呢(under-fitting)?相对过拟合欠拟合还是比较容易理解。还是拿上图来说,可能模型复杂度不够,无法很好地拟合训练数据,导致训练和验证误差损失都比较大。 2,过拟合和欠拟合的解决方法 过拟合:根据上图可以得到,随着模型复杂度--模型参数--增高,过拟合的情况越来越严重,因此减少参数可以有效缓解过拟合。首先可以在损失函数里添加限制权重参数过大的正则项,在损失函数下降的过程中,使得权重参数逐渐趋向0(L2)甚至等于0(L1)。landa控制限制过拟合的程度。 其次,可以在训练过程中随机失活部分神经元(参数)--某些参数不参与训练--减少训练参数,如下图所示。 再者