提及梯度,那就一定要知道导数的作用。
,假设有这样的函数,想要求出使得这个函数达到最小值的的值。
初始值
这个式子就是更新迭代的公式,就是所说的学习率。注意这里为了简明用的是导数,而实际上要用的是梯度。
假设=0.01,沿着导数相反的方向函数值下降最快,那么。
以此类推直到时,,此时,
那么时函数值是最小的。
在深度学习中,就是损失函数,它的意义就是神经网络的预测值与实际标签之间的误差。我们的目的就是求出相应的预测值,使得预测值与真实标签的误差最小,即寻找损失函数的最小值。也就正对应着刚才的例子,自变量就是预测值。
来源:CSDN
作者:m0_45478865
链接:https://blog.csdn.net/m0_45478865/article/details/104135815