梯度下降在深度学习中的作用

我的未来我决定 提交于 2020-02-01 19:17:12

提及梯度,那就一定要知道导数的作用。
f(x)=3x2+2x+2f(x)=3x^2+2x+2,假设有这样的函数,想要求出使得这个函数达到最小值的xx的值。

f(x)=6x+2f'(x)=6x+2
初始值x0=3x_0=3
xi+1=xi+θf(xi)x_{i+1}=x_i+\theta f'(x_i)这个式子就是更新迭代的公式,θ\theta就是所说的学习率。注意这里为了简明用的是导数,而实际上要用的是梯度。
假设θ\theta=0.01,沿着导数相反的方向函数值下降最快,那么x2=30.0120=2.8x_2=3-0.01*20=2.8
以此类推直到xi=0.3333333x_i=-0.3333333时,f(xi)=0f'(x_i)=0,此时xi+1=xix_{i+1}=x_{i}
那么x=1/3x=1/3时函数值f(1/3)f(1/3)是最小的。

在深度学习中,ff就是损失函数LossfunctionLoss function,它的意义就是神经网络的预测值与实际标签之间的误差。我们的目的就是求出相应的预测值,使得预测值与真实标签的误差最小,即寻找损失函数的最小值。也就正对应着刚才的例子,自变量xx就是预测值。

易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!