Coursera Deep Learning笔记 改善深层神经网络:优化算法

青春壹個敷衍的年華 提交于 2020-08-14 08:49:53

笔记:Andrew Ng's Deeping Learning视频

参考:https://xienaoban.github.io/posts/58457.html

本章介绍了优化算法,让神经网络运行的更快

Mini-batch 梯度下降

\(X = [x^{(1)}, x^{(2)}, x^{(3)}, ..., x^{(m)}]\) 矩阵所有 \(m\) 个样本划分为 \(t\)子训练集
每个子训练集称为 \(x^{\{i\}}\), 每个子训练集内样本个数均相同(若每个子训练集有1000个样本, 则 \(x^{\{1\}} = [x^{(1)}, x^{(2)}, ..., x^{(1000)}]\),维度为 \((n_x,1000)\).
若m不能被子训练集样本数整除, 则最后一个子训练集样本可以小于其他子训练集样本数. \(Y\) 亦然.

训练时, 每次迭代仅对一个子训练集进行梯度下降:

\[\begin{aligned} & \text{Repeat} :\\ & \qquad \text{For } i = 1, 2, ..., t: \\ & \qquad \qquad \text{Forward Prop On } X^{\{i\}} \\ & \qquad \qquad \text{Compute Cost } J^{\{i\}} \\ & \qquad \qquad \text{Back Prop using } X^{\{i\}}, Y^{\{i\}}\\ & \qquad \qquad \text{Update } w, b \end{aligned} \]

易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!