笔记:Andrew Ng's Deeping Learning视频
参考:https://xienaoban.github.io/posts/58457.html
本章介绍了优化算法,让神经网络运行的更快
Mini-batch 梯度下降
将 \(X = [x^{(1)}, x^{(2)}, x^{(3)}, ..., x^{(m)}]\) 矩阵所有 \(m\) 个样本划分为 \(t\) 个子训练集
每个子训练集称为 \(x^{\{i\}}\), 每个子训练集内样本个数均相同(若每个子训练集有1000个样本, 则 \(x^{\{1\}} = [x^{(1)}, x^{(2)}, ..., x^{(1000)}]\),维度为 \((n_x,1000)\).
若m不能被子训练集样本数整除, 则最后一个子训练集样本可以小于其他子训练集样本数. \(Y\) 亦然.
训练时, 每次迭代仅对一个子训练集进行梯度下降:
\[\begin{aligned} & \text{Repeat} :\\ & \qquad \text{For } i = 1, 2, ..., t: \\ & \qquad \qquad \text{Forward Prop On } X^{\{i\}} \\ & \qquad \qquad \text{Compute Cost } J^{\{i\}} \\ & \qquad \qquad \text{Back Prop using } X^{\{i\}}, Y^{\{i\}}\\ & \qquad \qquad \text{Update } w, b \end{aligned} \]
来源:oschina
链接:https://my.oschina.net/u/4259369/blog/4307886