批量梯度下降(BGD)、随机梯度下降(SGD)以及小批量梯度下降(MBGD)的理解
梯度下降法作为机器学习中较常使用的优化算法,其有着三种不同的形式: 批量梯度下降(Batch Gradient Descent)、随机梯度下降(Stochastic Gradient Descent)以及小批量梯度下降(Mini-Batch Gradient Descent) 。其中小批量梯度下降法也常用在深度学习中进行模型的训练。接下来,我们将对这三种不同的梯度下降法进行理解。 为了便于理解,这里我们将使用只含有 一个特征 的线性回归来展开。此时线性回归的 假设函数 为: $$ h_{\theta} (x^{(i)})=\theta_1 x^{(i)}+\theta_0 $$ 其中 $ i=1,2,...,m $ 表示样本数。 对应的**目标函数(代价函数)**即为: $$ J(\theta_0, \theta_1) = \frac{1}{2m} \sum_{i=1}^{m}(h_{\theta}(x^{(i)}) - y^{(i)})^2 $$ 下图为 $ J(\theta_0,\theta_1) $ 与参数 $ \theta_0,\theta_1 $ 的关系的图: <div align="center"> ![](https://images2018.cnblogs.com/blog/1238724/201808/1238724