主要需要了解的东西如下:
- 交叉熵损失和对数损失的区别
- SGD,bach,minibatch。主要是讲SGD随机梯度下降计算单个样本的梯度,bach基于整个样本计算梯度,minibatch在它们两者之间,这个主要体现在loss function上,单个样本计算梯度的loss function就没有对整个样本求和,而很多样本一起计算梯度,就要知道对每个样本的loss然后求和。
- sigmoid函数及其导数。
- 反向传播推导
- 在保证模型正确率的前提下,通常希望学习到的权值矩阵中的元素都不要太大,以防止输入有噪声时,由于权重过大使得噪声对模型的影响过大。
来源:CSDN
作者:czg792845236
链接:https://blog.csdn.net/u010630669/article/details/103880349