1. Learning rate不合适,如果太大,会造成不收敛,如果太小,会造成收敛速度非常慢; 2. Batch size太小,每次迭代使用的样本数量太少,梯度方向不够准确,造成不收敛; 3. 网络太简单,一般情况下,网络的层数和节点数量越大,拟合能力就越强,如果层数和节点不够多,无法拟合复杂的数据,也会造成不收敛. 来源:https://www.cnblogs.com/mstk/p/11380747.html 标签 网络节点 数据拟合