l1范数正则化

吴恩达:深度学习作业2相关

匿名 (未验证) 提交于 2019-12-03 00:39:02
深度学习小知识点:( 欠拟合与过拟合 ) 1.出现欠拟合应该怎样解决:(欠拟合就是模型没能很好的捕捉到数据的特征,不能很好地拟合数据) 欠拟合的情况如图所示: a.增加特征项,出现欠拟合的原因一般是特征项不够造成的,只有增加更多的特征,网络才能学习到数据中更多的信息,一般的可以描述特征的包括“上下文特征”,“位置特征”等一些其它的特征。在日常的工作中,可以从其它的任务那得到灵感,模仿其它的工作中所用的特征项,然后把这个特征项用在自己的任务中,说不定会有提升。 b.添加多项式特征。例如上图,此时拟合的函数是一个一次的函数,我们可以添加一个二次项和一个三次项,使拟合曲线变为下图所示的这样,提升模型的泛化能力。 c.减少正则化参数。因为一般防止过拟合就会增加正则化参数。所以现在欠拟合就应该减少正则化参数。 2.出现过拟合应该怎样解决:(过拟合是指模型为了把训练集中的数据每个都划分正确,学习到了噪声数据的特征。) 过拟合的情况如图所示: a.清洗数据。造成过拟合的原因有可能是训练数据中混入了噪声数据,所以对数据进行重新清洗,可能会缓解过拟合的现象。 b.增大数据的训练量。过拟合很可能是由于数据数量过少造成的,难以学到有用的特征,反而学到了噪声数据的特征,所以可能增大数据量。 c.采用正则化。正则化方法包括L0,L1,L2正则化,L2正则化又被称为权值衰减(weight_decay)

正则化

我与影子孤独终老i 提交于 2019-12-01 19:32:45
1、过拟合、欠拟合   过拟合是指模型在训练集上表现很好,在测试集上表现很差。欠拟合是指在训练集测试集上表现都很差。 上图左图是欠拟合,右图是过拟合的表现。 欠拟合的解决方法 解决方法: 1)添加其他特征项,有时候我们模型出现欠拟合的时候是因为特征项不够导致的,可以添加其他特征项来很好地解决。 2)添加多项式特征,这个在机器学习算法里面用的很普遍,例如将线性模型通过添加二次项或者三次项使模型泛化能力更强。 3)减少正则化参数,正则化的目的是用来防止过拟合的,但是现在模型出现了欠拟合,则需要减少正则化参数。 4)可以增加迭代次数继续训练 5)尝试换用其他算法 6)增加模型的参数数量和复杂程度 过拟合的解决方法: 1)重新清洗数据,导致过拟合的一个原因也有可能是数据不纯导致的,如果出现了过拟合就需要我们重新清洗数据。 2)增大数据的训练量,还有一个原因就是我们用于训练的数据量太小导致的,训练数据占总数据的比例过小。 3)采用正则化方法。正则化方法包括L0正则、L1正则和L2正则,而正则一般是在目标函数之后加上对于的范数。 4)针对神经网络,可以采用dropout方法,间接减少参数数量,也相当于进行了数据扩增。弱化了各个参数(特征)之间的单一联系,使起作用的特征有更多组合,使从而模型不过分依赖某个特征。 5)提前停止训练,也就是减少训练的迭代次数。从上面的误差率曲线图可以看出

多任务学习Multi-task-learning MTL

Deadly 提交于 2019-11-29 05:45:27
https://blog.csdn.net/chanbo8205/article/details/84170813 多任务学习(Multitask learning)是迁移学习算法的一种,迁移学习可理解为定义一个一个源领域source domain和一个目标领域(target domain),在source domain学习,并把学习到的知识迁移到target domain,提升target domain的学习效果(performance)。 多任务学习(Multi-task learning):由于我们的关注点集中在单个任务上,我们忽略了可能帮助优化度量指标的其它信息。具体来说,这些信息来自相关任务的训练信号。通过共享相关任务之间的表征,可以使我们的模型更好地概括原始任务。这种方法被称为多任务学习(MTL)。其也是一种归纳迁移机制,主要目标是利用隐含在多个相关任务的训练信号中的特定领域信息来提高泛化能力,多任务学习通过使用共享表示并行训练多个任务来完成这一目标。归纳迁移是一种专注于将解决一个问题的知识应用到相关的问题的方法,从而提高学习的效率。比如,学习行走时掌握的能力可以帮助学会跑,学习识别椅子的知识可以用到识别桌子的学习,我们可以在相关的学习任务之间迁移通用的知识。此外,由于使用共享表示,多个任务同时进行预测时,减少了数据来源的数量以及整体模型参数的规模,使预测更加高效。因此

权重衰减(weight decay)与学习率衰减(learning rate decay)

徘徊边缘 提交于 2019-11-29 00:24:14
本文链接:https://blog.csdn.net/program_developer/article/details/80867468 “微信公众号” 1. 权重衰减(weight decay) L2正则化的目的就是为了让权重衰减到更小的值,在一定程度上减少模型过拟合的问题,所以权重衰减也叫L2正则化。 1.1 L2正则化与权重衰减系数 L2正则化就是在代价函数后面再加上一个正则化项: 其中C0代表原始的代价函数,后面那一项就是L2正则化项,它是这样来的:所有参数w的平方的和,除以训练集的样本大小n。λ就是正则项系数,权衡正则项与C0项的比重。另外还有一个系数1/2,1/2 1/211经常会看到,主要是为了后面求导的结果方便,后面那一项求导会产生一个2,与1/2相乘刚好凑整为1。系数λ就是权重衰减系数。 1.2 为什么可以对权重进行衰减 我们对加入L2正则化后的代价函数进行推导,先求导: 可以发现L2正则化项对b的更新没有影响,但是对于w的更新有影响: 在不使用L2正则化时,求导结果中w前系数为1,现在w前面系数为1-ηλ/n,因为η、λ、n都是正的,所以1-ηλ/n小于1,它的效果是减小w,这也就是权重衰减(weight decay)的由来。当然考虑到后面的导数项,w最终的值可能增大也可能减小。 另外,需要提一下,对于基于mini-batch的随机梯度下降

LASSO回归和Ridge回归

淺唱寂寞╮ 提交于 2019-11-28 03:46:57
在 线性回归 中讲述了原理,为了防止过拟合经常会加入正则化项。常用的正则化有L1正则化和L2正则化。 1.LASSO回归 加入L1正则化项的线性回归就叫LASSO回归。L1正则化项即是参数的L1范数,通俗点说,就是参数向量各个分量取绝对值的加和,即,对于 \(\theta=(\theta_0, \theta_1, \cdots, \theta_n)^T\) 参数向量,L1正则化项为: \[ \left \| \theta \right \|_1 = \sum_{j=0}^n | \theta_j | \] 通常会加入一个系数 \(\lambda\) 来调节正则化项的权重,因此LASSO回归的目标函数(损失函数)为: \[ J(\theta) = \frac{1}{2}\sum_{i=1}^m(h(x^{(i)})-y^{(i)})^2 + \lambda \sum_{j=0}^n | \theta_j | = \frac{1}{2}\left(X\theta-Y\right)^T\left(X\theta-Y\right) + \lambda\left \| \theta \right \|_1 \] LASSOS回归可以使得一些特征的系数为零(即某些 \(\theta_j\) 为零),即得到稀疏解。 由于 \(|\theta_j|\) 求不了导,所以在实际应用中,可以寻求近似解