正则化

02-04 线性回归

大憨熊 提交于 2020-02-25 21:30:00
文章目录 线性回归 线性回归学习目标 线性回归引入 线性回归详解 线性模型 一元线性回归 一元线性回归的目标函数 均方误差最小化——最小二乘法 多元线性回归 均方误差最小化——最小二乘法 均方误差最小化——牛顿法 均方误差最小化——拟牛顿法 多项式回归 对数线性回归 局部加权线性回归 正则化 L1正则化 L2正则化 弹性网络 线性回归流程 输入 输出 流程 线性回归优缺点 优点 缺点 小结 线性回归   线性回归是比较经典的线性模型,属于监督学习中预测值为连续值的回归问题。   线性回归针对的是一个或多个特征与连续目标变量之间的关系建模,即线性回归分析的主要目标是在连续尺度上预测输出,而非分类标签,即预测值为连续值。 线性回归学习目标 线性模型 一元线性回归和多元线性回归 多项式回归和对数线性回归 线性回归的L1正则化和L2正则化 线性回归流程 线性回归优缺点 线性回归引入   相信我们很多人可能都有去售楼处买房而无奈回家的行为,就算你没去过售楼处,相信你也应该听说过那令人叹而惊止的房价吧?对于高房价你没有想过这房价是怎么算出来的呢?难道就是房地产商拍拍脑门,北京的一概1000万,上海的一概800万,杭州的一概600万吗?看到这相信你应该有动力想要学好机器学习走向人生巅峰了。   其实仔细想想这房价大有来头,首先房价不可能只和地区有关,北京有1000万的房子,又会有800万

李航《统计学习方法》学习笔记——ch1统计学习概论

喜欢而已 提交于 2020-02-24 20:34:11
1. 统计学习概论 1.1. 概念 定义 统计学习假设数据存在一定统计规律,计算机基于数据构建概率统计模型,并运用模型对数据进行预测与分析一门学科。 主要内容 监督学习(supervised learning)、非监督学习(unsupervised learning)、半监督学习(semi-supervised learning)、强化学习(reinforcement learnin)等。 三要素 模型(model) : 模型的假设空间 策略(strategy) : 模型选择的准则,即确定使用什么样的损失函数 算法(algorithm) : 模型学习的算法,即在最小化损失函数时求解模型参数的算法,如随机梯度下降算法。 术语 输入空间(input space) : 输入所有可能取值的集合 输出空间(output space) : 输出所有可能取值的集合 特征向量(feature vector) : 每一个具体输入的实例(instance),通常由特征向量表示 特征空间(feature space) :所有特征向量存在的空间,特征空间的每一维对应一个特征。 样本(sample) :输入与输出对,又称样本点。 假设空间(hypothesis space) :输入空间到输出空间的映射的集合,模型假设空间的确定意味着学习范围的确定。 注:(1)有时假设输入空间与特征空间为相同的空间;(2

模型的正则化———权重衰减

◇◆丶佛笑我妖孽 提交于 2020-02-19 05:47:14
正则化 降低模型的 过拟合 的好方法是正则化这个模型(限制它):模型有越少的自由度,就越难以拟合数据。 对于一个线性模型,正则化的典型实现就是 约束模型中参数的权重。 权重衰减(weight decay) 权重衰减等价于 L 2 L_2 L 2 ​ 范数正则化(regularization)。正则化通过为模型损失函数添加惩罚项使学出的模型参数值较小,是应对过拟合的常用手段。 L 2 L_ 2 L 2 ​ 范数正则化在模型原损失函数基础上添加 L 2 L_2 L 2 ​ 范数惩罚项,从而得到训练所需要最小化的函数。 L 2 L_2 L 2 ​ 范数惩罚项指的是模型权重参数每个元素的平方和与一个正的常数的乘积。 以一个线性回归损失函数为例: 带有 L 2 L_2 L 2 ​ 范数惩罚项的新损失函数为: 其中超参数 λ > 0 , λ > 0 λ>0,λ>0 λ > 0 , λ > 0 。当权重参数均为0时,惩罚项最小。当 λ λ λ 较大时,惩罚项在损失函数中的比重较大,这通常会使学到的权重参数的元素较接近0。当 λ λ λ 设为0时,惩罚项完全不起作用。 在小批量随机梯度下降中,我们将线性回归一节中权重 w 1 w_1 w 1 ​ 和 w 2 w_2 w 2 ​ 的迭代方式更改为 来源: CSDN 作者: 大墅哥哥 链接: https://blog.csdn.net/weixin

机器学习基础知识和常用名词解释

◇◆丶佛笑我妖孽 提交于 2020-02-18 01:53:52
机器学习入门的基础知识,包括常见名词的解释(线性回归、容量、过拟合欠拟合、正则化、超参数和验证集、估计、偏差和方差、最大似然估计、KL散度、随机梯度下降) 欢迎关注我的微信公众号“人小路远”哦,在这里我将会记录自己日常学习的点滴收获与大家分享,以后也可能会定期记录一下自己在外读博的所见所闻,希望大家喜欢,感谢支持! 1、数值计算基础 计算机求解问题的步骤 : 1、根据实际问题建立数学模型;(应用数学) 2、由数学模型给出数值计算方法;(计算数学) 3、根据计算方法编制算法程序在计算机上算出结果。 数值问题 :是输入和输出数据之间的函数关系的一个确定而无歧义的描述。可以理解为:输入和输出均为数据的数学问题。 上溢 :当大量级的数被近似为无穷大时发生上溢。 下溢 :当接近零的数被四舍五入为零时发生下溢。 优化 :改变x以最小化或最大化某个函数f(x)的任务。 目标函数 :需要最小化或最大化的函数。可描述为: 1 N ⋅ ∑ i = 1 N ∣ y i − f ( x i ) ∣ + 正 则 化 项 \frac{1}{N}\cdot\sum^N_{i=1}|y_i-f(x_i)|+正则化项 N 1 ​ ⋅ i = 1 ∑ N ​ ∣ y i ​ − f ( x i ​ ) ∣ + 正 则 化 项 成本(cost)或损失(loss) :为了训练模型,我们需要定义一个指标来评估这个模型

欠拟合、过拟合

拈花ヽ惹草 提交于 2020-02-15 23:52:33
过拟合、欠拟合以及解决方法 训练误差和泛化误差 在机器学习中,我们将数据分为训练数据、测试数据(或者训练数据、验证数据、测试数据,验证数据也是训练数据的一部分。)训练误差是模型在训练数据集上表现出来的误差,泛化误差(也可称为测试误差)是在测试数据集上表现出来的误差的期望。,例如线性回归用到的平方损失函数和softmax回归的交叉熵损失函数。 测试数据集只能在所有超参数和模型参数选定之后使用一次,不可以用来选择模型,如调参。 验证数据集是预留一部分在训练集和测试集以外的数据以外的数据进行模型的选择。但是由于数据集有限,一般采用K折交叉验证的方法。 训练集:用于模型的构建 验证数据集:可选,用于辅助模型构建,可以重复使用。 测试数据集:用于检测模型,评估模型的准确率。 模型训练过程中会出现两种问题:欠拟合和过拟合 欠拟合:模型无法得到较低的训练误差。 过拟合:模型的训练误差远小于它在测试数据集熵的误差。 导致这两种拟合问题的因素有很多,模型复杂度和训练数据集的大小是主要因素。 给定数据集,模型复杂度和误差之间的关系: 训练数据集过少时,比模型参数数量更少时会,更容易出现过拟合。 解决方法 欠拟合常见的解决方法: 1、增加新特征,可以加入特征组合、高次特征,来增大假设空间。 2、添加多项式特征。例如线性模型通过添加二次项或者三次项使模型泛化能力更强。 3、减少正则化参数

常见的距离算法和相似度(相关系数)计算方法

三世轮回 提交于 2020-02-15 15:29:27
背景:数据挖掘/机器学习中的术语较多,而且我的知识有限。之前一直疑惑正则这个概念。所以写了篇博文梳理下 摘要:   1.正则化(Regularization)     1.1 正则化的目的      1.2 结构风险最小化(SRM)理论     1.3 L1范数(lasso),L2范数(ridge),ElasticNet     1.4为什么说L1是稀疏的,L2是平滑的?   2.归一化 (Normalization)     2.1归一化的目的     2.1归一化计算方法       2.2.spark ml中的归一化     2.3 python中skelearn中的归一化 知识总结: 1.正则化(Regularization) 1.1 正则化的目的:我的理解就是平衡训练误差与模型复杂度的一种方式,通过加入正则项来避免过拟合(over-fitting)。(可以引入拟合时候的龙格现象,然后引入正则化及正则化的选取,待添加) 1.2 结构风险最小化(SRM)理论:    经验风险最小化 + 正则化项 = 结构风险最小化   经验风险最小化(ERM),是为了让拟合的误差足够小,即:对训练数据的预测误差很小。但是,我们学习得到的模型,当然是希望对未知数据有很好的预测能力(泛化能力),这样才更有意义。当拟合的误差足够小的时候,可能是模型参数较多,模型比较复杂,此时模型的泛化能力一般

正则化

不羁岁月 提交于 2020-02-14 21:04:34
通过第一幅图我们可以获得拟合数据的这样一条直线,但是,实际上这并不是一个很好的模型。 此类情况称为欠拟合(underfitting),或者叫作叫做高偏差(bias)。 通过第二幅图,我们在中间加入一个二次项,也就是说对于这幅数据我们用二次函数去拟合。自然,可以拟合出一条曲线,事实也证明这个拟合效果很好。 通过第三幅图我们似乎对训练数据做了一个很好的拟合,因为这条曲线通过了所有的训练实例。但是,这实际上是一条很扭曲的曲线,它不停上下波动。因此,事实上我们并不认为它是一个好模型。 这类情况叫做过拟合(overfitting),也叫高方差(variance)。 过度拟合的问题通常发生在变量(特征)过多的时候。这种情况下训练出的方程总是能很好的拟合训练数据,也就是说,我们的代价函数可能非常接近于 0 或者就为 0。过多的变量(特征),同时只有非常少的训练数据,会导致出现过度拟合的问题。因此为了解决过度拟合,有以下两个办法。 方法一:尽量减少选取变量的数量; 方法二:正则化 。 如果我们的参数值对应一个较小值的话(参数值比较小),那么往往我们会得到一个形式更简单的假设。 实际上,这些参数的值越小,通常对应于越光滑的函数,也就是更加简单的函数。因此 就不易发生过拟合的问题。 这项为正则化项。 并且 λ 在这里我们称做正则化参数。 λ 要做的就是控制在两个不同的目标中的平衡关系。

神经网络数据预处理,正则化与损失函数

血红的双手。 提交于 2020-02-13 06:09:17
1 数据预处理 关于数据预处理我们有3个常用的符号,数据矩阵 \(X\) ,假设其尺寸是 \([N \times D]\) ( \(N\) 是数据样本的数量, \(D\) 是数据的维度)。 1.1 均值减去 均值减法(Mean subtraction)是预处理最常用的形式。它对数据中每个独立特征减去平均值,从几何上可以理解为在每个维度上都将数据云的中心都迁移到原点。 在numpy中,该操作可以通过代码 \(X-=n p \cdot \operatorname{mean}(X, \text { axis }=0)\) 实现。 而对于图像,更常用的是对所有像素都减去一个值,可以用 \(\mathrm{X}-=\mathrm{np} \cdot \operatorname{mean}(\mathrm{X})\) 实现,也可以在3个颜色通道上分别操作。 1.2 归一化 归一化(Normalization)是指将数据的所有维度都归一化,使其数值范围都近似相等。 有两种常用方法可以实现归一化。 第一种 是先对数据做零中心化(zero-centered)处理,然后每个维度都除以其标准差,实现代码为 \(\mathrm{X} /=\mathrm{np} . \mathrm{std}(\mathrm{X}, \mathrm{axis}=0)\) 。 第二种 是对每个维度都做归一化

【cs229-Lecture11】贝叶斯统计正则化

这一生的挚爱 提交于 2020-02-10 07:53:58
本节知识点: 贝叶斯统计及规范化 在线学习 如何使用机器学习算法解决具体问题:设定诊断方法,迅速发现问题 贝叶斯统计及规范化(防止过拟合的方法) 就是要找更好的估计方法来减少过度拟合情况的发生。 回顾一下,线性回归中使用的估计方法是最小二乘法,logistic 回归是条件概率的最大 似然估计,朴素贝叶斯是联合概率的最大似然估计,SVM 是二次规划。 一下转自: http://52opencourse.com/133/coursera 斯坦福大学机器学习第七课"正则化“学习笔记,本次课程主要包括4部分: 1) The Problem of Overfitting(过拟合问题) 2) Cost Function(成本函数) 3) Regularized Linear Regression(线性回归的正则化) 4) Regularized Logistic Regression(逻辑回归的正则化) 以下是每一部分的详细解读。 1) The Problem of Overfitting(过拟合问题) 拟合问题举例-线性回归之房价问题: a) 欠拟合(underfit, 也称High-bias) b) 合适的拟合: c) 过拟合(overfit,也称High variance) 什么是过拟合(Overfitting): 如果我们有非常多的特征

【CS224n】斯坦福自然语言处理课程学习笔记二

爷,独闯天下 提交于 2020-02-08 17:27:43
第四讲 Word Window 分类与神经网络 分类:正则化处理 正则化能够有效防止过拟合,当我们的特征较多时,很容易导致模型过拟合,或者引起指数爆炸,而正则化操作能够使得在某些具体的点拟合较差,但总体的拟合曲线更加平滑,并且泛化性能更好。 词窗口分类 词含义的定义:词的含义并不是单一定义的,无法在不结合上下文的状态下确定一个词的真正含义,因此,一个单词的真正含义取决于窗口内的上下文的词。 如何进行窗口分类:首先我们需要训练一个softmax分类器,给中心词分配一个标签,然后用一个窗口把它前后的单词连接起来,将窗口内的单词的词向量拼接放入softmax分类器,此时的表示分类的结果。此时我们的总体目标是对所有的分类概率求和, 神经网络结构 x:一个窗口,即多个词向量的拼接 a:神经元激活向量,最终分类层的输入 分类器:softmax 最大间隔损失函数 训练目标:让正确窗口的得分比错误窗口的得分更大,其差值最好定义为1 如何确保不陷入局部最优 不停的随机更新,使得它很难陷入局部最优,但事实上,你的窗口越小,你的随机性越大。 在很多情况下,局部最优解事实上非常接近你设想的全局最优解。 第五讲 反向传播和项目建议 两层神经网络和反向传播 这里的U代表的只是一个向量,假定最后通过向量内积得到的列向量即为我们想要的类别,然而在实际操作中,应该有许多非线性函数代替此处的U。 这里的x均为列向量。