方差

偏差-方差分解

雨燕双飞 提交于 2019-12-23 16:37:45
最近在看机器学习周志华那本书,受益颇多。我们先抛过来几个问题,再一一解答。 什么是偏差-方差分解?为什么提出这个概念? 什么是偏差?什么是方差? 什么是偏差-方差窘境?应对措施? 1、偏差-方差分解的提出 我们知道训练往往是为了得到泛化性能好的模型,前提假设是训练数据集是实际数据的无偏采样估计。但实际上这个假设一般不成立,针对这种情况我们会使用训练集训练,测试集测试其性能,上篇博文有介绍评估策略。对于模型估计出泛化性能,我们还希望了解它为什么具有这样的性能。这里所说的偏差-方差分解就是一种解释模型泛化性能的一种工具。它是对模型的期望泛化错误率进行拆解。 2、偏差-方差分解推导 样本可能出现噪声,使得收集到的数据样本中的有的类别与实际真实类别不相符。对测试样本 x,另 y d 为 x 在数据集中的标记,y 为真实标记,f(x;D) 为训练集D上学得模型 f 在 x 上的预测输出。接下来以回归任务为例: 模型的期望预测: 样本数相同的不同训练集产生的方差: 噪声: 期望输出与真实标记的差别称为偏差: 通过简单的多项式展开与合并,模型期望泛化误差分解如下: 画红线部分是分解后由这三部分方差、偏差、噪声组成。偏差那部分因为和D无关,所以去掉了E D 。画蓝线部分用了数学技巧,并且有两项等于0约简。 3、偏差、方差、噪声 偏差:度量了模型的期望预测和真实结果的偏离程度

偏差方差分解

旧时模样 提交于 2019-12-23 16:37:23
偏差方差分解 (误差分解) 先引入一个问题: Machine Learning 与 Curve Fitting 的区别是什么? 1 Curve Fitting 是使用所有的数据拟合一条曲线; 而 Machine Learning 是采用真实世界中采样的一小部分数据,并且我们希望我们的模型能够对于未知数据有不错的泛化性能.因此涉及到Bias-Variance的权衡. 学习算法的预测误差, 或者说泛化误差(generalization error)可以分解为三个部分: 偏差(bias), 方差(variance) 和噪声(noise). 在估计学习算法性能的过程中, 我们主要关注偏差与方差. 因为噪声属于不可约减的误差 (irreducible error). 下面来用公式推导泛化误差与偏差与方差, 噪声之间的关系. 符号 涵义 \(\mathbf{x}\) 测试样本 \(D\) 数据集 \(y_{D}\) \(\mathbf{x}\) 在数据集中的标记 \(y\) \(\mathbf{x}\) 的真实标记 \(f\) 训练集 \(D\) 学得的模型 \(f(\mathbf{x}; D)\) 由训练集 \(D\) 学得的模型 \(f\) 对 \(\mathbf{x}\) 的预测输出 \(\bar{f}(\mathbf{x})\) 模型 \(f\) 对 \(\mathbf{x}\) 的

奇异值分解(SVD)原理及应用

若如初见. 提交于 2019-12-23 13:45:11
一、奇异值与特征值基础知识: 特征值分解和奇异值分解在机器学习领域都是属于满地可见的方法。两者有着很紧密的关系,我在接下来会谈到,特征值分解和奇异值分解的目的都是一样,就是提取出一个矩阵最重要的特征。先谈谈特征值分解吧: 1)特征值: 如果说一个向量v是方阵A的特征向量,将一定可以表示成下面的形式: 这时候λ就被称为特征向量v对应的特征值,一个矩阵的一组特征向量是一组正交向量。特征值分解是将一个矩阵分解成下面的形式: 其中Q是这个矩阵A的特征向量组成的矩阵,Σ是一个对角阵,每一个对角线上的元素就是一个特征值。我这里引用了一些参考文献中的内容来说明一下。首先,要明确的是,一个矩阵其实就是一个线性变换,因为一个矩阵乘以一个向量后得到的向量,其实就相当于将这个向量进行了线性变换。比如说下面的一个矩阵: 它其实对应的线性变换是下面的形式: 因为这个矩阵M乘以一个向量(x,y)的结果是: 上面的矩阵是对称的,所以这个变换是一个对x,y轴的方向一个拉伸变换(每一个对角线上的元素将会对一个维度进行拉伸变换,当值>1时,是拉长,当值<1时时缩短),当矩阵不是对称的时候,假如说矩阵是下面的样子: 它所描述的变换是下面的样子:   这其实是在平面上对一个轴进行的拉伸变换(如蓝色的箭头所示),在图中,蓝色的箭头是一个最主要的变化方向(变化方向可能有不止一个),如果我们想要描述好一个变换

PCA

∥☆過路亽.° 提交于 2019-12-23 08:30:17
1.原理:https://blog.csdn.net/program_developer/article/details/80632779 PCA(Principal Component Analysis),即主成分分析方法,是一种使用最广泛的数据降维算法。 PCA的工作就是从原始的空间中顺序地找一组相互正交的坐标轴,新的坐标轴的选择与数据本身是密切相关的。其中, 第一个新坐标轴 选择是原始数据中 方差最大的方向 , 第二个新坐标轴 选取是 与第一个坐标轴正交的平面中使得方差最大 的, 第三个轴是与第1,2个轴正交的平面中方差最大的 。依次类推,可以得到n个这样的坐标轴。通过这种方式获得的新的坐标轴,我们发现, 大部分方差都包含在前面k个坐标轴中,后面的坐标轴所含的方差几乎为0 。于是,我们可以忽略余下的坐标轴, 只保留前面k个含有绝大部分方差的坐标轴 。 这相当于只保留包含绝大部分方差的维度特征,而忽略包含方差几乎为0的特征维度,实现对数据特征的降维处理。 如何得到这些包含最大差异性的主成分方向呢? 通过 计算数据矩阵的协方差矩阵 ,然后得到协方差矩阵的特征值特征向量,选择特征值最大(即方差最大)的k个特征所对应的特征向量组成的矩阵。这样就可以将数据矩阵转换到新的空间当中,实现数据特征的降维。 得到协方差矩阵的特征值特征向量有两种方法:特征值分解协方差矩阵、奇异值分解协方差矩阵

【统计学 第八周】参数估计

纵饮孤独 提交于 2019-12-23 00:36:47
梳理大纲: 参数估计 1 点估计:矩估计法 2 区间估计:总体均值的区间估计、总体比例的区间估计、总体方差的区间估计、两个总体均值之差的区间估计、两个总体比例之差的区间估计、两个总体方差比的区间估计 3 样本量的确定:估计总体均值时样本量的确定、估计总体比例时样本量的确定 参考资料: 【木东居士】【数据科学家学习小组】公众号 From 统计学Statistics 学习小组:由【木东居士】公众号 定期发起 对数据感兴趣的伙伴们 可一同在此交流学习 参数估计:用样本统计量去估计总体的参数 参数估计是推断统计的重要内容之一,它是在抽样及抽样分布的基础上,根据样本统计量来推断所关心的总体参数 参股估计的方法有: 点估计 和 区间估计 两种 1 点估计 点估计:用样本统计量θ的某个取值直接作为总体参数的θ的估计值 矩估计法 :即矩估计,也称“矩法估计”,就是利用样本矩来估计总体中相应的参数 如:用样本平均值估计总体的平均值,用样本的方差来估计总体的方差 2 区间估计 区间估计: 在点估计的基础上,给出总体参数估计的一个区间范围,该范围通常由样本统计量加减估计误差得到。 置信区间: 在区间估计中,由样本统计量所构造的总体参数的估计区间称为置信区间,其中区间的最小值称为置信下限,最大值称为置信上线。 置信水平/置信度/置信系数: 如果将构造置信区间的步骤重复多次

统计学第八周:参数统计

你离开我真会死。 提交于 2019-12-22 18:32:19
统计学:参数估计 概念 1.利用总体统计不方便甚至是无法完成的现实状况,采用抽样的方式,利用样本提供的信息来推断总体的特征。 2.点估计:point estimate, 用样本统计量的某个取值直接作为总体参数的估值。 但一个点估计值的可靠性是由它的抽样标准误差来衡量的,这表明一个具体的点估计值无法给出估计的可靠性的度量。 当围绕点估计值构造总体参数的一个区间,这就是区间估计。 3.区间估计:interval estimate ,在点估计的基础上,给出总体参数估计的一个区间范围,该区间通常由样本统计量加减估计误差得到。 根据样本统计量的抽样分布可以对样本统计量与总体参数的接近程度给出一个概率度量。 在区间估计中,由样本统计量所构成的总体参数的估计区间称为置信区间,其中区间的最小值称为置信下限,最大值称为置信上限。 置信水平:将构造置信区间的步骤重复多次,置信区间中包含总体参数真值的次数所占的比例,称为置信水平 confidence level ,也称为置信度或置信系数。 如果用某种方法构造的所有区间中有95%的区间包含总体参数的真值,5%的区间不包括总体参数的真值,那么用该方法构造的区间称为置信水平位95%的置信区间。 评价估计量的标准 🔽无偏性:指估计量抽样分布的数学期望等于被估计的总体参数。 设 总 体 参 数 位 θ , 所 选 择 的 估 计 量 为 θ ⃗ , 如 果 E

AdaBoost算法理解

会有一股神秘感。 提交于 2019-12-18 12:51:11
AdaBoost的前身和今世 强可学习和弱可学习 在概率近似正确(PAC)学习框架中, 一个类如果存在: 一个多项式复杂度的学习算法,正确率略大于随机猜测(例如二分类问题中大于1/2),称 弱可学习的 一个多项式复杂度的学习算法,并且正确率很高,称 强可学习的 Kearns和Valiant证明了强可学习和弱可学习是 等价 的 The Strength of Weak Learnability Adaboost算法就是将弱学习器组成强学习器的算法 Explaining AdaBoost 算法受到工业界和学术界的关注, 充分的理论研究 (统计学习方法证明) AdaBoost算法是为了证明弱可学习和强可学习算法等价而提出的 ,随后,人们发现该类集成算法能够有效的提升一个学习器的作用,基于AdaBoost演化出了诸多的算法,例如在各大数据挖掘上大放光彩的XGBoost,几乎霸占了诸多数据竞赛榜单的前几多年(从2017开始),在数据预处理上填充空值常用的随机森林算法等等。 随后,学术界纷纷把关注点投向了这个算法的理论证明。得到了该类算法的统计学派角度的证明, 即为AdaBoost是在指数损失函数、模型是加性模型、算法是前向分布算法 。进一步的,给出了学习算法的训练误差界,说明了其训练过程中的最坏情况,并且表明其训练误差是以指数级别下降的。在明白了AdaBoost的统计意义后

movvar移动方差

南笙酒味 提交于 2019-12-15 04:42:15
movvar 移动方差 全页折叠 语法 M = movvar(A,k) M = movvar(A,[kb kf]) M = movvar( ___ ,w) M = movvar( ___ ,w,dim) M = movvar( ___ ,nanflag) M = movvar( ___ ,Name,Value) 说明 示例 M = movvar( A , k ) 返回由局部 k 个数据点的 方差 值组成的数组,其中每个方差基于 A 的相邻元素的长度为 k 的移动窗口计算得出。当 k 为奇数时,窗口以当前位置的元素为中心。当 k 为偶数时,窗口以当前元素及其前一个元素为中心。当没有足够的元素填满窗口时,窗口将自动在端点处截断。当窗口被截断时,只根据窗口内的元素计算方差。 M 与 A 的大小相同。 如果 A 是向量, movvar 将沿该向量的长度运算。 如果 A 为多维数组,则 movvar 沿大小不等于 1 的第一个数组维度进行运算。 示例 M = movvar( A , [kb kf] ) 通过长度为 kb+kf+1 的窗口计算方差,其中包括当前位置的元素、后面的 kb 个元素和前面的 kf 个元素。 示例 M = movvar( ___ , w ) 为上述任意语法指定归一化因子。当 w = 0 时(默认值), M 按 k-1 对 k 进行归一化。当 w = 1 时, M 按 k

总体样本方差的无偏估计样本方差为什么除以n-1

梦想与她 提交于 2019-12-14 07:00:04
总体样本方差的无偏估计样本方差为什么除以n-1 本文链接: https://blog.csdn.net/qq_16587307/article/details/81328773 我们先从最基本的一些概念入手。 如下图,脑子里要浮现出总体样本 ,还有一系列随机选取的样本 。只要是样本,脑子里就要浮现出它的集合属性,它不是单个个体,而是一堆随机个体集合。样本 是总体样本中随机抽取一系列个体组成的集合,它是总体样本的一部分。 应该把样本 和总体样本 一样进行抽象化理解,因此样本 也存在期望 和方差 。 这里有一个重要的假设,就是随机选取的样本 与总体样本同分布,它的意思就是说他们的统计特性是完全一样的,即他们的期望值一样,他们的方差值也是一样的: 另外,由于每个样本的选取是随机的,因此可以假设 不相关(意味着协方差为0,即 ),根据方差性质就有: 另外,还需要知道方差另外一个性质: 为常数。 还有一个,别忘了方差的基本公式: 以上的公式都很容易百度得到,也非常容易理解。这里不赘述。 2)无偏估计 接下来,我们来理解下什么叫无偏估计。 定义 :设统计量 是总体中未知参数 的估计量,若 ,则称 为 的 无偏估计量 ;否则称为有偏估计量。 上面这个定义的意思就是说如果你拿到了一堆样本观测值,然后想通过这一堆观测值去估计某个统计量 ,一般就是想估计总体的期望或方差

nn.BatchNormalization原理

匆匆过客 提交于 2019-12-13 01:20:37
BatchNormallization 是神经网络中的一个正则化技术,可以加速网络的收敛,并且在一定程度上解决深度网络“梯度弥散”的问题。它本是数据预处理的一种方法, google 的研究人员将它应用在了神经网络中。 论文地址 详解 在这里,只探究其具体运算过程,我们假设在网络中间经过某些卷积操作之后的输出的 feature map 的尺寸为 4×3×2×2 4为 batch 的大小,3为 channel 的数目,2×2为 feature map 的长宽 整个 BN 层的运算过程如下图: 上图中, batch size 一共是4, 对于每一个 batch 的 feature map 的 size 是3×2×2 对于所有 batch 中的同一个 channel 的元素进行求均值与方差,比如上图,对于所有的 batch ,都拿出来最后一个 channel ,一共有4×4=16个元素。 然后求区这16个元素的均值与方差,求取完了均值与方差之后,对于这16个元素中的每个元素进行减去求取得到的均值与方差,然后乘以 gamma 加上 beta ,公式如下: [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-80ZbesM8-1576137603204)(C:\Users\mi\AppData\Roaming\Typora\typora-user-images