方差

为什么样本方差的分母是n-1?为什么它又叫做无偏估计?

自作多情 提交于 2020-01-09 23:21:47
为什么样本方差的分母是n-1?最简单的原因,是因为因为均值已经用了n个数的平均来做估计在求方差时,只有(n-1)个数和 均值信息 是不相关的。而你的第n个数已经可以由前(n-1)个数和均值 来唯一确定,实际上没有信息量。所以在计算方差时,只除以(n-1)。 那么更严格的证明呢?请耐心的看下去。 样本方差计算公式里分母为 的目的是为了让方差的估计是无偏的。 无偏的估计(unbiased estimator)比有偏估计(biased estimator)更好是符合直觉的,尽管有的统计学家认为让mean square error即MSE最小才更有意义,这个问题我们不在这里探讨;不符合直觉的是,为什么分母必须得是 而不是才能使得该估计无偏。 首先,我们假定随机变量的数学期望是已知的,然而方差未知。在这个条件下,根据方差的定义我们有 由此可得 因此 是方差的一个无偏估计,注意式中的分母不偏不倚正好是!这个结果符合直觉,并且在数学上也是显而易见的。 现在,我们考虑随机变量 的数学期望是未知 的情形。这时,我们会倾向于无脑直接用样本均值 替换掉上面式子中的 。这样做有什么后果呢?后果就是,如果直接使用 作为估计,那么你会倾向于低估方差! 这是因为: 换言之,除非正好,否则我们一定有 而不等式右边的那位才是的对方差的“正确”估计! 这个不等式说明了,为什么直接使用 会导致对方差的低估。 那么

Kdtree(K-dimension tree)学习

你。 提交于 2020-01-08 10:47:41
以下总结纯属个人学习理解,如有不对还望留言改正。参考文章博客地址如下: https://blog.csdn.net/likika2012/article/details/39619687 https://blog.csdn.net/zhjchengfeng5/article/details/7855241 https://www.joinquant.com/view/community/detail/c2c41c79657cebf8cd871b44ce4f5d97 https://zhuanlan.zhihu.com/p/22557068 https://www.cnblogs.com/dirge/p/6091241.html https://leileiluoluo.com/posts/kdtree-algorithm-and-implementation.html 感谢几位大神的详细总结; 首先要学习kdtree就要先理解二叉树,因为实现kdtree的数据结构是基于二叉树思想来实现的。 二叉树顾名思义就是一个根节点有两个子节点;二叉树思想: 二叉查找树(Binary Search Tree,BST),是具有如下性质的二叉树(来自wiki): 1)若它的左子树不为空,则左子树上所有结点的值均小于它的根结点的值; 2)若它的右子树不为空,则右子树上所有结点的值均大于它的根结点的值;

概率论与数理统计(一)

南楼画角 提交于 2020-01-06 23:17:53
还不会的地方: 大数定律,第六章, 3,4章。 连续型函数的概率密度函数 离散型的比较好求,直接带值就可以,重点是连续型的。函数的概率密度函数,就是告诉你X的分布,让你求Y=g(X)的分布。 公式法求一维概率密度函数 首先根据x的区间求出y的区间, 然后根据y=g(x)求出其反函数x=h(y)和x的导数。 把x=h(y)带到X的概率密度函数里边,然后再乘一个导数的绝对值,就是Y的概率密度函数。 不过用公式法必须满足y=g(x)是处处可导的单调函数,如果不是的话,要根据定义去求。 卷积公式求二维概率密度函数 首先根据Z=f(X,Y)用x和z表示y,然后求一下y关于z的偏导。 首先一个负无穷到正无穷的积分,然后是概率密度函数,用z和 x替换y,然后乘一个偏导的绝对值,这个积分自然是关于x积分。 随机变量的数字特征 概率论的本质是研究随机变量,那么怎样研究随机变量呢? 一个方面就是随机变量的数字特征:期望,方差,协方差。 方差 怎样求方差呢?一个是根据他的定义:Dx=E(X-E(X)) 2 。就是每一个值与均值的差的平方,求期望。遇到一些函数的方差,就用方差的性质: D( C )=0 D(aX+bY=c)=a 2 X+b 2 Y;条件是X和Y要相互独立。 协方差与相关系数 定义:(X-Ex)(Y-Ey)的均值,相关系数是协方差的基础上除以一个根号下DxDy。 来源: CSDN 作者:

概率统计基本概念总结

会有一股神秘感。 提交于 2020-01-05 22:08:59
一、概率论基本概念 样本空间、随机事件 频率和概率 概率的相关运算和性质 等可能概型:古典概型 条件概率 全概率公式:你用条件概念算事件概率 贝叶斯公式:条件概率用于反推计算条件概率 事件的相互独立性 二、随机变量极其分布 随机变量:每个样本点映射一个数字来表征 基本离散型随便基变量分布:0-1分布、伯努利实验二项分布、泊松分布 分布函数:随机变量概率在小于某随机变量的区间的概率和 概率密度函数:连续性的随即变量的概率密度分布函数,分布函数是密度函数的定积分。 概率密度的几种分布:均匀分布、指数分布、正态分布、 随机变量之间的映射函数,及对映射前后概率密度函数的推导 三、多维随机变量极其分布 随机变量由二维向量表征,称为:二维随机变量 二维随机变量的分布函数称为联合分布函数 联合分布函数式联合分布密度的定重积分 二维随机中某一维变量的分布函数称为二维联合分布函数的边缘分布 相对于边缘分布函数还有边缘概率密度 边缘分布主要用于用联合分布求边缘分布 二维变量概率和其中一维的的条件分布律 某一维条件确定下的条件概率密度分布 联合分布的随机变量相互独立 二维随机变量联合分布的几种: 1、z=x+y分布:卷积公式 2、z=x/y、z=xy的分布 3、M=max{x,y}及N={x,y}的分布 四、随机变量的数字特征 离散随机变量*概率的的全分布求和值收敛,则称这个值为数学期望。又称均值 方差

深度学习之Batch Normalization

China☆狼群 提交于 2019-12-27 10:11:30
在机器学习领域中,有一个重要的假设:独立同分布假设,也就是假设训练数据和测试数据是满足相同分布的,否则在训练集上学习到的模型在测试集上的表现会比较差。而在深层神经网络的训练中,当中间神经层的前一层参数发生改变时,该层的输入分布也会发生改变,也就是存在内部协变量偏移问题(Internal Covariate Shift),从而造成神经层的梯度消失,模型收敛过慢的问题。 Batch Normalization(BN,批量标准化)就是一种解决内部协变量偏移问题的方法,它通过对神经网络的中间层进行逐层归一化,让每一个中间层输入的分布保持稳定,即保持同一分布。 下面从以下四个方面来深入理解Batch Normalization的原理。 1、内部协变量偏移问题 2、训练时的Batch Normalization 3、推断时的Batch Normalization 4、Batch Normalization的优点 一、内部协变量偏移问题 1、内部协变量偏移问题的产生 在传统机器学习中,一个常见的问题是协变量偏移(Covariate Shift),大致的意思就是数据会随着时间而变化,用旧数据训练好的模型去预测新数据时,结果可能会不准确。输入数据可以看做是协变量,机器学习算法要求输入数据在训练集和测试集上满足同分布,这样把模型用来预测新的数据,才能有较好的结果。 而深层神经网络中的内部协变量偏移

Numpy

时间秒杀一切 提交于 2019-12-27 07:22:10
ndarray的优势—为什么快? 存储空间连续,访问速度快 可以并行执行-Numpy底层使用C语言编写,内部解除了GIL(全局解释器锁),其对数组的操作速度不受Python解释器的限制,所以,其效率远高于纯Python代码。 numpy基于矩阵,矩阵可以分块计算,所以可以实现并行 ndarray的属性 Shape—形状—注意:返回的是元组 ndim—维度的个数—就是shape的长度 size—元素个数=shape的各个值想乘 dtype—元素的类型 ndarray的形状 生成数组的方法 生成0和1的数组 np.ones(shape) np.ones_like(array)—根据给定数组生成一个形状一样的数组 np.zeros np.zeros_like 从现有数组生成 np.array--深拷贝 np.asarray--浅拷贝 生成固定范围的数组 np.linspace—start,stop,num 在star到stop之间等区间的选取num个数,注意:一定可以去到stop np.arange(start,stop,step) 以start未开始,每隔step取一个值 stop肯定取不到(左闭右开) 等于python的range np.logspace(start,stop,num) 以10为低的指数值,等比 生成随机数组 均匀分布 np.random.rand—0

参数估计

核能气质少年 提交于 2019-12-26 11:21:57
中心极限定理是指随着样本容量n的增加,样本的均值抽样分布的形态也随之发生变化,将越来越 接近于正态分布。通常将样本容量n大于30的样本称为大样本,大样本组成的均值抽样分布可以被 认为是服从正态分布的。 参数估计有两种方法:点估计和区间估计,区间估计包含了点估计。二者的相同点都是基于一个样本作出;不同点是点估计只提供 单一 的估计值,而区间估计在点估计的基础上还提供了一个 误差界限 ,给出了取值范围——这个取值范围又叫置信区间(confidence interval),受置信度(一个概率值,即进行估计前必须事先确定的估计的把握度)影响,根据中心极限定理推导得来。 我们可以通过中心极限定理来 倒推 参数估计方法,整个倒推的思路是这样的: 区间估计实际上是抽一个样本,然后用这个样本的统计量来估计总体参数。比如想知道全校同学的每天平均学习时间(参数),就通过随机抽样找了100个同学作为样本,然后用这100个同学的平均学习时间(统计量),比如说2小时,并加减一个误差比如说半小时(关于这个误差的大小怎么定有空再说)来得到一个估计的范围。 但从一个总体可以抽许许多多样本,从全校10000名学生可以抽取到许许多多100位同学的组合,凭啥只相信一次抽样的结果?光凭一次抽样、并且只有100个同学来估计10000个同学到底靠不靠谱? 所以,在最终只用一个样本来估计总体前

协方差矩阵

删除回忆录丶 提交于 2019-12-26 07:31:05
一、统计学的基本概念 统计学里最基本的概念就是样本的均值、方差、标准差。首先,我们给定一个含有n个样本的集合,下面给出这些概念的公式描述: 均值: 标准差: 方差: 均值描述的是样本集合的中间点,它告诉我们的信息是有限的,而标准差给我们描述的是样本集合的各个样本点到均值的距离之平均。 以这两个集合为例,[0, 8, 12, 20]和[8, 9, 11, 12],两个集合的均值都是10,但显然两个集合的差别是很大的,计算两者的标准差,前者是8.3后者是1.8,显然后者较为集中,故其标准差小一些,标准差描述的就是这种“散布度”。之所以除以n-1而不是n,是因为这样能使我们以较小的样本集更好地逼近总体的标准差,即统计上所谓的“无偏估计”。而方差则仅仅是标准差的平方。 二、为什么需要协方差 标准差和方差一般是用来描述一维数据的,但现实生活中我们常常会遇到含有多维数据的数据集,最简单的是大家上学时免不了要统计多个学科的考试成绩。面对这样的数据集,我们当然可以按照每一维独立的计算其方差,但是通常我们还想了解更多,比如,一个男孩子的猥琐程度跟他受女孩子的欢迎程度是否存在一些联系。协方差就是这样一种用来度量两个随机变量关系的统计量,我们可以仿照方差的定义: 来度量各个维度偏离其均值的程度,协方差可以这样来定义: 协方差的结果有什么意义呢?如果结果为正值,则说明两者是正相关的(从协方差可以引出

IMU Noise Model

情到浓时终转凉″ 提交于 2019-12-26 00:26:02
1.参考资料 2.相关定义 3.IMU 的噪声模型 3.1噪声的建模 3.2白噪声和随机游走噪声的离散化 3.3如何获取传感器噪声参数 4.随机噪声和扰动的积分 4.1建立模型 4.2噪声的离散化模型推导 4.3系统的状态误差方程 4.4状态误差方程的积分 4.4.1 第一项-状态误差 4.4.2 第二项-测量白噪声 4.4.3 第三项-扰动噪声离散化(随机游走噪声) 4.5 离散的系统误差方程 4.6 误差状态方程的其他说明 4.7 Full IMU example 1.参考资料 <1>Kalibr IMU Noise Model: https://github.com/ethz-asl/kalibr/wiki/IMU-Noise-Model <2>高斯白噪声: http://blog.csdn.net/ZSZ_shsf/article/details/46914853 <3>随机游走: http://blog.sina.com.cn/s/blog_5c2cfefb0100emyi.html <4>泡泡机器人IMU状态模型(2) http://mp.weixin.qq.com/s/_ElpcSkMaGEIFd3bmwGa_Q <5>泡泡机器人IMU状态模型(1) http://mp.weixin.qq.com/s/PD4cOqVE3oMhyW4A2N02xQ <6>

SVD分解技术详解

时光总嘲笑我的痴心妄想 提交于 2019-12-25 15:58:11
版权声明: 本文由LeftNotEasy发布于 http://leftnoteasy.cnblogs.com , 本文可以被全部的转载或者部分使用,但请注明出处,如果有问题,请联系 wheeleast@gmail.com 前言: 上一次写了关于 PCA与LDA 的文章,PCA的实现一般有两种,一种是用特征值分解去实现的,一种是用奇异值分解去实现的。在上篇文章中便是基于特征值分解的一种解释。特征值和奇异值在大部分人的印象中,往往是停留在纯粹的数学计算中。而且线性代数或者矩阵论里面,也很少讲任何跟特征值与奇异值有关的应用背景。奇异值分解是一个有着很明显的物理意义的一种方法,它可以将一个比较复杂的矩阵用更小更简单的几个子矩阵的相乘来表示,这些小矩阵描述的是矩阵的重要的特性。就像是描述一个人一样,给别人描述说这个人长得浓眉大眼,方脸,络腮胡,而且带个黑框的眼镜,这样寥寥的几个特征,就让别人脑海里面就有一个较为清楚的认识,实际上,人脸上的特征是有着无数种的,之所以能这么描述,是因为人天生就有着非常好的抽取重要特征的能力,让机器学会抽取重要的特征,SVD是一个重要的方法。 在机器学习领域,有相当多的应用与奇异值都可以扯上关系,比如做feature reduction的PCA,做数据压缩(以图像压缩为代表)的算法,还有做搜索引擎语义层次检索的LSI(Latent Semantic