协方差

浅谈均值、方差、标准差、协方差的概念及意义

匿名 (未验证) 提交于 2019-12-03 00:34:01
统计学里最基本的概念就是样本的均值、方差、标准差。首先,我们给定一个含有n个样本的集合,下面给出这些概念的公式描述: 均值: 标准差: 方差: 均值描述的是样本集合的中间点,它告诉我们的信息是有限的,而标准差给我们描述的是样本集合的各个样本点到均值的距离之平均。 以这两个集合为例,[0, 8, 12, 20]和[8, 9, 11, 12],两个集合的均值都是10,但显然两个集合的差别是很大的,计算两者的标准差,前者是8.3后者是1.8,显然后者较为集中,故其标准差小一些,标准差描述的就是这种“散布度”。之所以除以n-1而不是n,是因为这样能使我们以较小的样本集更好地逼近总体的标准差,即统计上所谓的“无偏估计”。而方差则仅仅是标准差的平方。 标准差和方差一般是用来描述一维数据的,但现实生活中我们常常会遇到含有多维数据的数据集,最简单的是大家上学时免不了要统计多个学科的考试成绩。面对这样的数据集,我们当然可以按照每一维独立的计算其方差,但是通常我们还想了解更多,比如,一个男孩子的猥琐程度跟他受女孩子的欢迎程度是否存在一些联系。协方差就是这样一种用来度量两个随机变量关系的统计量,我们可以仿照方差的定义: 来度量各个维度偏离其均值的程度,协方差可以这样来定义: 协方差的结果有什么意义呢?如果结果为正值,则说明两者是正相关的(从协方差可以引出“相关系数”的定义)

【机器学习】几种相似度算法分析

匿名 (未验证) 提交于 2019-12-03 00:30:01
最近开始研究推荐系统,其中常见的相似度算法有以下几种: 1. 欧几里得距离 欧几里得度量(euclidean metric)(也称欧氏距离)是一个通常采用的距离定义,指在m维空间中两个点之间的真实距离,或者向量的自然长度(即该点到原点的距离)。在二维和三维空间中的欧氏距离就是两点之间的实际距离。 注意事项: a.因为计算是基于各维度特征的绝对数值,所以欧氏度量需要保证各维度指标在相同的刻度级别,比如对身高(cm)和体重(kg)两个单位不同的指标使用欧式距离可能使结果失效。 b.欧几里得距离是数据上的直观体现,看似简单,但在处理一些受主观影响很大的评分数据时,效果则不太明显;比如,U1对Item1,Item2 分别给出了2分,4分的评价;U2 则给出了4分,8分的评分。通过分数可以大概看出,两位用户褒Item2 ,贬Item1,也许是性格问题,U1 打分更保守点,评分偏低,U2则更粗放一点,分值略高。在逻辑上,是可以给出两用户兴趣相似度很高的结论。如果此时用欧式距离来处理,得到的结果却不尽如人意。即评价者的评价相对于平均水平偏离很大的时候欧几里德距离不能很好的揭示出真实的相似度。 2. 皮尔逊相关系数 Pearson 相关系数是用协方差除以两个变量的标准差得到的,虽然协方差能反映两个随机变量的相关程度(协方差大于0的时候表示两者正相关,小于0的时候表示两者负相关)

期望、方差、协方差等反应了什么

匿名 (未验证) 提交于 2019-12-03 00:27:02
在概率论和统计学中,数学期望(mean)(或均值,亦简称期望)是试验中每次可能结果的概率乘以其结果的总和,是最基本的数学特征之一。它反映随机变量平均取值的大小。 需要注意的是,期望值并不一定等同于常识中的“期望”――“期望值”也许与每一个结果都不相等。期望值是该变量输出值的平均数。期望值并不一定包含于变量的输出值集合里。 大数定律规定,随着重复次数接近无穷大,数值的算术平均值几乎肯定地收敛于期望值。 方差是衡量源数据和期望值相差的度量值。 协方差代表了两个变量之间的是否同时偏离均值。 链接: https://blog.csdn.net/northeastsqure/article/details/50163031 文章来源: 期望、方差、协方差等反应了什么

数学基础之方差、标准差和协方差三者之间的定义与计算

匿名 (未验证) 提交于 2019-12-03 00:27:02
理解三者之间的区别与联系,要从定义入手,一步步来计算,同时也要互相比较理解,这样才够深刻。 方差 方差是各个数据与平均数之差的平方的平均数。在概率论和数理统计中,方差(英文Variance)用来度量随机变量和其数学期望(即均值)之间的偏离程度。在许多实际问题中,研究随机变量和均值之间的偏离程度有着很重要的意义。 标准差 方差开根号。 协方差 在概率论和统计学中,协方差用于衡量两个变量的总体误差。而方差是协方差的一种特殊情况,即当两个变量是相同的情况。 可以通俗的理解为:两个变量在变化过程中是否同向变化?还是反方向变化?同向或反向程度如何? 你变大,同时我也变大,说明两个变量是同向变化的,这是协方差就是正的。 你变大,同时我变小,说明两个变量是反向变化的,这时协方差就是负的。 如果我是自然人,而你是太阳,那么两者没有相关关系,这时协方差是0。 从数值来看,协方差的数值越大,两个变量同向程度也就越大,反之亦然。 可以看出来,协方差代表了两个变量之间的是否同时偏离均值,和偏离的方向是相同还是相反。 公式:如果有X,Y两个变量,每个时刻的“X值与其均值之差”乘以“Y值与其均值之差”得到一个乘积,再对这每时刻的乘积求和并求出均值,即为协方差。 方差,标准差与协方差之间的联系与区别: 1. 方差和标准差都是对一组(一维)数据进行统计的,反映的是一维数组的离散程度;而协方差是对2组数据进行统计的

协方差矩阵

匿名 (未验证) 提交于 2019-12-03 00:26:01
首先我们给你一个含有n个样本的集合,依次给出数理统计中的一些相关概念: 标准差和方差一般是用来描述一维数据的,但现实生活我们常常遇到含有多维数据的数据集,以考试成绩为例,若要统计多个学科的考试成绩,就要用协方差,协方差就是一种用来度量两个随机变量关系的统计量,其定义为: 来度量各个维度偏离其均值的程度,标准差可以这么来定义: 需要注意的是,协方差也只能处理二维问题,那维数多了自然就需要计算多个协方差,比如n维的数据集就需要计算 个协方差,那自然而然的我们会想到使用矩阵来组织这些数据。给出协方差矩阵的定义: 这个定义还是很容易理解的,我们可以举一个简单的三维的例子,假设数据集有 三个维度,则协方差矩阵为 可见,协方差矩阵是一个对称的矩阵,而且对角线是各个维度上的方差。 上面涉及的内容都比较容易,协方差矩阵似乎也很简单,但实战起来就很容易让人迷茫了。必须要明确一点, 协方差矩阵计算的是 不同维度 之间的协方差,而不是不同样本之间的。 这个我将结合下面的例子说明,以下的演示将使用Matlab,为了说明计算原理,不直接调用Matlab的cov函数(蓝色部分为Matlab代码)。 首先,随机产生一个10*3维的整数矩阵作为样本集,10为样本的个数,3为样本的维数。 mysample = fix(rand( 10 , 3 )* 50 ) 根据公式,计算协方差需要计算均值,那是按

Pandas | 14 统计函数

匿名 (未验证) 提交于 2019-12-03 00:16:01
统计方法有助于理解和分析数据的行为。可以将这些统计函数应用到 Pandas 的对象上。 pct_change()函数 系列,DatFrames和Panel都有 pct_change() 函数。此函数将每个元素与其前一个元素进行比较,并计算变化百分比。 import pandas as pd import numpy as np s = pd.Series([1,2,3,4,5]) print(s) print (s.pct_change()) print('\n') df = pd.DataFrame(np.random.randn(5, 2)) print(df) print (df.pct_change()) 输出结果: 0 11 22 33 44 5dtype: int640 NaN1 1.0000002 0.5000003 0.3333334 0.250000dtype: float64 0 10 1.055808 1.3510571 1.458762 0.2293092 0.392842 -0.0432683 0.700352 0.8842584 0.120823 -0.329024 0 10 NaN NaN1 0.381654 -0.8302742 -0.730702 -1.1886863 0.782782 -21.4369894 -0.827482 -1.372090

协方差矩阵的概念及matlab的实现

匿名 (未验证) 提交于 2019-12-02 23:52:01
对于协方差矩阵的概念,我只想说,该来的总是要来,躲得了今天跑不了明天。所以今天在此想通过这边文章彻底搞清楚这个梗!(纯手工,有什么不妥的地方,望大家的指点与谅解!) 说起协方差矩阵,自然就会想到均值,期望,方差・・・这一系列的统计学概念。(这里提示一下,很多文章都说,均值是统计学的概念,期望是概率论的概念・・・至于两者的历史范畴犹如老树盘根,这里我就不多絮了,大家可以看看相关文章!)接下来就由浅入深的说一下这些概念和相关的公式。 首先说一下均值,均值是一个统计量,是对一次实验的观察与统计。而期望是一种概率论概念,是一个数学特征。比方做一个实验,掷5次骰子,统计一下它们出现的点数,5次骰子出现的点数分别为2 4 5 1 6,那我们可以说这次实验的样本均值是(2+4+5+1+6)/5 = 3.6,但是期望不能说是3.6,因为我们仅仅掷了5次骰子。当随着次数的不断增多,我们会发现样本均值会无限趋近一个数 3.5!而这个3.5就是期望。由此可以看出,均值跟期望的关系 犹如频率和概率的关系!也可以说他们之间的关系是完全一致的,因为均值就等于随机事件中随机变量与它出现的频率相乘求和,而期望就是随机事件中所有的随机变量与它的概率相乘求和!!因此大多数文章中都会总结到: 概率是频率随样本趋于无穷的极限 期望是平均数随样本趋于无穷的极限 均值的公式为: 所以均值描述的是一个样本集合的中间点

浅谈协方差矩阵一

匿名 (未验证) 提交于 2019-12-02 23:38:02
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/zaf0516/article/details/35829891 协方差的定义 对于一般的分布,直接代入E(X)之类的就可以计算出来了,但真给你一个具体数值的分布,要计算协方差矩阵,根据这个公式来计算,还真不容易反应过来。网上值得参考的资料也不多,这里用一个例子说明协方差矩阵是怎么计算出来的吧。 记住,X、Y是一个列向量,它表示了每种情况下每个样本可能出现的数。比如给定 则X表示x轴可能出现的数,Y表示y轴可能出现的。注意这里是关键,给定了4个样本,每个样本都是二维的,所以只可能有X和Y两种维度。所以 用中文来描述,就是: 协方差(i,j)=(第i列的所有元素-第i列的均值)*(第j列的所有元素-第j列的均值) 这里只有X,Y两列,所以得到的协方差矩阵是2x2的矩阵,下面分别求出每一个元素: 所以,按照定义,给定的4个二维样本的协方差矩阵为: 用matlab计算这个例子 z=[1,2;3,6;4,2;5,2] cov(z) ans = 2.9167 -0.3333 -0.3333 4.0000 可以看出,matlab计算协方差过程中还将元素统一缩小了3倍。所以,协方差的matlab 计算公式 为: 协方差(i,j)=(第i列所有元素-第i列均值)*(第j列所有元素-第j列均值)/

协方差矩阵的详细说明

匿名 (未验证) 提交于 2019-12-02 23:38:02
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/zaf0516/article/details/36033955 协方差矩阵的详细说明 变量说明: 设 为一组随机变量,这些随机变量构成随机向量 对应着第i个随机单变量的所有样本值构成的向量。 单随机变量间的协方差: 随机变量 根据已知的样本值可以得到协方差的估计值如下: 可以进一步地简化为: (4) 协方差矩阵: 其中 如果所有样本的均值为一个零向量,则式(5)可以表达成: 补充说明: 1、协方差矩阵中的每一个元素是表示的随机向量X的不同分量之间的协方差,而不是不同样本之间的协方差,如元素Cij就是反映的随机变量Xi, Xj的协方差。 2、协方差是反映的变量之间的二阶统计特性,如果随机向量的不同分量之间的相关性很小,则所得的协方差矩阵几乎是一个对角矩阵。对于一些特殊的应用场合,为了使随机向量的长度较小,可以采用主成分分析的方法,使变换之后的变量的协方差矩阵完全是一个对角矩阵,之后就可以舍弃一些能量较小的分量了(对角线上的元素反映的是方差,也就是交流能量)。特别是在模式识别领域,当模式向量的维数过高时会影响识别系统的泛化性能,经常需要做这样的处理。 3、必须注意的是,这里所得到的式(5)和式(6)给出的只是随机向量协方差矩阵真实值的一个估计(即由所测的样本的值来表示的

卡尔曼滤波的原理、理解与仿真

匿名 (未验证) 提交于 2019-12-02 23:36:01
转载 : https://zhuanlan.zhihu.com/p/49298236 卡尔曼滤波器是一种利用线性系统状态方程,通过系统输入输出观测数据,对系统状态进行最优估计的算法。而且由于观测包含系统的噪声和干扰的影响,所以最优估计也可看做是滤波过程。 1 卡尔曼滤波的原理与理解 1.1 预测 假设有一辆小车,其在t时刻的位置为 P t P_t P t (假设其在一维直线上运动,则位置可以用数轴上的点表示),速度为 v t v_t v t 。 因此在t时刻小车的状态可用向量表示为 x t = [ p t , v t ] T x_t=\left[ p_t ,v_t\right]^T x t = [ p t , v t ] T 。 但是我们并没有捕捉到一切信息,可能存在外部因素会对系统进行控制,带来一些与系统自身状态没有相关性的改变。如汽车司机可能会操纵油门,让汽车加速。 假设由于油门的设置或控制命令,我们知道了期望的加速度为 u t u_t u t (加速度理解为外部的控制量),则可由运动学公式从t-1时刻推出其在t时刻的速度与位置如下: 进一步的可以将其写成向量形式: 即: 令 则通过变量代换可以得到状态转移公式: 其中: 矩阵 F t F_t F t 为状态转移矩阵,表示如何从上一状态来推测当前时刻的状态; B t B_t B t 为控制矩阵,表示控制量 u t u_t u t