协方差

方差、标准差、协方差、相关系数

最后都变了- 提交于 2019-11-29 21:19:15
链接:https://www.cnblogs.com/raorao1994/p/9050697.html 方差、标准差、协方差、相关系数 【方差】   (variance)是在概率论和统计方差衡量 随机变量 或一组数据时离散程度的度量。概率论中方差用来度量 随机变量 和其 数学期望 (即 均值 )之间的偏离程度。统计中的方差(样本方差)是每个样本值与全体样本值的平均数之差的平方值的 平均数 。在许多实际问题中,研究方差即偏离程度有着重要意义。方差是衡量源数据和期望值相差的度量值。(百度百科)      在统计描述中,方差用来计算每一个变量(观察值)与总体均数之间的差异。为避免出现离均差总和为零,离均差平方和受样本含量的影响,统计学采用平均离均差平方和来描述变量的变异程度。总体方差计算公式:      实际工作中,总体均数难以得到时,应用样本统计量代替总体参数,经校正后,样本方差计算公式:   S^2= ∑(X- ) ^2 / (n-1) S^2为样本方差,X为变量, 为样本均值,n为样本例数。(无偏估计) 【标准差】   标准差(Standard Deviation) ,中文环境中又常称 均方差 ,是离均差平方的算术平均数的平方根,用σ表示。标准差是方差的算术平方根。标准差能反映一个数据集的离散程度。平均数相同的两组数据,标准差未必相同。标准差也被称为 标准偏差 ,或者实验标准差

【转】协方差与相关系数

陌路散爱 提交于 2019-11-29 11:15:53
转载:http://redstonewill.com/1511/ 什么是协方差(Covariance)? 1 协方差表示的是两个变量的总体的误差,这与只表示一个变量误差的方差不同。 如果两个变量的变化趋势一致,也就是说如果其中一个大于自身的期望值,另外一个也大于自身的期望值,那么两个变量之间的协方差就是正值。 如果两个变量的变化趋势相反,即其中一个大于自身的期望值,另外一个却小于自身的期望值,那么两个变量之间的协方差就是负值。 协方差是怎么来的? 简单地来说,协方差就是反映两个变量 X 和 Y 的相互关系。这种相互关系大致分为三种: 正相关、负相关、不相关 。 什么是正相关呢?例如房屋面积(X)越大,房屋总价(Y)越高,则房屋面积与房屋总价是正相关的; 什么是负相关呢?例如一个学生打游戏的时间(X)越多,学习成绩(Y)越差,则打游戏时间与学习成绩是负相关的; 什么是不相关呢?例如一个人皮肤的黑白程度(X)与他的身体健康程度(Y)并无明显关系,所以是不相关的。 我们先来看第一种情况,令变量 X 和变量 Y 分别为: X = [11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30] Y = [12 15 17 21 22 21 18 23 26 25 22 28 24 28 30 33 28 34 36 35]

10 协方差矩阵与主成成分分析

梦想与她 提交于 2019-11-29 08:20:27
协方差矩阵 由上,我们已经知道:协方差是衡量两个随机变量的相关程度。且随机变量 之间的协方差可以表示为: 故根据已知的样本值可以得到协方差的估计值如下: 可以进一步地简化为: 如此,便引出了所谓的协方差矩阵: 主成成分分析 尽管从上面看来,协方差矩阵貌似很简单,可它却是很多领域里的非常有力的工具。它能导出一个变换矩阵,这个矩阵能使数据完全去相关(decorrelation)。从不同的角度看,也就是说能够找出一组最佳的基以紧凑的方式来表达数据。这个方法在统计学中被称为主成分分析(principal components analysis,简称PCA),在图像处理中称为Karhunen-Loève 变换(KL-变换)。 根据wikipedia上的介绍,主成分分析PCA由卡尔·皮尔逊于1901年发明,用于分析数据及建立数理模型。其方法主要是 通过对协方差矩阵进行特征分解,以得出数据的主成分(即特征矢量)与它们的权值(即特征值) 。PCA是最简单的以特征量分析多元统计分布的方法。其结果可以理解为对原数据中的方差做出解释:哪一个方向上的数据值对方差的影响最大。 然为何要使得变换后的数据有着最大的方差呢?我们知道,方差的大小描述的是一个变量的信息量,我们在讲一个东西的稳定性的时候,往往说要减小方差,如果一个模型的方差很大,那就说明模型不稳定了。但是对于我们 用于机器学习的数据(主要是训练数据)

方差 标准差 协方差

…衆ロ難τιáo~ 提交于 2019-11-29 05:47:05
方差 方差用来度量随机变量和其数学期望之间的偏离程度,variance =E[(X-EX)(X-EX)] 标准差和均值的量纲(单位)是一致的,在描述一个波动范围时标准差比方差更方便。 存在一个值为N的分母,其作用为将计算得到的累积偏差进行平均,从而消除数据集大小对计算数据离散程度所产生的影响。不过,使用N所计算得到的方差及标准差只能用来表示该数据集本身(population)的离散程度;如果数据集是某个更大的研究对象的样本(sample),那么在计算该研究对象的离散程度时,就需要对上述方差公式和标准差公式进行贝塞尔修正,将N替换为N-1: 简单的说,是除以 N 还是 除以 N-1,则要看样本是否全,比如,我要统计全国20岁男性的平均身高,你肯定拿不到全部20岁男性的身高,所以只能随机抽样 500名,这时要除以 N-1,因为只是部分数据(称为整体数据的 无偏估计 );但是我们算沪深300在2017年3月份的涨跌幅,我们是可以全部拿到3月份的数据的,所以我们拿到的是全部数据,这时就要除以 N。 协方差 协方差Covariance用于描述2个随机变量偏离其均值的程度,cov(X,Y)=E[(X-EX)(Y-EY)]=E(XY)-E(X)*E(Y) 协方差作为描述X和Y相关程度的方法,在同一物理量纲下有一定的作用。但是两个变量采用不同的量纲时,他们的协方差在数值上会表现出很大的差异

特征值和特征向量(整理)

跟風遠走 提交于 2019-11-29 02:41:19
三、特征值和特征向量的应用实例 1、主成分分析(Principle Component Analysis, PCA) (1)方差、协方差、相关系数、协方差矩阵 方差: 协方差: , , **方差是衡量单变量的离散程度,协方差是衡量两个变量的相关程度(亲疏),协方差越大表明两个变量越相似(亲密),协方差越小表明两个变量之间相互独立的程度越大。 相关系数: , **协方差和相关系数都可以衡量两个表明的相关程度,协方差未消除量纲,不同变量之间的协方差大小不能直接比较,而相关系数消除了量纲,可以比较不同变量之间的相关程度。 协方差矩阵: 如果有两个变量X,Y,那么协方差矩阵为 ,协方差阵说明了样本中变量间的亲疏关系。 (2)主成分分析的思想和算法   主成分分析是利用降维的思想,将多个变量转化为少数几个综合变量(即主成分),其中每个主成分都是原始变量的线性组合,各主成分之间互不相关,从而这些主成分能够反映始变量的绝大部分信息,且所含的信息互不重叠。它是一个线性变换,这个变换把数据变换到一个新的 坐标系统 中,使得任何数据投影的 第一大方差在第一个坐标 (称为第一主成分)上, 第二大方差在第二个坐标 (第二主成分)上,依次类推。主成分分析经常用减少数据集的维数,同时保持数据集的对方差贡献最大的特征。   假设用 p 个变量来描述研究对象,分别用X 1 ,X 2 …X p 来表示,这 p

均值、方差、协方差、协方差矩阵、特征值、特征向量

家住魔仙堡 提交于 2019-11-28 06:54:54
均值: 描述的是样本集合的中间点。 方差: 描述的是样本集合的各个样本点到均值的距离之平均,一般是用来描述一维数据的。 协方差: 是一种用来度量两个随机变量关系的统计量。 只能处理二维问题。 计算协方差需要计算均值。 如下式: 方差与协方差的关系 方差是用来度量单个变量 “ 自身变异”大小的总体参数,方差越大表明该变量的变异越大 协方差是用来度量两个变量之间 “协同变异”大小的总体参数,即二个变量相互影响大小的参数,协方差的绝对值越大,则二个变量相互影响越大。 协方差矩阵: 协方差矩阵能处理多维问题; 协方差矩阵是一个对称的矩阵,而且对角线是各个维度上的方差。 协方差矩阵计算的是不同维度之间的协方差,而不是不同样本之间的。 样本矩阵中若每行是一个样本,则每列为一个维度,所以计算协方差时要 按列计算均值 。 如果数据是3维,那么协方差矩阵是: 特征值与 特征向量 线性变化: 线性变换 (线性映射)是在作用于 两个向量空间之间的函数 ,它保持 向量加法和标量乘法 的运算,从一个向量空间变化到另一个向量空间。 实际上线性变换表现出来的就是一个矩阵 。 特征值和特征向量 是一体的概念: 对于一个给定的线性变换(矩阵A),它的特征向量 ξ 经过这个线性变换之后,得到的新向量仍然与原来的 ξ 保持在同一條直線上,但其长度也许會改变。一个特征向量的长度在该线性变换下缩放的比例(λ)称为其特征值

PCA

老子叫甜甜 提交于 2019-11-28 04:05:27
PCA本质上是一个有损的特征压缩过程,但是我们期望损失的精度尽可能地少,也就是希望压缩的过程中保留最多的原始信息。要达到这种目的,我们希望降维(投影)后的数据点尽可能地分散。 基于这种思想,我们希望投影后的数据点尽可能地分散。而这种分散程度在数学上可以利用方差来表示。设降维后的特征为 A,也就是希望 $var(A)= \frac{1}{m}\sum_{i}^{m}({a}_{i}-{\mu}_{a} )^{2}$,而由于在PCA降维前,一般已经做了特征零均值化处理,为了方便,记$var(A)= \frac{1}{m}\sum_{i}^{m}({a}_{i})^{2}$,同样,为了减少特征的冗余信息,我们希望降维后的各特征之间互不相关。而不相关性可以用协方差来衡量。设降维后的两个特征为A、B的协方差为0。 所以问题就是对Y进行对角化,即方差最大而协方差为0。运用到谱分解(特征向量和特征值)。 来源: http://www.cnblogs.com/xcxy-boke/p/11405052.html

PCA的数学原理

↘锁芯ラ 提交于 2019-11-28 04:05:06
原帖地址: http://blog.codinglabs.org/articles/pca-tutorial.html PCA(Principal Component Analysis)是一种常用的数据分析方法。PCA通过线性变换将原始数据变换为一组各维度线性无关的表示,可用于提取数据的主要特征分量,常用于高维数据的降维。网上关于PCA的文章有很多,但是大多数只描述了PCA的分析过程,而没有讲述其中的原理。这篇文章的目的是介绍PCA的基本数学原理,帮助读者了解PCA的工作机制是什么。 当然我并不打算把文章写成纯数学文章,而是希望用直观和易懂的方式叙述PCA的数学原理,所以整个文章不会引入严格的数学推导。希望读者在看完这篇文章后能更好的明白PCA的工作原理。 数据的向量表示及降维问题 一般情况下,在数据挖掘和机器学习中,数据被表示为向量。例如某个淘宝店2012年全年的流量及交易情况可以看成一组记录的集合,其中每一天的数据是一条记录,格式如下: (日期, 浏览量, 访客数, 下单数, 成交数, 成交金额) 其中“日期”是一个记录标志而非度量值,而数据挖掘关心的大多是度量值,因此如果我们忽略日期这个字段后,我们得到一组记录,每条记录可以被表示为一个五维向量,其中一条看起来大约是这个样子: 注意这里我用了转置,因为习惯上使用列向量表示一条记录(后面会看到原因),本文后面也会遵循这个准则

numpy股票相关性分析

心已入冬 提交于 2019-11-28 01:43:37
基础知识-协方差 协方差其意义: 度量各个维度偏离其均值的程度。协方差的值如果为正值,则说明两者是正相关的(从协方差可以引出“相关系数”的定义),结果为负值就说明负相关的,如果为0,也是就是统计上说的“相互独立”。 如果正相关,这个计算公式,每个样本对(Xi, Yi), 每个求和项大部分都是正数,即两个同方向偏离各自均值,而不同时偏离的也有,但是少,这样当样本多时,总和结果为正。下面这个图就很直观。下面转载自:http://blog.csdn.net/wuhzossibility/article/details/8087863 在概率论中,两个随机变量 X 与 Y 之间相互关系,大致有下列3种情况: 当 X, Y 的联合分布像上图那样时,我们可以看出,大致上有: X 越大 Y 也越大, X 越小 Y 也越小,这种情况,我们称为“正相关”。 当X, Y 的联合分布像上图那样时,我们可以看出,大致上有:X 越大Y 反而越小,X 越小 Y 反而越大,这种情况,我们称为“负相关”。 当X, Y 的联合分布像上图那样时,我们可以看出:既不是X 越大Y 也越大,也不是 X 越大 Y 反而越小,这种情况我们称为“不相关”。 怎样将这3种相关情况,用一个简单的数字表达出来呢? 在图中的区域(1)中,有 X>EX ,Y-EY>0 ,所以(X-EX)(Y-EY)>0; 在图中的区域(2)中,有 X

姿态控制的ekf预测控制与结算学习

女生的网名这么多〃 提交于 2019-11-27 08:11:35
代码框架篇 代码的主要结构由ekf2_main.cpp, estimator_interface.cpp, 和ekf.cpp,ekf_helper.cpp 互相交互,在加上底层的的一系列处理文件。 事实上,之前花费了一周的时间,画的流程图意义和价值很大,这让我在程序代码分析的时候更加直观 流程图的连接见: https://download.csdn.net/download/weixin_39350416/11546415 接下来我该做什么呢,主要分析一下,updated()函数中的五个步骤 1。 预测状态 2。预测协方差 3。 控制融合模式 4。 运行地形估计 5。计算输出状态(输出状态的论文已经梳理过了,但是程序还需要再仔细琢磨) 然后我们现在从预测状态开始 predictState(); predictCovariance(); 这两个函数的主要任务就是执行主过滤器的状态和协方差预测; controlFusionModes(); 这个函数控制融合观测数据 刚刚把第一个状态预测函数过了下,这个函数在ekf.cpp中 确实是根据δ角度和δ速度,校正当前的角度和速度,然后校正垂直方向的速度,和位置信息。 现在过预测协方差,这个函数在协方差的大文件里,covariance.cpp中 这个预测协方差主要做协方差的计算,但是这个内部协方差是计算还是置位,都是有条件的