协方差矩阵

协方差矩阵

十年热恋 提交于 2019-12-25 15:53:09
概念 协方差(Covariance)在概率论和统计学中用于衡量两个变量的总体误差。而方差是协方差的一种特殊情况,即当两个变量是相同的情况。 这个解释摘自维基百科,看起来很是抽象,不好理解。其实简单来讲,协方差就是衡量两个变量相关性的变量。当协方差为正时,两个变量呈正相关关系(同增同减);当协方差为负时,两个变量呈负相关关系(一增一减)。 而协方差矩阵,只是将所有变量的协方差关系用矩阵的形式表现出来而已。通过矩阵这一工具,可以更方便地进行数学运算。 数学定义 回想概率统计里面关于方差的数学定义: \[ Var(X)=\frac{\sum_{i=1}^n{(x_i-\overline x)(x_i-\overline x)}}{n-1} \] 协方差的数学定义异曲同工: \[ Cov(X,Y)=\frac{\sum_{i=1}^n{(x_i-\overline x)(y_i-\overline y)}}{n-1} \] 这里的 \(X\) , \(Y\) 表示两个变量空间。用机器学习的话讲,就是样本有 \(x\) 和 \(y\) 两种特征,而 \(X\) 就是包含所有样本的 \(x\) 特征的集合, \(Y\) 就是包含所有样本的 \(y\) 特征的集合。 协方差矩阵 两个变量的协方差矩阵 有了上面的数学定义后,我们可以来讨论协方差矩阵了。当然,协方差本身就能够处理二维问题

PCA降维及SVD

荒凉一梦 提交于 2019-12-23 12:37:36
PCA降维 1.相关背景 我们在实际工作中经常需要分析不同组呈现来的成千上百个指标的数据,这些指标之间经常有一些相关性指标,比如厘米和英尺,这样的指标我们只要保留一个就可以,还有一些隐藏的高度相关的特征,以通过降维方法来进行数据预处理。 2. 数据降维 主成分分析(Principal Component Analysis,简称PCA)是一种常用的降维方法,属于无监督学习。所谓降维就是将数据指标从高维度减到低维度,因为低维度的数据有如下优点: 1) 更容易进行数据分析和数据可视化 2)更容易进行数据存储 3)降低算法的运行成本 3.PCA原理 样本点分布在正交属性空间中,我们如何找到一个超平面(直线的高维推广)对所有样本点最合适的表达? 1.最近重构性:样本点到这个超平面的距离足够近(类似线性回归) 2.最大可分性:样本点到这个超平面的投影尽可能分开(方差最大化) 以上两种方式得到的主成分分析的推导是等价的,下面从”最大可分析“进行推导PCA的过程。 3.1 向量的表示及基变换 3.1.1 向量的內积 a ⃗ ⋅ b ⃗ = ∣ a ⃗ ∣ ∣ b ⃗ ∣ c o s α ( α 为 两 个 向 量 的 夹 角 ) \vec a\cdot\vec b = |\vec a||\vec b|cos\alpha(\alpha为两个向量的夹角) a ⋅ b = ∣ a ∣ ∣ b ∣ c o

协方差矩阵 定义 推导证明 作用

核能气质少年 提交于 2019-12-20 04:49:28
首先,需要先理解什么是方差,什么是协方差,这里不做说明,需要的可以去找考研复习视频去学习下概率论。 = 1、首先我们来理解 二维 设有函数f(x,y) 其中有n个样本点(n>0),分别为 ,对x和y分别求均值为 将所有坐标减去均值的样本点坐标为 ,这个过程叫 数据中心化 将去中心化的样本点表示成矩阵形式为 ,设为矩阵X,这个矩阵我们称为有两个特征值。 则定义 协方差矩阵 为C = (书上就是这么定义的) 可以看出,C是一个2*2维的矩阵,用样本点表示为 很显然 等于 2、 对于多维 同样,对于 t 维函数 ,有样本点分别为 与二维的方式类似,先进行数据中心化,然后写出t个特征值的矩阵,然后通过C = ,计算出协方差矩阵。 那么对于 t 维的协方差矩阵简化表示为 3、作用 用协方差矩阵可以对原始的维度的数据进行最小损失的降维。通过求取协方差矩阵的特征值(Eigenvalues)和对应特征向量(Eigenvectors),按特征值大小排序,降维就是从特征值小的维度开始剔除。(特征值小,表明对应的那一维特征对整体的影响比较小,比如下面的图中,使用右边的坐标系时,明显y轴的对整体数据的影响比x轴要小,那么可以在右边的坐标系下,对y轴进行降维,是数据从二维变成线性的,降维对于二维可能用处不是太大,但是对于多维的数据,很有必要,可以减少数据的复杂度) 4、降维后数据求取

PCA原理分析和Matlab实现方法(三)

╄→гoц情女王★ 提交于 2019-12-16 05:05:14
PCA主成分分析原理分析和Matlab实现方法(三) 【 尊重 原创,转载请注明出处 】http://blog.csdn.net/guyuealian/article/details/68487833 网上关于PCA(主成分分析)原理和分析的博客很多,本博客并不打算长篇大论推论PCA理论,而是用最精简的语言说明鄙人对PCA的理解,并在最后给出用Matlab计算PCA过程的三种方法,方便大家对PCA的理解。 PS:本博客所有源代码,都可以在附件中找到 下载 : http://download.csdn.net/detail/guyuealian/9799160 关于PCA原理的文章,可参考: [1]http://blog.csdn.net/guyuealian/article/details/68483384 [2]http://blog.csdn.net/guyuealian/article/details/68483213 [3] 张铮的《精通Matlab数字图像处理与识别 》 一、 PCA原理简要说明 PCA算法主要用于降维,就是将样本数据从高维空间投影到低维空间中,并尽可能的在低维空间中表示原始数据。 PCA的几何意义可简单解释为: 0维-PCA:将所有样本信息都投影到一个点,因此无法反应样本之间的差异;要想用一个点来尽可能的表示所有样本数据,则这个点必定是样本的均值。 1维

主成分分析(PCA)原理详解

我的未来我决定 提交于 2019-12-10 10:07:52
个人分类: 机器学习与Python 版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/zhongkelee/article/details/44064401 转载请声明出处: http://blog.csdn.net/zhongkelee/article/details/44064401 一、PCA简介 1. 相关背景 上完陈恩红老师的《机器学习与知识发现》和季海波老师的《矩阵代数》两门课之后,颇有体会。最近在做主成分分析和奇异值分解方面的项目,所以记录一下心得体会。 在许多领域的研究与应用中,往往需要对反映事物的多个变量进行大量的观测,收集大量数据以便进行分析寻找规律。多变量大样本无疑会为研究和应用提供了丰富的信息,但也在一定程度上增加了数据采集的工作量,更重要的是在多数情况下,许多变量之间可能存在相关性,从而增加了问题分析的复杂性,同时对分析带来不便。如果分别对每个指标进行分析,分析往往是孤立的,而不是综合的。盲目减少指标会损失很多信息,容易产生错误的结论。 因此需要找到一个合理的方法,在减少需要分析的指标同时,尽量减少原指标包含信息的损失,以达到对所收集数据进行全面分析的目的。由于各变量间存在一定的相关关系,因此有可能用较少的综合指标分别综合存在于各变量中的各类信息。主成分分析与因子分析就属于这类降维的方法。 2. 问题描述

均值、方差、协方差、协方差矩阵、特征值、特征向量

末鹿安然 提交于 2019-12-05 17:55:02
均值: 描述的是样本集合的中间点。 方差: 描述的是样本集合的各个样本点到均值的距离之平均,一般是用来描述一维数据的。 协方差: 是一种用来度量两个随机变量关系的统计量。 只能处理二维问题。 计算协方差需要计算均值。 如下式: 方差与协方差的关系 方差是用来度量单个变量 “ 自身变异”大小的总体参数,方差越大表明该变量的变异越大 协方差是用来度量两个变量之间 “协同变异”大小的总体参数,即二个变量相互影响大小的参数,协方差的绝对值越大,则二个变量相互影响越大。 协方差矩阵: 协方差矩阵能处理多维问题; 协方差矩阵是一个对称的矩阵,而且对角线是各个维度上的方差。 协方差矩阵计算的是不同维度之间的协方差,而不是不同样本之间的。 样本矩阵中若每行是一个样本,则每列为一个维度,所以计算协方差时要 按列计算均值 。 如果数据是3维,那么协方差矩阵是: 特征值与 特征向量 线性变化: 线性变换 (线性映射)是在作用于 两个向量空间之间的函数 ,它保持 向量加法和标量乘法 的运算,从一个向量空间变化到另一个向量空间。 实际上线性变换表现出来的就是一个矩阵 。 特征值和特征向量 是一体的概念: 对于一个给定的线性变换(矩阵A),它的特征向量 ξ 经过这个线性变换之后,得到的新向量仍然与原来的 ξ 保持在同一條直線上,但其长度也许會改变。一个特征向量的长度在该线性变换下缩放的比例(λ)称为其特征值

浅谈均值、方差、标准差、协方差的概念及意义

匿名 (未验证) 提交于 2019-12-03 00:34:01
统计学里最基本的概念就是样本的均值、方差、标准差。首先,我们给定一个含有n个样本的集合,下面给出这些概念的公式描述: 均值: 标准差: 方差: 均值描述的是样本集合的中间点,它告诉我们的信息是有限的,而标准差给我们描述的是样本集合的各个样本点到均值的距离之平均。 以这两个集合为例,[0, 8, 12, 20]和[8, 9, 11, 12],两个集合的均值都是10,但显然两个集合的差别是很大的,计算两者的标准差,前者是8.3后者是1.8,显然后者较为集中,故其标准差小一些,标准差描述的就是这种“散布度”。之所以除以n-1而不是n,是因为这样能使我们以较小的样本集更好地逼近总体的标准差,即统计上所谓的“无偏估计”。而方差则仅仅是标准差的平方。 标准差和方差一般是用来描述一维数据的,但现实生活中我们常常会遇到含有多维数据的数据集,最简单的是大家上学时免不了要统计多个学科的考试成绩。面对这样的数据集,我们当然可以按照每一维独立的计算其方差,但是通常我们还想了解更多,比如,一个男孩子的猥琐程度跟他受女孩子的欢迎程度是否存在一些联系。协方差就是这样一种用来度量两个随机变量关系的统计量,我们可以仿照方差的定义: 来度量各个维度偏离其均值的程度,协方差可以这样来定义: 协方差的结果有什么意义呢?如果结果为正值,则说明两者是正相关的(从协方差可以引出“相关系数”的定义)

协方差矩阵

匿名 (未验证) 提交于 2019-12-03 00:26:01
首先我们给你一个含有n个样本的集合,依次给出数理统计中的一些相关概念: 标准差和方差一般是用来描述一维数据的,但现实生活我们常常遇到含有多维数据的数据集,以考试成绩为例,若要统计多个学科的考试成绩,就要用协方差,协方差就是一种用来度量两个随机变量关系的统计量,其定义为: 来度量各个维度偏离其均值的程度,标准差可以这么来定义: 需要注意的是,协方差也只能处理二维问题,那维数多了自然就需要计算多个协方差,比如n维的数据集就需要计算 个协方差,那自然而然的我们会想到使用矩阵来组织这些数据。给出协方差矩阵的定义: 这个定义还是很容易理解的,我们可以举一个简单的三维的例子,假设数据集有 三个维度,则协方差矩阵为 可见,协方差矩阵是一个对称的矩阵,而且对角线是各个维度上的方差。 上面涉及的内容都比较容易,协方差矩阵似乎也很简单,但实战起来就很容易让人迷茫了。必须要明确一点, 协方差矩阵计算的是 不同维度 之间的协方差,而不是不同样本之间的。 这个我将结合下面的例子说明,以下的演示将使用Matlab,为了说明计算原理,不直接调用Matlab的cov函数(蓝色部分为Matlab代码)。 首先,随机产生一个10*3维的整数矩阵作为样本集,10为样本的个数,3为样本的维数。 mysample = fix(rand( 10 , 3 )* 50 ) 根据公式,计算协方差需要计算均值,那是按

协方差矩阵的概念及matlab的实现

匿名 (未验证) 提交于 2019-12-02 23:52:01
对于协方差矩阵的概念,我只想说,该来的总是要来,躲得了今天跑不了明天。所以今天在此想通过这边文章彻底搞清楚这个梗!(纯手工,有什么不妥的地方,望大家的指点与谅解!) 说起协方差矩阵,自然就会想到均值,期望,方差・・・这一系列的统计学概念。(这里提示一下,很多文章都说,均值是统计学的概念,期望是概率论的概念・・・至于两者的历史范畴犹如老树盘根,这里我就不多絮了,大家可以看看相关文章!)接下来就由浅入深的说一下这些概念和相关的公式。 首先说一下均值,均值是一个统计量,是对一次实验的观察与统计。而期望是一种概率论概念,是一个数学特征。比方做一个实验,掷5次骰子,统计一下它们出现的点数,5次骰子出现的点数分别为2 4 5 1 6,那我们可以说这次实验的样本均值是(2+4+5+1+6)/5 = 3.6,但是期望不能说是3.6,因为我们仅仅掷了5次骰子。当随着次数的不断增多,我们会发现样本均值会无限趋近一个数 3.5!而这个3.5就是期望。由此可以看出,均值跟期望的关系 犹如频率和概率的关系!也可以说他们之间的关系是完全一致的,因为均值就等于随机事件中随机变量与它出现的频率相乘求和,而期望就是随机事件中所有的随机变量与它的概率相乘求和!!因此大多数文章中都会总结到: 概率是频率随样本趋于无穷的极限 期望是平均数随样本趋于无穷的极限 均值的公式为: 所以均值描述的是一个样本集合的中间点

浅谈协方差矩阵一

匿名 (未验证) 提交于 2019-12-02 23:38:02
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/zaf0516/article/details/35829891 协方差的定义 对于一般的分布,直接代入E(X)之类的就可以计算出来了,但真给你一个具体数值的分布,要计算协方差矩阵,根据这个公式来计算,还真不容易反应过来。网上值得参考的资料也不多,这里用一个例子说明协方差矩阵是怎么计算出来的吧。 记住,X、Y是一个列向量,它表示了每种情况下每个样本可能出现的数。比如给定 则X表示x轴可能出现的数,Y表示y轴可能出现的。注意这里是关键,给定了4个样本,每个样本都是二维的,所以只可能有X和Y两种维度。所以 用中文来描述,就是: 协方差(i,j)=(第i列的所有元素-第i列的均值)*(第j列的所有元素-第j列的均值) 这里只有X,Y两列,所以得到的协方差矩阵是2x2的矩阵,下面分别求出每一个元素: 所以,按照定义,给定的4个二维样本的协方差矩阵为: 用matlab计算这个例子 z=[1,2;3,6;4,2;5,2] cov(z) ans = 2.9167 -0.3333 -0.3333 4.0000 可以看出,matlab计算协方差过程中还将元素统一缩小了3倍。所以,协方差的matlab 计算公式 为: 协方差(i,j)=(第i列所有元素-第i列均值)*(第j列所有元素-第j列均值)/