成分分析

时间序列分析和预测 (转载)

霸气de小男生 提交于 2019-12-05 12:41:48
一、时间序列及其分解 时间序列(time series)是同一现象在不同时间上的相继观察值排列而成的序列。根据观察时间的不同,时间序列中的时间可以是可以是年份、季度、月份或其他任何时间形式。 时间序列: (1)平稳序列(stationary series) 是基本上不存在趋势的序列,序列中的各观察值基本上在某个固定的水平上波动,在不同时间段波动程度不同,但不存在某种规律,随机波动 (2)非平稳序列(non-stationary series) 是包含趋势、季节性或周期性的序列,只含有其中一种成分,也可能是几种成分的组合。可分为:有趋势序列、有趋势和季节性序列、几种成分混合而成的复合型序列。 趋势(trend):时间序列在长时期内呈现出来的某种持续上升或持续下降的变动,也称长期趋势。时间序列中的趋势可以是线性和非线性。 季节性(seasonality):季节变动(seasonal fluctuation),是时间序列在一年内重复出现的周期波动。销售旺季,销售淡季,旅游旺季、旅游淡季,因季节不同而发生变化。季节,不仅指一年中的四季,其实是指任何一种周期性的变化。含有季节成分的序列可能含有趋势,也可能不含有趋势。 周期性(cyclicity):循环波动(cyclical fluctuation),是时间序列中呈现出来的围绕长期趋势的一种波浪形或振荡式波动。周期性是由商业和经济活动引起的

独立成分分析 ( ICA ) 与主成分分析 ( PCA ) 的区别

匿名 (未验证) 提交于 2019-12-03 00:30:01
1.前言 书上写的是: 1. 主成分分析假设源信号间彼此非相关,独立成分分析假设源信号间彼此独立。 2. 主成分分析认为主元之间彼此正交,样本呈高斯分布; 独立成分分析则不要求样本呈高斯分布。 在利用最大化信息熵的方法进行独立成分分析的时候,需要为源信号假定一个概率密度分布函数g',进而找出使得g(Y)=g(Wx)的信息熵最大的变换W,即有Y=s。 我的问题是, 1. 这个概率密度分布函数怎么假定?在实际信号处理中怎么给出? 2. 如果我观测到信号呈高斯分布,取g'为高斯分布,那么ICA和PCA得到的结果会相同吗? 2.解析 不管是PCA还是ICA,都不需要对源信号的分布做具体的假设;如果观察到的信号为高斯,那么源信号也为高斯,此时PCA和ICA等价。下面稍作展开。 假设观察到的信号是n维随机变量 主成分分析(PCA)和独立成分分析(ICA)的目的都是找到一个方向,即一个n维向量 使得线性组合 的某种特征最大化。 2.1主成分分析 PCA PCA认为一个随机信号最有用的信息体包含在方差里 。为此我们需要找到一个方向 w1 ,使得随机信号x在该方向上的投影 w1(T)X 的方差最大化。接下来,我们在与 w1 正交的空间里到方向 w2 ,使得 w2(T)X 的方差最大,以此类推直到找到所有的n个方向 wn . 用这种方法我们最终可以得到一列不相关的随机变量 . 如果用矩阵的形式,记 W

10 协方差矩阵与主成成分分析

梦想与她 提交于 2019-11-29 08:20:27
协方差矩阵 由上,我们已经知道:协方差是衡量两个随机变量的相关程度。且随机变量 之间的协方差可以表示为: 故根据已知的样本值可以得到协方差的估计值如下: 可以进一步地简化为: 如此,便引出了所谓的协方差矩阵: 主成成分分析 尽管从上面看来,协方差矩阵貌似很简单,可它却是很多领域里的非常有力的工具。它能导出一个变换矩阵,这个矩阵能使数据完全去相关(decorrelation)。从不同的角度看,也就是说能够找出一组最佳的基以紧凑的方式来表达数据。这个方法在统计学中被称为主成分分析(principal components analysis,简称PCA),在图像处理中称为Karhunen-Loève 变换(KL-变换)。 根据wikipedia上的介绍,主成分分析PCA由卡尔·皮尔逊于1901年发明,用于分析数据及建立数理模型。其方法主要是 通过对协方差矩阵进行特征分解,以得出数据的主成分(即特征矢量)与它们的权值(即特征值) 。PCA是最简单的以特征量分析多元统计分布的方法。其结果可以理解为对原数据中的方差做出解释:哪一个方向上的数据值对方差的影响最大。 然为何要使得变换后的数据有着最大的方差呢?我们知道,方差的大小描述的是一个变量的信息量,我们在讲一个东西的稳定性的时候,往往说要减小方差,如果一个模型的方差很大,那就说明模型不稳定了。但是对于我们 用于机器学习的数据(主要是训练数据)

第10章:多元分析

戏子无情 提交于 2019-11-27 13:03:44
10.1 聚类分析 即群分析,是对多个样本(或指标)进行定量分类的一种多元统计分析方法。对样本进行分类称为Q型聚类分析,对指标进行分类称为R型聚类分析。 10.1.1 Q型聚类分析 (1)样本的相似性度量 对于定量变量,最常用的是闵式距离 绝对值距离 欧几里得距离:最常用,当坐标轴进行正交旋转时,它保持不变 切比雪夫距离 马氏距离:对一切线性变换是不变的 (2)类与类之间的相似性度量 最短距离法 最长距离法 重心法 类平均法 离差平方和法 (3)最短距离法(最近邻法)的计算步骤: clc,clear a=[1,0;1,1;3,2;4,3;2,5]; [m,n]=size(a); d=zeros(m); d=mandist(a'); %mandist求矩阵列向量组之间的两两绝对值距离 d=tril(d); %截取下三角元素 nd=nonzeros(d); %去掉d中的零元素,非零元素按列排列 nd=union([],nd) %去掉重复的非零元素 for i=1:m-1 nd_min=min(nd); [row,col]=find(d==nd_min);tm=union(row,col); %row和col归为一类 tm=reshape(tm,1,length(tm)); %把数据tm变成行向量 fprintf('第%d次合成,平台高度为%d时的分类结果为:%s\n',... i,nd