方差分析

时间序列分析算法

廉价感情. 提交于 2020-03-24 08:40:45
简介 在商业应用中,时间是最重要的因素,能够提升成功率。然而绝大多数公司很难跟上时间的脚步。但是随着技术的发展,出现了很多有效的方法,能够让我们预测未来。不要担心,本文并不会讨论时间机器,讨论的都是很实用的东西。 本文将要讨论关于预测的方法。有一种预测是跟时间相关的,而这种处理与时间相关数据的方法叫做 时间序列模型 。这个模型能够在与时间相关的数据中,寻到一些隐藏的信息来辅助决策。 当我们处理时序序列数据的时候,时间序列模型是非常有用的模型。大多数公司都是基于时间序列数据来分析第二年的销售量,网站流量,竞争地位和更多的东西。然而很多人并不了解的时间序列分析这个领域。 所以,如果你不了解时间序列模型。这篇文章将会想你介绍时间序列模型的处理步骤以及它的相关技术。 本文包含的内容如下所示: 目录 * 1、时间序列模型介绍 * 2、使用R语言来探索时间序列数据 * 3、介绍ARMA时间序列模型 * 4、ARIMA时间序列模型的框架与应用 让我们开始吧 1、时间序列模型介绍 Let’s begin。本节包括平稳序列,随机游走,Rho系数,Dickey Fuller检验平稳性。如果这些知识你都不知道,不用担心-接下来这些概念本节都会进行详细的介绍,我敢打赌你很喜欢我的介绍的。 Return Top 平稳序列 判断一个序列是不是平稳序列有三个评判标准: 1. 均值 ,是与时间t 无关的常数。下图

多重比较和多重比较陷阱

白昼怎懂夜的黑 提交于 2020-03-06 12:53:45
方差分析中的多重比较 1.当拒绝原假设时,表明μi(i=1,2,…,k)之间的差异是显著的,但μ1与μ2、μ1与μ3、…、μ1与μk、…、μk-1与μk之间究竟是哪两个均值不同呢? 这就需要做进一步的分析,所使用的方法就是 多重比较方法 (例如最小显著差异方法),它是通过对总体均值之间的配对比较来进步检验到底哪些均值之间存在差异。 2.方差分析中多重比较的作用是什么? 答:多重比较方法是通过对总体均值之间的配对比较来进步检验到底哪些均值之间存在差异。多重比较的方法有许多,常用的是由费希尔提出的最小显著差异方法(LSD)。 也可以说是 已知主效应显著 的情况下 看看具体是自变量的哪几个水平间差异显著 (因为方差分析一般是3个以上自变量水平间的比较,当然也可以做两水平的,但两水平不存在多重分析)。 多重比较又称事后检验,是紧接着方差分析后的分析步骤,当方差分析结果显示某变量主效应显著时,用多重比较进一步分析差异具体在该变量的哪个水平上。简单效应检验针对的是两个变量或多个变量间的交互作用,也是方差分析之后的步骤,当交互作用显著时,用简单效应检验考察某变量的效应在另一个变量的不同水平上的差异。 大概的理解是找出y除了μ1这个主效应之外其他相关μ指标。 多重比较陷阱 1.μ指标可能会有相互矛盾 2.还有可能出现过拟合的情况 未必能得出准确的结果 3.一开始就业务理解错误(那年杏花微雨

主成分分析 —PCA

大城市里の小女人 提交于 2020-02-13 06:06:58
一.定义   主成分分析(principal components analysis)是一种无监督的降维算法,一般在应用其他算法前使用,广泛应用于数据预处理中。其在保证损失少量信息的前提下,把多个指标转化为几个综合指标的多元统计方法。这样可达到简化数据结构,提高分信息效率的目的。   通常,把转化生成的综合指标称为主成分,其中每个成分都是原始变量的线性组合,且每个主成分之间互不相关,使得主成分比原始变量具有某些更优越的性能。   一般,经主成分分析分析得到的主成分与原始变量之间的关系有: (1)每个主成分都是各原始变量的线性组合 (2)主成分的数目大大骚鱼原始变量的数目 (3)主成分保留了原始变量的绝大多数信息 (4)各主成分之间互不相关 二.过程   其过程是对坐标系旋转的过程,各主成分表达式就是新坐标系与原坐标系的转换关系,在新坐标系中,各坐标轴的方向就是原始数据变差最大的方向。(参见《多元统计分析》P114-117,新坐标轴Y1和Y2,用X1和X2的线性组合表示,几何上是将坐标轴按逆时针方向旋转一定的角度而得出)   详细版:数据从原来的坐标系转换到新的坐标系。转换坐标系时,以方差最大的方向作为新坐标轴方向(数据的最大方差给出了数据的最重要的信息)。第一个新坐标轴选择的是原始数据中方差最大的方法,第二个新坐标轴选择的是与第一个新坐标轴正交且方差次大的方向。重复以上过程

重复测量的方差分析

微笑、不失礼 提交于 2020-01-29 00:10:08
重复测量的意义: 由于重复测量时,每个个体的测量结果之间存在一定程度的相关,违背了方差分析数据独立性的要求,如果仍使用一般的方差分析,将会增加犯 I 类错误的概率,所以重复测量资料有相对应的方差分析方法。 重复测量方差分析要求:( 需要考虑5个假设。) 假设1 :因变量唯一,且为连续变量; 假设2 :有两个受试者内因素(Within-Subject Factor),每个受试者内因素有2个或以上的水平。(注:在重复测量的方差分析模型中,对同一个体相同变量的不同次观测结果被视为一组,用于区分重复测量次数的变量被称为受试者内因素,受试者内因素实际上是自变量。) 假设3 :受试者内因素的各个水平,因变量没有极端异常值; 假设4 :受试者内因素的各个水平,因变量需服从近似正态分布; 假设5 :对于受试者内因素的各个水平组合而言,因变量的方差协方差矩阵相等,也称为球形假设。 结果分析: 各时点指标变量满足球形假设(Sphericity 假设 ) ,通常用 Mauchly 方法检验是否满足球形假设,若检验结果 P>0.05 ,认为满足;若 P<0.05 ,则不满足。当资料满足球形假设时,可直接进行一元方差分析;不满足时,应以多元方差分析结果为准 。 球形假设检验 (Mauchly’s test of sphericity),适用于重复测量时检验不同测量之间的差值的方差是否相等

高等数理统计(五)

有些话、适合烂在心里 提交于 2020-01-24 23:47:04
引言   【比较官方的简介】数理统计学是一门以 概率论为基础 ,应用性很强的学科。它研究怎样以有效的方式收集、 整理和分析带有随机性的数据,以便对所考察的问题作出正确的推断和预测,为采取正确的决策和行动提供依据和建议。数理统计不同于一般的资料统计,它更侧重于应用随机现象本身的规律性进行资料的收集、整理和分析。   【简单的讲】,就是 通过样本分析来推断整体。   【意义或者重要性】在这个大数据时代,数据是非常重要的。怎样挖掘数据内部的规律或者隐含的信息,变得尤为重要。当时我们是不可能获得整体的数据的,所以我们只能通过抽取样本,进而通过样本来推断整体的规律。   【目录】    第一章、样本与统计量      一、引言:      二、总体与样本:      三、统计量:      四、常用分布:    第二章、参数估计     一、引言:      二、点估计—— 矩估计法 :     三、点估计—— 极大似然估计 :     四、估计量的优良性准则     五、区间估计——正态分布        1、引入       2、 单个正态总体参数的区间估计        3、两个正态总体的区间估计     六 、区间估计——非正态分布:       1、大样本正态 近似法       2、二项分布       3、泊松分布    第三章、假设检验     一、引言:     二

用scikit-learn学习主成分分析(PCA)

本秂侑毒 提交于 2020-01-15 07:44:00
    在 主成分分析(PCA)原理总结 中,我们对主成分分析(以下简称PCA)的原理做了总结,下面我们就总结下如何使用scikit-learn工具来进行PCA降维。 1. scikit-learn PCA类介绍     在scikit-learn中,与PCA相关的类都在sklearn.decomposition包中。最常用的PCA类就是sklearn.decomposition.PCA,我们下面主要也会讲解基于这个类的使用的方法。     除了PCA类以外,最常用的PCA相关类还有KernelPCA类,在原理篇我们也讲到了,它主要用于非线性数据的降维,需要用到核技巧。因此在使用的时候需要选择合适的核函数并对核函数的参数进行调参。     另外一个常用的PCA相关类是IncrementalPCA类,它主要是为了解决单机内存限制的。有时候我们的样本量可能是上百万+,维度可能也是上千,直接去拟合数据可能会让内存爆掉, 此时我们可以用IncrementalPCA类来解决这个问题。IncrementalPCA先将数据分成多个batch,然后对每个batch依次递增调用partial_fit函数,这样一步步的得到最终的样本最优降维。     此外还有SparsePCA和MiniBatchSparsePCA。他们和上面讲到的PCA类的区别主要是使用了L1的正则化

图像处理与分析

天大地大妈咪最大 提交于 2020-01-10 03:25:57
基本概念 图像的采样和量化 光照本身是连续的、但是转换成数字形式必然是不连续的 在坐标值(空间)上的数字化即为采样,对幅值的数字化即为量化 量化——每一像素值只能用有限位比特表示,故只能表现有限的精度 可以看作是笛卡儿积 Z 2 Z^2 Z 2 中的一对元素,映射到灰度值集合上的一个映射。 空间分辨率:如dpi每英寸点数;灰度分辨率直接用比特表示 图像插值 最简单的是最近邻方法,其次是双线性,最后是双三次 双线性:可以看作是在一个方格内拟合 f ( x , y ) = a + b x + c y + d x y f(x,y)=a+bx+cy+dxy f ( x , y ) = a + b x + c y + d x y ,比较好的特点是无论固定x还是固定y,关于另一个变量都是线性的。 像素间关系 4领域、8领域、m邻接(m邻接可以消除8邻接的二义性 连通性、区域、边界 距离的度量:非负、自反、交换、三角 常用计算 矩阵与阵列计算 灰度算术 集合和逻辑操作 空间操作(几何空间变换与图像配准 一般来说反向映射比前向映射要好,可以配合插值算法决定每个像素的输出值 把图像当作一个向量,然后乘以矩阵 图像变到某个变换域去(通常通过某个正交变换核 彩色图像 光的三原色为RGB 颜料的三原色为CMYK(青、品红、黄、黑 HSI 色调、饱和度、强度 图像增强 灰度变换 略 直方图处理 直方图

数理统计(一)——用Python进行方差分析

廉价感情. 提交于 2019-12-10 23:08:43
数理统计(一)——Python进行方差分析   iwehdio的博客园: https://www.cnblogs.com/iwehdio/   方差分析可以用来推断一个或多个因素在其状态变化时,其因素水平或交互作用是否会对实验指标产生显著影响。主要分为单因素方差分析、多因素无重复方差分析和多因素重复方差分析。   做数理统计课后题,发现方差分析计算比较麻烦,想用Python掉包实现。但是发现大多教程对参数的讲解不是很清楚,在此做记录。   主要用到的库是pandas和statsmodels。简要流程是,先用pandas库的DataFrame数据结构来构造输入数据格式。然后用statsmodels库中的ols函数得到最小二乘线性回归模型。最后用statsmodels库中的anova_lm函数进行方差分析。      首先,是输入的数据格式。使用pandas的DataFrame,每一行为一次试验的因素水平和试验结果。以下图中的题目为例。   则对于因素A和因素B即结果R可表示为如下的DataFrame: data = pd.DataFrame([[1, 1, 32], [1, 2, 35], [1, 3, 35.5], [1, 4, 38.5], [2, 1, 33.5], [2, 2, 36.5], [2, 3, 38], [2, 4, 39.5], [3, 1, 36], [3,

主成分分析(PCA)原理详解

我的未来我决定 提交于 2019-12-10 10:07:52
个人分类: 机器学习与Python 版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/zhongkelee/article/details/44064401 转载请声明出处: http://blog.csdn.net/zhongkelee/article/details/44064401 一、PCA简介 1. 相关背景 上完陈恩红老师的《机器学习与知识发现》和季海波老师的《矩阵代数》两门课之后,颇有体会。最近在做主成分分析和奇异值分解方面的项目,所以记录一下心得体会。 在许多领域的研究与应用中,往往需要对反映事物的多个变量进行大量的观测,收集大量数据以便进行分析寻找规律。多变量大样本无疑会为研究和应用提供了丰富的信息,但也在一定程度上增加了数据采集的工作量,更重要的是在多数情况下,许多变量之间可能存在相关性,从而增加了问题分析的复杂性,同时对分析带来不便。如果分别对每个指标进行分析,分析往往是孤立的,而不是综合的。盲目减少指标会损失很多信息,容易产生错误的结论。 因此需要找到一个合理的方法,在减少需要分析的指标同时,尽量减少原指标包含信息的损失,以达到对所收集数据进行全面分析的目的。由于各变量间存在一定的相关关系,因此有可能用较少的综合指标分别综合存在于各变量中的各类信息。主成分分析与因子分析就属于这类降维的方法。 2. 问题描述

R-4 方差分析

落花浮王杯 提交于 2019-12-06 09:43:45
本节内容: 1:方差分析的原理 2:单因数方差分析 、双因数分析 3:交互项 一:方差分析是原理 方差分析原理 对总体均值的假设检验,有三种情况: 1、总体均值与某个常数进行比较; 2、两个总体均值之间的比较; 3、两个以上总体均值之间的比较; 对于前两种情况,用Z分布和T分布就能快速得到假设检验结果。如果比较的总体大于三个,继续用它们也能够得到比较结果,只是需要两两比较,耗时耗力。 这种情况下,使用方差分析能够一次性比较两个及两个以上的总体均值,看看它们之间是否有显著性差异。 常用的方差分析方法包括:单因素方差分析、多因素方差分析、协方差分析、多元方差分析、重复测量方差分析、方差成分分析等。 分类为3种以上 :采用方差分析判断显著性 原假设就是:X1 = X2 = X3 之间无显著性 二、单因数方差分析 、双因数分析 2.1 单因数方差分析 cre = read.csv("creditcard_exp.csv",stringsAsFactors = F) cre = na.omit(cre) cre$edu = as.factor(cre$edu_class) boxplot(avg_exp~edu_class,data=cre) anova(lm(avg_exp~edu_class,data=cre)) ##这里分析的数据是creditcard_exp.csv信用卡消费 #