时间序列

笔记:时间序列相关问题

試著忘記壹切 提交于 2020-01-13 22:04:13
平稳性 平稳性定义 时间序列 X t X_t X t ​ 来自于一个概率分布,且满足: 1、 均值为与时间无关的常数; 2、方差是与时间无关的常数; 3、协方差至于时间间隔有关,与时间无关; 则称该随机时间序列是 平稳的 ,该随机过程是一个 平稳随机过程 。 白噪声 X t = μ t , μ ~ N ( 0 , σ 2 ) X_t=\mu_t,\qquad \mu ~N(0,\sigma^2) X t ​ = μ t ​ , μ ~ N ( 0 , σ 2 ) 这个序列称为 白噪声 ,由于具有相同的均值与方差,且协方差为零,满足以上定义,是平稳的。 随机游走 X t = X t − 1 + μ t X_t=X_{t-1}+\mu_t X t ​ = X t − 1 ​ + μ t ​ 该序列有相同的均值。但是方差呢?我们递推可得: X t = X 0 + μ 1 + . . . + μ t X_t=X_0+\mu_1+...+\mu_t X t ​ = X 0 ​ + μ 1 ​ + . . . + μ t ​ 则Var ( X t ) = t σ 2 (X_t)=t\sigma^2 ( X t ​ ) = t σ 2 ,故非平稳。 但是可以取差分得到平稳序列: Δ X t = X t − X t − 1 = μ t \Delta X_t=X_t-X_{t-1}=\mu_t Δ

Finance_Analysis-of-Financial-Time-Series

拈花ヽ惹草 提交于 2020-01-13 03:57:54
金融时间序列分析讲义 http://www.math.pku.edu.cn/teachers/lidf/course/fts/ftsnotes/html/_ftsnotes/rsoft.html 金融时间序列分析 https://blog.csdn.net/matrix_laboratory/article/details/53746745 方匡南 http://www.peixun.net/main.php?mod=search&ac=index&searchkey=%B7%BD%BF%EF%C4%CF 第二章 限行时间序列分析及其应用 2.1 平稳性 1. 严平稳 2. 弱平稳 2.2 相关系数和自相关函数 1. 两个随机变量X和Y的相关系数定义:      rt的相隔 l 的相关系数:    2. 样本相关系数:      相隔l:    3. ACF检验 3.1 t-ratio    3.2 混合检验(Portmanteau Test)   Q*(m) 接近地服从自由度m的X 2 分布(卡方分布)    2.3 白噪声和线性时间序列 2.3.1 白噪声   白噪声序列 {rt} 服从E(rt)=0,Var(rt)=σ 2 2.3.2 线性时间序列      φ 为权重。      φ - 权重与rt的自相关系数有如下关系:    2.4 简单自回归模型 2.4.1 AR(1

时间序列ARIMA模型

旧街凉风 提交于 2020-01-07 13:15:37
时间序列 ARIMA模型 1、 数据的平稳性与差分法 让均值和方差不发生明显的变化(让数据变平稳),用差分法 2、 ARIMA 模型 -----差分自回归平均移动模型 求解回归的经典算法:最大似然估计、最小二乘法 在具体运用时,需要指定三个参数,即( p, d, q); 其中: p表示自回归的阶数,    d表示做几阶差分(一般做一阶差分),    q表示平均移动模型的阶数 3、 相关函数的评估方法 选择 p和 q 自相关函数 ACF( Autocorrelation Function) ( 1)有序的随机变量序列 与其自身进行比较 ( 2)自相关函数反映了同一序列在不同时序的取值之间的相关性。 其中:虚线表示置信区间 偏自相关函数 PACF( Partial Autocorrelation Function) 4、建立 ARIMA模型 注意:   通过 PACF函数的图可以得知 p的取值   通过 ACF函数的图得知 q的取值 截尾:可以允许有少部分的离群点 使用 ARIMA建模的流程: (1) 将序列平稳 ----通过差分法确定 d (2) P和 q阶数的确定 ----通过 ACF和 PACF (3) ARIMA( p, d, q) 5、 参数选择 AIC、 BIC的值都是越低越好 -----主要就是保证精度的准则下, k的值尽量小 QQ图:观察所绘制出的图是否是一条直线,若是

pandas 时间序列的时间读取

喜欢而已 提交于 2019-12-28 16:31:21
发现了一个 pandas 读取 csv 的高级用法,下面直接读取一个 csv 文件: path = 'PRSA_data_2010.1.1-2014.12.31.csv' data = pd . read_csv ( path ) data . head ( ) 数据的年月日时是在不同列的,而且数据自带了第一列索引,和 pandas 的默认索引重复了。 下面改用高级读法: df = pd . read_csv ( path , index_col = 'No' , parse_dates = { 'datetime' : [ 1 , 2 , 3 , 4 ] } , date_parser = lambda x : pd . datetime . strptime ( x , '%Y %m %d %H' ) ) df . head ( ) 是不是舒服多了! 来源: CSDN 作者: 颹蕭蕭 链接: https://blog.csdn.net/itnerd/article/details/103743782

数据挖掘——时间序列分析

让人想犯罪 __ 提交于 2019-12-27 10:10:50
时间序列分析 一、 概念 时间序列(Time Series) 时间序列是指同一统计指标的数值按其发生的时间先后顺序排列而成的数列(是均匀时间间隔上的观测值序列)。 时间序列分析的主要目的是根据已有的历史数据对未来进行预测。 时间序列分析主要包括的内容有:趋势分析、序列分解、序列预测。 时间序列分解(Time-Series Decomposition) 时间序列按照季节性来分类,分为季节性时间序列和非季节性时间序列。 时间序列的构成要素: 长期趋势 T:现象在较长时期内受某种根本性因素作用而形成的总的变动趋势 季节变动 S:现象在一年内随着季节的变化而发生的有规律的周期性变动 循环趋势 C:现象以若干年为周期呈现出的波浪起伏形态的有规律的变动 不规则变动 I:是一种无规律可循的变动,包括严格的随机变动和不规则的突发性影响很大的变动两种类型 二、 非季节性时间序列 移动平均(MA,Moving Average) 移动平均是一种简单平滑技术,它通过在时间序列上逐项退役取一定项数的均值,来表现指标的长期变化和发展趋势 1、 简单移动平均(SMA) 简单移动平均将时间序列上前n个数值做简单的算术平均。 SMAn = ( x1 + x2 + …… + xn)/ n 2、 加权移动平均(WMA) 加权移动平均,在基于简单移动平均的基础上,对时间序列上前n期的每一期数值赋予相应的权重

Docker------prometheus(普罗米修斯)之部署组件及模板(1)

时光怂恿深爱的人放手 提交于 2019-12-27 04:11:05
希腊神话中,普罗米修斯是最具智慧的神明之一,是泰坦巨神后代,其名字意思为"先见之明",那么以该名字命名的监控系统究竟怎么样呢?今天虫虫给大家讲讲这个以神之名命名的监控系统。 普罗米修斯(Prometheus)介绍 Prometheus 是一个时间序列数据库。但是,它不仅仅是一个时间序列数据库。 它涵盖了可以绑定的整个生态系统工具集及其功能。 Prometheus 主要用于对基础设施的监控。包括服务器,数据库,VPS,几乎所有东西都可以通过Prometheus进行监控。 Prometheus 希望通过对Prometheus配置中定义的某些端点执行的HTTP调用来检索度量标准。 普罗米修斯的主要特点是: 一个多维 数据模型, 其中包含通过度量标准名称和键 / 值对标识的时间序列数据 PromQL ,一种 灵活的查询语言 ,可利用此维度 不依赖分布式存储;单服务器节点是自治的 时间序列收集通过 HTTP 上的拉模型进行 通过中间网关支持 推送时间序列 通过服务发现或静态配置发现目标 多种图形和仪表板支持模式 实验环境:(全部关闭防火墙,禁用selinux) Docker 容器:ip 需要安装的组件 Docker :192.168.1.40 nodeExporter Prometheus server Cadvisor grafana docker2 :192.168.1.50

python 时间序列预测

冷暖自知 提交于 2019-12-26 12:32:40
· 时间序列ARIMA模型 平稳性检验与纯随机性检验 python时序预测的7种方法 经验模态分解EMD ARIMA模型 安装statsmodels pip install statsmodels 建模过程 一、时间序列预处理 1)平稳性检验 a)时序图检验 观察时间序列的趋势性、周期性、季节性 b) acf 自相关系数和 pacf 偏相关系数 如果是拖尾或者截尾,就是平稳序列 from statsmodels . tsa . stattools import acf , pacf ##通过观察 PACF 和 ACF 截尾,分别判断p、q的值。 lag_acf = acf ( y , nlags = 80 ) #自相关 lag_pacf = pacf ( y , nlags = 80 , method = 'ols' ) #偏自相关 fig , axes = plt . subplots ( 1 , 2 , figsize = ( 25 , 8 ) ) pd . Series ( lag_acf ) . plot ( kind = 'bar' , ax = axes [ 0 ] ) pd . Series ( lag_pacf ) . plot ( kind = 'bar' , ax = axes [ 1 ] ) 或者 from statsmodels . stats .

在 Kylin 中实现异常值检测 UD(A)F

给你一囗甜甜゛ 提交于 2019-12-20 12:59:33
本文讲解了时间序列数据异常值检测的基本概念和在 Kylin 中开发使用异常值检测 UDF 的方法,可以作为其他 UDF 开发的参考。 通过在 Kylin 中移植 Hivemall 的 UDF,我们可以充分利用 Kylin 的优势,减少直接使用 Hivemall 过程中的数据加工、存储等繁杂步骤的工作量,提升用户的查询体验。本文使用的验证环境为 Kylin 2.6.3。 时间序列数据的异常值检测 时间序列数据是聚合数据中的一种重要类别,数据分析人员经常需要使用各种方法从不同角度对聚合得到的时间序列数据进行挖掘,异常值检测(Anomaly Detection)就是其中的一种常见方法。异常值检测的主要目标是从时间序列数据中区分出与预期的正常值不符的值[1],如离群值(outlier)和突变点(change-point)等,这些值往往具有比较高的关注价值,是分析人员在进行业务分析时需要重点关注的对象。 时间序列数据的异常值检测具有广泛的应用场景,例如:应用在一般的商业领域中,有助于定位生产销售中的异常波动;应用在运维中,有助于迅速发现故障;应用在医学上,有助于医生做出诊断,等等。 Hivemall 的异常值检测函数 使用传统方法在大数据集上进行异常值检测存在效率低、不够灵活等问题,因此就有人尝试引入 Hive,通过对 Hive 进行扩展来解决这些问题。例如,Apache 孵化项目

《时间序列分析及应用-R语言》读书笔记

做~自己de王妃 提交于 2019-12-19 18:53:58
【推荐】2019 Java 开发者跳槽指南.pdf(吐血整理) >>> 《时间序列分析及应用-R语言》,由美 Jonathan D. Cryer和Kung-Sik Chan编著,潘鸿宇等译,机械工业出版社出版,我这本是第二版。这是一本2008年就写好的书,2011年中文出版。算起来都7年了,不禁感概一下,中国在这方面确实落后一大截子了。 数据分析无非是分析样本数据,无论多少数据都只是一个样本而已。这个样本数据从时空分析的角度来看,主要有时间序列和空间序列,大部分数据同时会有时空属性,但目前对时空同时分析的比较少。统计学主要分析时间序列,而地理信息系统(GIS)更多地处理和分析空间序列即空间分布,二者结合起来就叫空间过程,分析和表达的难度都比较大。 时间序列分析最常用的是极值、平滑和回归等操作,从而发现一些长期性的趋势。对周期性过程需要采用模型识别方法,然后对参数和误差进行计算,以评估模型的精度。模型建好了就可以将新的样本数据代入进去,从而预测未来的可能值。 时间序列分析的基本处理使用R能够很容易完成,难的是对复杂过程的建模。常见的有季节变化、正余弦等模型,更复杂的谱分析模型。由于现实世界的复杂性,这些模型往往会叠加到一起,形成多个波,这个由于难度太大,这本书里没有涉及。 这本书通过对气温等数据作为例子,对使用R语言进行分析的方法进行了实战指导,而且附上了各种统计参数的计算公式

Use of Time-series Based Forecasting Technique for Balancing Load and Reducing Consumption of Energy in a Cloud Data Center

大憨熊 提交于 2019-12-18 10:46:09
年份:2017 摘要: 由于工作负载分配不均,一些服务器变得过载,而另一些服务器仍处于欠载状态。 为了实现负载平衡,需要从过度使用的节点迁移一些虚拟机。 但是与此不同的是,本文提出了一种负载预测算法,该算法将根据系统的当前以及将来的工作量来决定是否迁移。 因此,一旦声明节点过载,我们提出的技术就不会立即启动虚拟机迁移。 我们的算法已在CloudSim中进行了仿真,并将其性能与现有的基准算法进行了比较。 结果证明,所提出的技术不仅使数据中心更节能,而且更有效地平衡了工作量。 介绍 当前的大多数研究工作[5-12]基于系统的当前利用率。 如果服务器当前过载,则VM迁移将立即启动[7]。 但是由于迁移的开销,不必要的VM迁移可能会导致违反SLA。 结果,每次VM迁移都会增加运营成本。 因此,问题在于确定何时应开始迁移,以使与SLA违规和额外能耗有关的成本降至最低。 为此,提出了一种基于时间序列的负载预测方法,该方法决定了VM迁移的决策。 当主机的利用率水平超过动态上限时,该主机将被声明为过度利用。 如果服务器现在过载,并且下一个预测的负载也大于动态上限,则将进行迁移。 负载预测模型使我们的算法能够成功减少VM迁移的数量,并通过提供绿色IT解决方案来节省能源。 相关工作 动态比较和平衡算法(DCABA)算法使用了两个云优化概念。 首先是在物理机器级别上优化云系统