statsmodels

python时间序列分析

前提是你 提交于 2020-08-13 14:44:23
题记: 毕业一年多天天coding,好久没写paper了。在这动荡的日子里,也希望写点东西让自己静一静。 恰好 前段时间用python做了一点时间序列方面的东西,有一丁点心得体会想和大家分享下。在此也要特别感谢 顾志耐和 散沙 ,让我喜欢上了python。 什么是时间序列 时间序列简单的说就是各时间点上形成的数值序列,时间序列分析就是通过观察历史数据预测未来的值。在这里需要强调一点的是,时间序列分析并不是关于时间的回归,它主要是研究自身的变化规律的(这里不考虑含外生变量的时间序列)。 为什么用python    用 两个字总结“情怀”,爱屋及乌,个人比较喜欢python,就用python撸了。能做时间序列的软件很多,SAS、R、SPSS、Eviews甚至matlab等等,实际工作中应用得比较多的应该还是SAS和R,前者推荐 王燕写的《应用时间序列分析》,后者推荐“ 基于R语言的时间序列建模完整教程 ”这篇博文( 翻译版 )。python作为科学计算的利器,当然也有相关分析的包:statsmodels中tsa模块,当然这个包和SAS、R是比不了,但是python有另一个神器:pandas!pandas在时间序列上的应用,能简化我们很多的工作。 环境配置    python推荐直接装Anaconda,它集成了许多科学计算包,有一些包自己手动去装还是挺费劲的

python时间序列分析

别说谁变了你拦得住时间么 提交于 2020-08-10 20:23:04
题记: 毕业一年多天天coding,好久没写paper了。在这动荡的日子里,也希望写点东西让自己静一静。 恰好 前段时间用python做了一点时间序列方面的东西,有一丁点心得体会想和大家分享下。在此也要特别感谢 顾志耐和 散沙 ,让我喜欢上了python。 什么是时间序列 时间序列简单的说就是各时间点上形成的数值序列,时间序列分析就是通过观察历史数据预测未来的值。在这里需要强调一点的是,时间序列分析并不是关于时间的回归,它主要是研究自身的变化规律的(这里不考虑含外生变量的时间序列)。 为什么用python    用 两个字总结“情怀”,爱屋及乌,个人比较喜欢python,就用python撸了。能做时间序列的软件很多,SAS、R、SPSS、Eviews甚至matlab等等,实际工作中应用得比较多的应该还是SAS和R,前者推荐 王燕写的《应用时间序列分析》,后者推荐“ 基于R语言的时间序列建模完整教程 ”这篇博文( 翻译版 )。python作为科学计算的利器,当然也有相关分析的包:statsmodels中tsa模块,当然这个包和SAS、R是比不了,但是python有另一个神器:pandas!pandas在时间序列上的应用,能简化我们很多的工作。 环境配置    python推荐直接装Anaconda,它集成了许多科学计算包,有一些包自己手动去装还是挺费劲的

How to fix Statsmodel warning: “Maximum no. of iterations has exceeded”

空扰寡人 提交于 2020-08-02 07:28:46
问题 I am using Anaconda and I am trying logistic regression. After loading training data set and performed the regression. Then I got the following warning message. train_cols = data.columns[1:] logit = sm.Logit(data['harmful'], data[train_cols]) result = logit.fit() Warning: Maximum number of iterations has been exceeded. Current function value: 0.000004 Iterations: 35 C:\Users\dell\Anaconda\lib\site-packages\statsmodels\base\model.py:466: ConvergenceWarning: Maximum Likelihood optimization

【资料分享】利用Python进行数据分析·第2版 PDF

狂风中的少年 提交于 2020-07-26 07:30:19
《利用Python进行数据分析》(第二版)+中文翻译精要+配套代码和数据 链接: https://pan.baidu.com/s/1kz4DTlefVVkBpewtgomsjw 提取码:l8wi PDF 1.1 本书的内容 本书讲的是利用Python进行数据控制、处理、整理、分析等方面的具体细节和基本要点。我的目标是介绍Python编程和用于数据处理的库和工具环境,掌握这些,可以让你成为一个数据分析专家。虽然本书的标题是“数据分析”,重点却是Python编程、库,以及用于数据分析的工具。这就是数据分析要用到的Python编程。 什么样的数据? 当书中出现“数据”时,究竟指的是什么呢?主要指的是结构化数据(structured data),这个故意含糊其辞的术语代指了所有通用格式的数据,例如: 表格型数据,其中各列可能是不同的类型(字符串、数值、日期等)。比如保存在关系型数据库中或以制表符/逗号为分隔符的文本文件中的那些数据。 多维数组(矩阵)。 通过关键列(对于SQL用户而言,就是主键和外键)相互联系的多个表。 间隔平均或不平均的时间序列。 这绝不是一个完整的列表。大部分数据集都能被转化为更加适合分析和建模的结构化形式,虽然有时这并不是很明显。如果不行的话,也可以将数据集的特征提取为某种结构化形式。例如,一组新闻文章可以被处理为一张词频表,而这张词频表就可以用于情感分析。

Patsy formula when variable has a hypthen

筅森魡賤 提交于 2020-07-23 07:24:26
问题 I am trying to use the statsmodel linear regression functions with formulas. My sample data is coming from a Pandas data frame. I am having a slight problem with column names within the formula. Due to the downstream processes, I have hyphens within my column names. For example: +------+-------+-------+ + VOLT + B-NN + B-IDW + +------+-------+-------+ Now, one of the reasons for keeping the hyphen as it allows python to split the string for other analysis, so I have to keep it. As you can see

Patsy formula when variable has a hypthen

∥☆過路亽.° 提交于 2020-07-23 07:24:03
问题 I am trying to use the statsmodel linear regression functions with formulas. My sample data is coming from a Pandas data frame. I am having a slight problem with column names within the formula. Due to the downstream processes, I have hyphens within my column names. For example: +------+-------+-------+ + VOLT + B-NN + B-IDW + +------+-------+-------+ Now, one of the reasons for keeping the hyphen as it allows python to split the string for other analysis, so I have to keep it. As you can see

Patsy formula when variable has a hypthen

别来无恙 提交于 2020-07-23 07:22:05
问题 I am trying to use the statsmodel linear regression functions with formulas. My sample data is coming from a Pandas data frame. I am having a slight problem with column names within the formula. Due to the downstream processes, I have hyphens within my column names. For example: +------+-------+-------+ + VOLT + B-NN + B-IDW + +------+-------+-------+ Now, one of the reasons for keeping the hyphen as it allows python to split the string for other analysis, so I have to keep it. As you can see

Statsmodels Anova for logistic regression

会有一股神秘感。 提交于 2020-07-20 07:47:28
问题 I found the statsmodels implementation of the anova testing for linear models to be very useful (http://www.statsmodels.org/dev/generated/statsmodels.stats.anova.anova_lm.html#statsmodels.stats.anova.anova_lm) but I was wondering, since it's not present in the library, how one could approach building the equivalent version for the logistic regression part. formulas : from statsmodels.formula.api import ols, logit import statsmodels.api as sm ols(formula_str, data=data_on_which_to_perform

Confidence interval of probability prediction from logistic regression statsmodels

◇◆丶佛笑我妖孽 提交于 2020-06-24 03:02:19
问题 I'm trying to recreate a plot from An Introduction to Statistical Learning and I'm having trouble figuring out how to calculate the confidence interval for a probability prediction. Specifically, I'm trying to recreate the right-hand panel of this figure (figure 7.1) which is predicting the probability that wage>250 based on a degree 4 polynomial of age with associated 95% confidence intervals. The wage data is here if anyone cares. I can predict and plot the predicted probabilities fine with

statsmodels raises TypeError: ufunc 'isfinite' not supported for the input types

本小妞迷上赌 提交于 2020-06-17 14:10:37
问题 I am applying backward elimination using statsmodels.api and the code gives this error `TypeError: ufunc 'isfinite' not supported for the input types, and the inputs could not be safely coerced to any supported types according to the casting rule ''safe'' I have no clue how to solve it here is the code import pandas as pd import matplotlib.pyplot as plt import numpy as np from sklearn.linear_model import LinearRegression from sklearn.model_selection import train_test_split from sklearn