因变量

Python决策树与随机森林简述

孤人 提交于 2020-02-07 00:24:30
关于决策树和随机森林的一些小知识我会在后面陆续更新 决策树属于经典的十大数据分析与挖掘,是一种类似流程图的树结构,其规则就是IF…THE…的思想,可以用于数值型因变量的预测和离散型因变量的分类。该算法简单直观、通俗易懂,不需要研究者掌握任何领域知识或数学推理。而且算法的结果输出具有很强的解释性。通常情况下,将决策树用作很好的预测准确率。 来源: CSDN 作者: Zhongxin#c 链接: https://blog.csdn.net/qq_44852536/article/details/104201215

SPSS-回归

你离开我真会死。 提交于 2020-01-25 11:17:46
1、一元回归 一元线性回归分析、多元线性回归分析 【一元线性回归分析】 已经某变量取值,如果想要用它得到另一个变量的预测值 自变量或预测变量、因变量或标准变量 1. 目的:根据某自变量取值得到因变量的预测值 2. 所需数据: 因变量(连续变量)+自变量(连续变量、二分变量) 3. 假设条件: a. 观测值独立 b. 两个变量服从正态分布:总体中每一变量的取值都要服从正态分布,而且对某一变量的任意取值,另一变量的取值也应服从正态分布 c. 方差齐性:因变量的总体方差与自变量的方差相同的 4. 方程: Y=a+bX Y表示因变量的预测值(不是真实值),a表示的y轴的截距,b表示回归方程的斜率,X表示自变量的取值 5. 假设检验: 在原假设为真(b=0)的情况下,如果检验的结果不可能(p值小于等于0.05),则拒绝原假设,即回归系数不等于0; 如果检验的结果有可能(p值大于0.05),则接受原假设,即回归系数为0 练习: 这是一家超市连续3年的销售数据,包括月份,季度,广告费用,客流量,销售额5个变量,共36条记录,这里根据广告费用来预测销售额,当广告费用为20万时,销售额大概为多少。 数据:超市销售数据.sav。 6. 具体步骤: a. 导入数据 b. 分析数据:分析--回归--线性回归 c. 解释输出结果: 描述统计:给出常见统计量 相关性:两个变量的相关系数,当前的相关系数是0

建模随手记2 --- 最小二乘法实现线性回归

牧云@^-^@ 提交于 2020-01-22 03:08:07
1. 回归分析 1.1. 一元线性回归 一元线性回归可以用来分析一个自变量和因变量之间的关系,通过分散的样本点来得到自变量和因变量之间的线性关系,通过最小二乘法来获得线性回归的系数,计算之后要对获得的回归方程进行检验。 P19 例2.1.1: import numpy as np from matplotlib import pyplot as plt from sklearn . linear_model import LinearRegression def linear_regression ( x , y ) : plt . figure ( ) plt . scatter ( x , y , alpha = 0.5 ) plt . title ( 'weight(y) and temperature(x)' ) plt . xlabel ( 'temperature' ) plt . ylabel ( 'weight' ) lrModel = LinearRegression ( ) # 求解模型 lrModel . fit ( x , y ) # 对x进行预测 y0 = lrModel . predict ( x ) plt . plot ( x , y0 ) plt . show ( ) alpha = lrModel . coef_ # 获得斜率 beta =

PLS系列002之多因变量线性PLS

别说谁变了你拦得住时间么 提交于 2019-12-22 13:41:21
多因变量线性偏最小二乘法 1 多因变量线性PLS 1.1 算法设计思想 1.2 计算推导 1.3 PLS性质 1.4 交叉性检验 Reference 1 多因变量线性PLS 在多元线性回归模型中,若一组自变量 X = ( x 1 , x 2 , x 3 , ⋯   , x i , ⋯ x p ) X=({{x}_{1}},{{x}_{2}},{{x}_{3}},\cdots ,{{x}_{i}},\cdots {{x}_{p}}) X = ( x 1 ​ , x 2 ​ , x 3 ​ , ⋯ , x i ​ , ⋯ x p ​ ) 和一组因变量 Y = { y 1 , y 2 , y 3 , ⋯   , y j , ⋯   , y q } Y=\{{{y}_{1}},{{y}_{2}},{{y}_{3}},\cdots ,{{y}_{j}},\cdots ,{{y}_{q}}\} Y = { y 1 ​ , y 2 ​ , y 3 ​ , ⋯ , y j ​ , ⋯ , y q ​ } ,当数据样本满足高斯-马尔科夫假设条件时,由least squares(最小二乘)有: Y ^ = ( X T X ) − 1 X T Y \hat{Y}={{({{X}^{T}}X)}^{-1}}{{X}^{T}}Y Y ^ = ( X T X ) − 1 X T Y ,其中 Y ^ \hat

关于相关系数

♀尐吖头ヾ 提交于 2019-12-05 17:46:51
在回归方程中: 未标准话的系数表示的是自变量变化一个单位,因变量的变化程度。 标准化的系数表示自变量之间已经没有单位,回归系数可以直接比较大小了,而未标准化的系数则不能够比较大小。 上式中x与y的方差都是标量所以可以提进E()内。 可以看出相关系数r其实是自变量与因变量的Z分数之间的协方差 来源: https://www.cnblogs.com/zijidefengge/p/11938183.html

挖掘建模

非 Y 不嫁゛ 提交于 2019-12-02 16:39:33
挖掘建模 经过数据探索于数据预处理,得到了可以直接建模的数据..根据挖掘目标和数据形式可以建立分类与预测,聚类分析,关联规则,时序模式和偏差检测等模型.帮助企业提取数据汇总蕴含得商业价值,提高企业得竞争力. 分类和预测问题得两种主要类型,分类主要是预测分类标号(离散属性),而预测主要是建立连续值函数模型,预测给定自变量对应得因变量得值 实现过程: 分类: 分类是构造一个分类模型,输入样本得属性值,输出对应得类别,将每个样本映射到预先定义好 得类别. 分类模型建立再已有类标记得数据集上,模型再已有样本上得准确率可以方便得计算,所以分类属于有监督得学习. 预测 预测是指建立两种或两种以上变量相互依赖得函数模型(线性回归...),然后进行预测或控制 实现过程: 分类和预测得实行过程类似, 分类算法有两步过程:第一步是学习步,通过归纳分析训练样本集来建立分类规则;第二步是分类步,先用已知得测试样本集评估分类规则得准确率,如果准确率是可以接受的,则使用该模型对未知类标号的待测样本集进行预测. 预测模型的实现也有两步,第一步是通过训练集建立预测属性(数值型)的函数模型,第二步再模型通过检验后进行预测或控制 常用的分类与预测算法 算法名称 算法描述 回归分析 回归分析是确定预测属性(数值型)与其他变量之间相互依赖的定量关系最常用的统计学方法,包括线性回归,非线性回归,Logistic回归,岭回归

方差分析||MSA/MSE|

℡╲_俬逩灬. 提交于 2019-12-01 14:03:39
应用统计学 - 方差分析 数值型数据使用线性回归来研究因素对因变量的影响。类别型数据使用方差分析来研究因素对因变量的影响。方差分析是使用方差比 MSA/MSE 来检验均值是否全相等,即相等是 H0 假设,而不全相等是 H1 假设。 自变量是因素,而因素取值是水平。比如,降水量是因素,降水量大、中和小是因素的三个水平。 看方差是否相等,来判断组间差异是不是很大, 组内组间都有随机误差,但是不是一种随机误差 来源: https://www.cnblogs.com/yuanjingnan/p/11689644.html

logistic回归模型

孤人 提交于 2019-12-01 07:22:37
为什么要用 logistic 回归? 在医学领域,我们经常会遇到这样的数据:患病与未患病、生存与死亡、阴性与阳性……这些结果都是二分类变量。如果要研究自变量与分类型因变量的关系,用多元线性回归模型是束手无策的,因为多元线性回归模型研究连续性因变量,并且要求总体(因变量)分布类型为正态分布。因此,当因变量为分类变量时,需要使用logistic回归模型。 什么是 logistic 回归模型? logit 变换 我们在建立回归方程时,因变量的取值范围为实数集;而在我们所研究的问题中,这些分类型因变量的取值却是在0~1之间,如患病率为0.1、0.5、0.8等等,因此需要先对因变量的值(目标概率)做logit变换。 设事件发生的概率为$p$,不发生的概率为$1-p$,则将$\frac{p}{1-p}$称为事件的发生比,记为odds(比数、优势),logit变换即为: $$logit(p)=ln(\frac{p}{1-p})$$ 显然,当$p=1$时,$logit(p)$取值为$+\infty$;当$p=0.5$时,$logit(p)=0$;当$p=0$时,$logit(p)$取值为$-\infty$。这样一来,就把因变量的取值范围从0~1扩展到了实数集,而采用了这种处理的回归分析就是logistic回归。 logistic 回归模型 设有一个二分类因变量y,取值为1时表示事件发生

统计学基础之回归分析

▼魔方 西西 提交于 2019-11-29 17:13:59
目录:(来源:百度百科等) 一、一元线性回归 二、多元线性回归 一、一元线性回归   一元线性回归是分析只有一个自变量(自变量x和因变量y)线性相关关系的方法。一个经济指标的数值往往受许多因素影响,若其中只有一个因素是主要的,起决定性作用,则可用一元线性回归进行预测分析。回归分析是研究某一变量(因变量)与另一个或多个变量(解释变量、自变量)之间的依存关系,用解释变量的已知值或固定值来估计或预测因变量的总体平均值。   一元线性回归分析预测法,是根据自变量x和因变量Y的相关关系,建立x与Y的线性回归方程进行预测的方法。由于市场现象一般是受多种因素的影响,而并不是仅仅受一个因素的影响。所以应用一元线性回归分析预测法,必须对影响市场现象的多种因素做全面分析。只有当诸多的影响因素中,确实存在一个对因变量影响作用明显高于其他因素的变量,才能将它作为自变量,应用一元相关回归分析市场预测法进行预测。 预测模型为: 式中, x t 代表t期自变量的值; 代表t期因变量的值;a、b代表一元线性回归方程的参数。a、b参数由下列公式求得(用代表): 建立模型 : 1、选取一元线性回归模型的变量 ; 2、绘制计算表和拟合散点图 ; 3、计算变量间的回归系数及其相关的显著性 ; 4、回归分析结果的应用 模型的检验: 1、经济意义检验:就是根据模型中各个参数的经济含义

热门数据挖掘模型应用入门(一): LASSO回归

喜夏-厌秋 提交于 2019-11-28 11:46:52
热门数据挖掘模型应用入门(一): LASSO回归 2016-10-10 20:46 作者简介: 侯澄钧,毕业于俄亥俄州立大学运筹学博士项目, 目前在美国从事个人保险产品(Personal Line)相关的数据分析,统计建模,产品算法优化方面的工作。 目录: 模型简介 线性回归 Logistic回归 Elstic Net模型家族简介 学习资料 1.模型简介 Kaggle网站 (https://www.kaggle.com/ )成立于2010年,是当下最流行的进行数据发掘和预测模型竞赛的在线平台。 与Kaggle合作的公司可以在网站上提出一个问题或者目标,同时提供相关数据,来自世界各地的计算机科学家、统计学家和建模爱好者,将受领任务,通过比较模型的某些性能参数,角逐出优胜者。 通过大量的比赛,一系列优秀的数据挖掘模型脱颖而出,受到广大建模者的认同,被普遍应用在各个领域。 在保险行业中用于拟合广义线性模型的LASSO回归就是其中之一。 LASSO回归的特点是在拟合广义线性模型的同时进行变量筛选(Variable Selection)和复杂度调整(Regularization)。 因此,不论目标因变量(dependent/response varaible)是连续的(continuous),还是二元或者多元离散的(discrete), 都可以用LASSO回归建模然后预测。