回归系数

【Machine Learning in Action --5】逻辑回归(LogisticRegression)

邮差的信 提交于 2020-02-13 20:49:53
1、概述   Logistic regression(逻辑回归)是当前业界比较常用的机器学习方法,用于估计某种事物的可能性。   在经典之作《数学之美》中也看到了它用于广告预测,也就是根据某广告被用 户点击的可能性,把最可能被用户点击的广告摆在用户能看到的地方,然后叫他“你点我啊!”用户点了,你就有钱收了。这就是为什么我们的电脑现在广告泛滥的 原因。还有类似的某用户购买某商品的可能性,某病人患有某种疾病的可能性啊等等。这个世界是随机的(当然了,人为的确定性系统除外,但也有可能有噪声或产生错误的结果,只是这个错误发生的可能性太小了,小到千万年不遇,小到忽略不计而已),所以万物的发生都可以用可能性或者几率(Odds)来表达。“几率”指的是某事物发生的可能性与不发生的可能性的比值。 Logistic regression可以用来回归,也可以用来分类,主要是二分类。 2、基本理论 2.1Logistic regression和Sigmoid函数   回归:假设现在有一些数据点,我们用一条直线对这些点进行拟合(该条称为最佳拟合直线),这个拟合过程就称作回归。利用Logistic回归进行分类的思想是:根据现有数据对分类边界线建立回归公式,以此进行分类。这里的“回归”一词源于最佳拟合,表示找到最佳拟合参数,使用的是最优化算法。   Sigmoid函数具体的计算公式如下:         z=w

机器学习实战(五)逻辑回归实战篇之预测病马死亡率 (Peter Harrington著)

风格不统一 提交于 2020-02-02 07:51:07
一 前言 本文对梯度上升算法和改进的随机梯度上升算法进行了对比,总结了各自的优缺点,并对sklearn.linear_model.LogisticRegression进行了详细介绍。 二 改进的随机梯度上升算法 梯度上升算法在每次更新回归系数(最优参数)时,都需要遍历整个数据集。可以看一下我们之前写的梯度上升算法: def gradAscent(dataMatIn, classLabels): dataMatrix = np.mat(dataMatIn) #转换成numpy的mat labelMat = np.mat(classLabels).transpose() #转换成numpy的mat,并进行转置 m, n = np.shape(dataMatrix) #返回dataMatrix的大小。m为行数,n为列数。 alpha = 0.01 #移动步长,也就是学习速率,控制更新的幅度。 maxCycles = 500 #最大迭代次数 weights = np.ones((n,1)) for k in range(maxCycles): h = sigmoid(dataMatrix * weights) #梯度上升矢量化公式 error = labelMat - h weights = weights + alpha * dataMatrix.transpose() * error

SPSS-回归

你离开我真会死。 提交于 2020-01-25 11:17:46
1、一元回归 一元线性回归分析、多元线性回归分析 【一元线性回归分析】 已经某变量取值,如果想要用它得到另一个变量的预测值 自变量或预测变量、因变量或标准变量 1. 目的:根据某自变量取值得到因变量的预测值 2. 所需数据: 因变量(连续变量)+自变量(连续变量、二分变量) 3. 假设条件: a. 观测值独立 b. 两个变量服从正态分布:总体中每一变量的取值都要服从正态分布,而且对某一变量的任意取值,另一变量的取值也应服从正态分布 c. 方差齐性:因变量的总体方差与自变量的方差相同的 4. 方程: Y=a+bX Y表示因变量的预测值(不是真实值),a表示的y轴的截距,b表示回归方程的斜率,X表示自变量的取值 5. 假设检验: 在原假设为真(b=0)的情况下,如果检验的结果不可能(p值小于等于0.05),则拒绝原假设,即回归系数不等于0; 如果检验的结果有可能(p值大于0.05),则接受原假设,即回归系数为0 练习: 这是一家超市连续3年的销售数据,包括月份,季度,广告费用,客流量,销售额5个变量,共36条记录,这里根据广告费用来预测销售额,当广告费用为20万时,销售额大概为多少。 数据:超市销售数据.sav。 6. 具体步骤: a. 导入数据 b. 分析数据:分析--回归--线性回归 c. 解释输出结果: 描述统计:给出常见统计量 相关性:两个变量的相关系数,当前的相关系数是0

偏最小二乘回归分析建模步骤的R实现(康复俱乐部20名成员测试数据)+补充pls回归系数矩阵的算法实现

别等时光非礼了梦想. 提交于 2019-12-27 18:50:03
【推荐】2019 Java 开发者跳槽指南.pdf(吐血整理) >>> kf=read.csv('d:/kf.csv') # 读取康复数据 kf sl=as.matrix(kf[,1:3]) #生成生理指标矩阵 xl=as.matrix(kf[,4:6]) #生成训练指标矩阵 x=sl x y=xl y x0=scale(x) x0 y0=scale(y) y0 m=t(x0)%*%y0%*%t(y0)%*%x0 m eigen(m) w1=eigen(m)$vectors[,1] v1=t(y0)%*%x0%*%w1/sqrt(as.matrix(eigen(m)$values)[1,]) v1 t1=x0%*%w1 #第一对潜变量得分向量 t1 # 以上为第一步(1)分别提取两变量组的第一对成分,并使之相关性达最大。 u1=y0%*%v1 u1 #第一对潜变量得分向量 library("pracma") α1=inv(t(t1)%*%t1)%*%t(t1)%*%x0 #也可由t(x0)%*%t1/norm(t1,'2')^2算得α1 #α1在pls中称为模型效应负荷量 β1=inv(t(t1)%*%t1)%*%t(t1)%*%y0 #也可由t(y0)%*%t1/norm(t1,'2')^2算得β1 t(x0)%*%t1/norm(t1,'2')^2 # norm(t1,'2'

机器学习实战:预测数值型数据 - 回归

浪子不回头ぞ 提交于 2019-12-23 12:39:20
机器学习实战:预测数值型数据 - 回归 文章目录 机器学习实战:预测数值型数据 - 回归 一、回归 1、回归 概述 2、回归 场景 3、回归 原理 线性回归 须知概念 工作原理 开发流程 算法特点 4、线性回归 & 局部加权线性回归 项目案例 4.1 线性回归 项目案例 4.2 局部加权线性回归 项目案例 局部加权线性回归 工作原理 项目案例 编写代码 拟合效果 4.3 线性回归 & 局部加权线性回归 项目案例 项目概述 开发流程 5、缩减系数来 “理解” 数据 5.1 岭回归 编写代码 运行效果 5.2 套索方法(Lasso) 5.3 前向逐步回归 编写代码 运行效果 5.4 小结 6、权衡偏差和方差 7、回归 项目案例 项目案例1: 预测乐高玩具套装的价格(已失效) 项目概述 开发流程 8、回归 选读内容 9、回归 小结 资料来源 一、回归 1、回归 概述 回归的目的是预测数值型的目标值。 其核心就是通过样本得到回归方程(一个预测值的计算公式),形如 y = ax , 其中a 就是回归系数,求回归系数的过程就是回归。一旦有了回归方程,再给定输入,预测就非常容易了。具体的做法是用回归系数乘以输入值,再将结果全部加在一起,就得到了预测值。 我们这里所说的,回归系数是一个向量,输入也是向量,这些运算也就是求出二者的内积。 说到回归,一般都是指线性回归