回归模型

用逻辑回归实现鸢尾花数据集分类(1)

匿名 (未验证) 提交于 2019-12-03 00:19:01
鸢尾花数据集的分类问题指导 -- 对数几率回归(逻辑回归)问题研究 (1) 这一篇Notebook是应用对数几率回归( Logit Regression )对鸢尾花数据集进行品种分类的。首先会带大家探索一下数据集中的特征,类别信息。然后带大家从入门与进阶来学习应用逻辑回归分类。 1.背景介绍 1.1. 逻辑回归 Logistic Regression (对数几率回归 Logit Regression) 名字 关于名字,有文献将Logistic Regression译为“逻辑回归”, 但中文“逻辑”与logitic 和 logit 的含义相去甚远,因此在《机器学习》中意译为“对数几率回归”,简称“对率回归”。 线性回归 在介绍对数几率回归之前先介绍一下线性回归,线性回归的主要思想是通过历史数据拟合出一条直线,因变量与自变量是线性关系,对新的数据用这条直线进行预测。 线性回归的公式如下: y=w0+w1x1+...+wnxn=wTx+b 逻辑回归 对数几率回归是一种广义的线性回归分析模型,是一种预测分析。虽然它名字里带回归,但实际上对数几率回归是一种分类学习方法。它不是仅预测出“类别”, 而是可以得到近似概率预测,这对于许多需要利用概率辅助决策的任务很有用。普遍应用于预测一个实例是否属于一个特定类别的概率,比如一封email是垃圾邮件的概率是多少。 因变量可以是二分类的

时间序列回归

匿名 (未验证) 提交于 2019-12-03 00:14:01
VAR模型针对平稳时间序列,VEC模型针对存在协整关系的非平稳时间序列 协整方程表示变量之间的长期均衡关系,它反映的是系统内部不同变量之间的均衡 来源:博客园 作者: 罗采薇 链接:https://www.cnblogs.com/caiweijun/p/11656398.html

机器学习方法总结

匿名 (未验证) 提交于 2019-12-03 00:03:02
常见的机器学习算法 1.学习方式 常见的算法 介绍 常见的学习方法 应用场景 监督学习 输入数据成为训练数据,每组训练数据都有一个明确的标识或结果,监督学习就是建立一个学习过程将预测结果与训练数据的实际结果进行比较,不断地调整预测模型,知道预测模型达到一个预期的准确率 逻辑回归和反向传递神经网络 分类问题和回归问题 非监督的学习 数据不被标识,学习模型只是为了推断数据的内部结构,常见的应用场景包括关联规则的学习以及聚类 Apriori算法和k-means 关联规则学习以及聚类 半监督的学习 输入的数据部分被标识,部分没有被标识,正中学习模型可以用来预测,但是模型需要学习数据的内在结构以便合理的组织数据来进行预测 图推论算法和拉普拉斯支持向量机 分类与回归 强化学习 输入数据作为模型的反馈,不像监督模型那样,输入数据仅仅是检测模型对错的方式,强化学习中,属如数据直接反馈到模型,模型直接立即做出调整 Q-learning和时间差学习 动态系统和机器人控制 2.算法的类似性 分类 说明 举例 回归算法 师徒采用误差衡量变量之间关系的一种算法,回归算法是统计机器学习的利器,在机器学习领域,有时候是指一类问题,有时候指的的一种算法 最小二乘法,逻辑回归,逐步式回归,多元自适应回归样条以及本地散点平滑估计 基于实例的方法 常常用来对决策问题进行建模,这种模型先取一批样本数据

二分类Logistic回归模型

匿名 (未验证) 提交于 2019-12-02 23:57:01
  Logistic回归属于 概率型的非线性回归 ,分为 二分类 和 多分类 的回归模型。这里只讲二分类。   对于二分类的Logistic回归,因变量y只有“是、否”两个取值,记为 1和0 。这种值为0/1的二值品质型变量,我们称其为 二分类变量 。   假设在自变量$x_{1}, x_{2}, \cdots, x_{p}$作用下,y取“是”的概率是p,则取“否”的概率是1-p,研究的是当y取“是”发生的模率p与自变量$x_{1}, x_{2}, \cdots, x_{p}$的关系。 Logistic回归模型 ①Logit变 换    Logit 变换 以前用于人口学领域,1970年被Cox引入来解决 曲线直线化 问题。   通常把某种结果 出现的概率与不出现的概率之比 称为称为 事件的优势比odds ,即假设在p个独立自变量$x_{1}, x_{2}, \cdots, x_{p}$作用下,记y取1的概率是$p=P(y=1 | X)$,取0概率是$1-p$,取1和取0的概率之比为$\frac{p}{1-p}$。Logit变换即取对数:$$\lambda = \ln ({\rm{ odds }}) = \ln \frac{p}{{1 - p}}$$ ②Logistic函数    Logistic中文意思为“逻辑”,但是这里,并不是逻辑的意思,而是通过logit变换来命名的。  

GBDT

匿名 (未验证) 提交于 2019-12-02 23:57:01
1、GBDT模型介绍; 2、GBDT回归算法 3、GBDT分类算法 4、GBDT的损失函数 5、正则化 6、GBDT的梯度提升与梯度下降法的梯度下降的关系; 7、GBDT的优缺点 1、GBDT模型介绍; GBDT(Gradient Boosting Decision Tree) 又名:MART(Multiple Additive Regression Tree) 适用于分类和回归问题; 加法模型(基分类器的线性组合) 根据当前损失函数的负梯度信息来训练新加入的弱分类器,再将训练好的弱分类器以累加的形式结合到现有模型; 以决策树为基学习器的提升方法;一般会选择为CART(无论用于分类还是回归),也可以选择其他弱分类器的,选择的前提是低方差和高偏差,每次走一小步逐渐逼近结果的效果; 在训练过程中希望损失函数能够不断的减小,且尽可能快的减小。所以用的不是单纯的残差,而是损失函数的负梯度方向,这样保证每轮损失函数都在稳定下降,而且递减速度最快,类似于梯度下降法,来求损失函数的极小值; Shrinkage(缩减)的思想认为,每次走一小步逐渐逼近结果的效果,要比每次迈一大步很快逼近结果的方式更容易避免过拟合。即它不完全信任每一个棵残差树,它认为每棵树只学到了真理的一小部分,累加的时候只累加一小部分,通过多学几棵树弥补不足。 2、GBDT回归算法描述 步骤: 1、初始化

监督学习 分类模型 逻辑回归

匿名 (未验证) 提交于 2019-12-02 23:51:01
逻辑斯谛回归 - 线性回归的问题 一一 怎样判断肿瘤是否恶性? - 线性回归健壮性不够,一旦有噪声,立刻“投降” 逻辑斯蒂回归 ―― 分类问题 Sigmoid函数(压缩函数) - 我们将线性回归拟合出来的值用压缩函数进行压缩,压缩完成后   用0.5做一个概率的判定边界,就能把样本分成两类,即正样本 中z的正负决定了 g(z)的值最后是大于0.5还是小于0.5;   即z大于0时,g(z)大于0.5, z小于0时,g(z)小于0.5   也就使得分类边界两边分别对应g(z)>0.5和g(z)<0.5,因此根据g(z)与0.5的大小关系,   就可以实现分类 逻辑斯谛回归损失函数 -平方损失函数的问题 损失函数 这样,我们获得了一个凸函数。 梯度下降法求解

sklearn之多项式回归

匿名 (未验证) 提交于 2019-12-02 23:48:02
''' 多项式回归:若希望回归模型更好的拟合训练样本数据,可以使用多项式回归器。 一元多项式回归: 数学模型:y = w0 + w1 * x^1 + w2 * x^2 + .... + wn * x^n 将高次项看做对一次项特征的扩展得到: y = w0 + w1 * x1 + w2 * x2 + .... + wn * xn 那么一元多项式回归即可以看做为多元线性回归,可以使用LinearRegression模型对样本数据进行模型训练。 所以一元多项式回归的实现需要两个步骤: 1. 将一元多项式回归问题转换为多元线性回归问题(只需给出多项式最高次数即可)。 2. 将1步骤得到多项式的结果中 w1,w2,w3,...,wn当做样本特征,交给线性回归器训练多元线性模型。 选择合适的最高次数其模型R2评分会高于一元线性回归模型评分,如果次数过高,会出现过拟合现象,评分会低于一元线性回归评分 使用sklearn提供的"数据管线"实现两个步骤的顺序执行: import sklearn.pipeline as pl import sklearn.preprocessing as sp import sklearn.linear_model as lm model = pl.make_pipeline( # 10: 多项式的最高次数 sp.PolynomialFeatures(10), #

sklearn之岭回归

匿名 (未验证) 提交于 2019-12-02 23:48:02
''' 岭回归: 普通线性回归模型使用基于梯度下降的最小二乘法,在最小化损失函数的前提下,寻找最优模型参数, 在此过程中,包括少数异常样本在内的全部训练数据都会对最终模型参数造成程度相等的影响, 异常值对模型所带来影响无法在训练过程中被识别出来。为此,岭回归在模型迭代过程所依据的损失函数中增加了正则项, 以限制模型参数对异常样本的匹配程度,进而提高模型面对多数正常样本的拟合精度。 岭回归的目的: 1>普通线性回归无法识别或者避免异常样本对模型参数的影响,导致在预测时效果查(预测结果偏向于异常样本),岭回归可以通过正则强度的设置 来减少异常样本对模型参数的影响,从而使得预测结果更偏向于正常样本,提高了模型拟合精度。 2>加入正则项后,其R2得分肯定会低于普通线性回归,原因:普通线性回归考虑的是全部样本损失函数最小值,而岭回归就是为了避免异常值对预测的影响 从而刻意减少异常样本在计算中的权重,进而导致其损失函数最小值是大于普通线性回归的损失函数最小值。 相关API: import sklearn.linear_model as lm # 创建模型 model = lm.Ridge(正则强度,fit_intercept=是否训练截距, max_iter=最大迭代次数) # 训练模型 # 输入:为一个二维数组表示的样本矩阵 # 输出:为每个样本最终的结果 model.fit(输入, 输出)

拟合R语言中的多项式回归

匿名 (未验证) 提交于 2019-12-02 23:43:01
版权声明:署名,允许他人基于本文进行创作,且必须基于与原先许可协议相同的许可协议分发本文 ( Creative Commons ) 如下所示: 但购买和出售,我们可能要考虑一些其他相关信息,就像当:购买显著数量很可能是我们可以要求并获得折扣,或购买更多更重要的是我们可能会推高价格。 这可能导致像这样的情况,其中总成本不再是数量的线性函数: 通过多项式回归,我们可以将n阶模型拟合到数据上,并尝试对非线性关系进行建模。 如何拟合多项式回归 这是我们模拟观测数据的图。模拟的数据点是蓝色的点,而红色的线是信号(信号是一个技术术语,通常用于表示我们感兴趣检测的总体趋势)。 让我们用R来拟合。当拟合多项式时,您可以使用 通过使用该confint()函数,我们可以获得我们模型参数的置信区间。 模型参数的置信区间: confint(model,level = 0.95) 拟合vs残差图 总的来说,这个模型似乎很适合,因为R的平方为0.8。正如我们所预期的那样,一阶和三阶项的系数在统计上显着。 预测值和置信区间: 将线添加到现有图中: 我们可以看到,我们的模型在拟合数据方面做得不错。 文章来源: https://blog.csdn.net/qq_19600291/article/details/79852448

用矩阵的方法计算回归模型参数

匿名 (未验证) 提交于 2019-12-02 23:32:01
版权声明:博客授权, 请联系我, 微信: yijiaobani, 备注: 姓名+ 单位 https://blog.csdn.net/yijiaobani/article/details/78881266 用矩阵的方法计算回归分析参数 1.1 数据来源:来源R语言默认的数据集women 这是一个描述女性身高和体重的数据,我们以height为X变量(自变量),以weight为Y变量(因变量),进行模型的计算。 计算方法参考: https://stats.idre.ucla.edu/r/library/r-library-matrices-and-matrix-computations-in-r/ 1.2 查看数据 data(women) head(women) height weight 58 115 59 117 60 120 61 123 62 126 63 129 1.3 理论模型 $ y = X\beta + \epsilon,\ E(\epsilon) = 0 ,\ Cov(\epsilon) = \sigma^2I_n \ 回归系数估计: \widehat{\beta} = (X’X)^{-1}X’y \ 拟合值:\widehat{y} = X\beta \ 残差估计: \widehat{\epsilon}= y - \widehat{y} \ 残差的平方:\sigma^2