回归模型

学习《机器学习实战》四

送分小仙女□ 提交于 2020-01-27 15:59:51
训练模型 训练模型就是搜寻使成本函数(在训练集上)最小化的参数组合。 有助于快速定位到合适的模型、正确的训练算法,以及一套适当的超参数。 一、线性回归(LinearRegression) 线性模型就是对输入特征加权求和,再加上一个偏置项的常数,以此进行预测。 线性回归模型预测: 衡量一个回归模型性能指标:均方根误差(RMSE),但求均方误差(MSE)更方便 我们生成一些线性数据来测试这个公式 import numpy as np X = 2 * np.random.rand(100, 1) y = 4 + 3 * X + np.random.randn(100, 1) X表示100个数据的1个特征属性 以点的形式来表示100个数据: 生成的线性函数是y=4+3x from matplotlib import pyplot as plt plt.xlabel("X") plt.ylabel("y") plt.scatter(X, y, marker = 'o', color = 'green', s = 40) plt.show() 现在,我们使用标准方程来计算θ。使用Numpy的线性代数模块(np.linalg)中的inv()函数来对矩阵求逆,并用dot()方法计算矩阵内积: X_b = np.c_[np.ones((100, 1)), X] theta_best = np

调整的R方_如何选择回归模型

好久不见. 提交于 2020-01-26 09:21:10
python风控建模实战lendingClub(博主录制,catboost,lightgbm建模,2K超清分辨率) https://study.163.com/course/courseMain.htm?courseId=1005988013&share=2&shareId=400000000398149 1.选择最简单模型 如果不能满足: 增加参数,增加R**2 判断是否overfittiing 调整R方,BIC,AIC(选择较小BIC或AIC值) R方不能比较参数不同模型,但调整后R方可以比较不同参数模型 如果添加一个新的变量,但调整R方变小,这个变量就是多余的 如果 添加一个新的变量,但调整R方变大,这个变量就是有用的 R^2很小得谨慎,说明你选的解释变量解释能力不足,有可能有其他重要变量被纳入到误差项。可尝试寻找其他相关变量进行多元回归 这个问题在伍德里奇的书里有说明,可绝系数只是判断模型优劣的指标之一,而不是全部,特别是当使用微观数据,样本量比较大的时候,可绝系数可以很小,但这并不能表示模型就差。 显著但是R值小,要考虑不同的专业背景。 有的专业确实比较小,楼主的例子,我觉得这个大小就能接受了。 态度与行为之间的影响因素非常多,态度能解释行为11-15%已经不小了。 F检验是对整个模型而已的,看是不是自变量系数不全为0,而t检验则是分别针对某个自变量的

scala-MLlib官方文档---spark.mllib package--classification and regression

ⅰ亾dé卋堺 提交于 2020-01-26 07:55:42
三、Classification and regression Spark.mllib包为二分类、多分类和回归分析提供了多样的支持工具 linear models(线性模型) 1)Mathematical formulation(数学公式) 很多标准的机器学习方法都可以表述为凸优化问题,例如:找到依赖于变量向量w的凸函数f的极小值的任务(在代码中被称为权重),通常含有d个输入。形式上,我们可以将其写为优化问题minw∈ℝdf(w),,具有如下形式的目标方程 这里的向量 这里向量xi∈ℝd 是训练数据示例, 其中1≤i≤n, 并且 yi∈ℝ是他们相应的标签, 也是我们想要预测的。我们称方法是线性的如果L(w;x,y) 可以被表示称方程 wTx and y。spark.mllib的几种分类和回归算法都属于此类,在此进行讨论。 目标方程f具有两部分: The objective function f has two parts: 控制模型复杂度的正则化器,以及测量训练数据上模型误差的损失。损失函数L(w ;.)通常是w中的凸函数。固定的正则化参数λ≥0(代码中的regParam)定义了两个目标之间的权衡,这两个目标是最小化损失(即训练误差)和最小化模型复杂度(即避免过度拟合)。 (1)损失方程 下表总结了spark.mllib支持的方法的损失函数及其梯度或子梯度: 注意

logistic回归模型

戏子无情 提交于 2020-01-24 21:05:34
目录 logistic 回归算法 logistic 回归算法 一种常见的分类算法,输出值在0,1之间 是:1 否:0 即找到满足下面条件的最优参数 \(0 \leq h_{\theta}(x) \leq 1\) 假设函数的表示方法: \(h_{\theta}(x)=g\left(\theta^{T} x\right)\) 其中: \(g(z)=\frac{1}{1+e^{-z}}\) 因此, \(g(z)\) 带入假设函数之后,假设函数的表示为 \(h_{\theta}(x)=\frac{1}{1+e^{-\theta^{T} x}}\) 如果我们想要结果总是在0到1之间,那么就可以使用sigmoid函数,它能保证数据在0-1之间。并且越趋近于无穷大,数据越趋近于1。 sigmoid函数==logistic函数 其函数图像如下: 注意到z趋向于负无穷大时,值越接近0;z趋向于正无穷大时,值越接近1。这样就可以使输出值在0到1之间。有了这个假设函数,就可以拟合数据了,根据给定的θ参数值,假设会做出预测 假设一个问题,如果肿瘤是依赖于大小来判断良性恶性,如果超过0.7*平均值,就判断是恶性的,那么平均来算30%的是恶性的,70%是良性的,他们相加总会是100%。再来看看上面的sigmoid的图像,每个点都表示它属于1的概率是x,属于0的概率是1-x。这样一个分类的问题

监督学习

早过忘川 提交于 2020-01-22 21:08:15
1 监督学习   利用一组带标签的数据, 学习 从输入到输出的映射 , 然后将这种映射关系应用到未知数据, 达到 分类 或者 回归 的目的   (1) 分类: 当输出是离散的, 学习任务为分类任务          输入: 一组有标签的训练数据(也叫观察和评估), 标签 表明了这些数据(观察)的所属类别, 图中"猫"和"狗"就是标签     输出: 分类模型根据这些训练数据, 训练自己的模型参数, 学习出一个适合这组数据的分类器, 当有新数据(非训练数据)需要进行类别判断, 就可以将这组数据作为输入送给学习好的 分类器 进行判断(得到标签)     训练集: 训练模型已经标注的数据, 用来建立模型发现规律     测试集: 已标注的数据, 只不过把标注隐藏了, 再送给训练好的模型, 比对结果与原来的标注, 评判该模型的学习能力       一般来说, 获得了一组标注好的数据, 70%当做训练集, 30%当做测试集 , 另外还有交叉验证法, 自助法来评估学习模型     评价标准       1) 准确率         所有预测对的         把正类预测成正类(TP)         把负类预测成负类(TN)         准确率 = (TP+TN)/总数量       2) 精确率         以二分类为例         预测为正的样本是真的正样本        

从机器学习谈起

前提是你 提交于 2020-01-20 10:56:09
本文原地址 https://www.cnblogs.com/subconscious/p/4107357.html 拜读原文之后,无比喜欢,怕以后找不到,所以转载,大家喜欢可以去看原文,真的很精彩。 从机器学习谈起   在本篇文章中,我将对机器学习做个概要的介绍。本文的目的是能让即便完全不了解机器学习的人也能了解机器学习,并且上手相关的实践。这篇文档也算是EasyPR开发的番外篇,从这里开始,必须对机器学习了解才能进一步介绍EasyPR的内核。当然,本文也面对一般读者,不会对阅读有相关的前提要求。   在进入正题前,我想读者心中可能会有一个疑惑:机器学习有什么重要性,以至于要阅读完这篇非常长的文章呢?   我并不直接回答这个问题前。相反,我想请大家看两张图,下图是图一: 图1 机器学习界的执牛耳者与互联网界的大鳄的联姻     这幅图上上的三人是当今机器学习界的执牛耳者。中间的是Geoffrey Hinton, 加拿大多伦多大学的教授,如今被聘为“Google大脑”的负责人。右边的是Yann LeCun, 纽约大学教授,如今是Facebook人工智能实验室的主任。而左边的大家都很熟悉,Andrew Ng,中文名吴恩达,斯坦福大学副教授,如今也是“百度大脑”的负责人与百度首席科学家。这三位都是目前业界炙手可热的大牛,被互联网界大鳄求贤若渴的聘请,足见他们的重要性。而他们的研究方向

什么是机器学习

走远了吗. 提交于 2020-01-18 20:28:32
原文链接: https://www.cnblogs.com/lsgsanxiao/p/6955502.html 机器学习入门好文,强烈推荐(转) 转自 飞鸟各投林 史上最强----机器学习经典总结---入门必读----心血总结-----回味无穷 让我们从机器学习谈起 导读:在本篇文章中,将对 机器学习 做个概要的介绍。本文的目的是能让即便完全不了解机器学习的人也能了解机器学习,并且上手相关的实践。当然,本文也面对一般读者,不会对阅读有相关的前提要求。 在进入正题前,我想读者心中可能会有一个疑惑:机器学习有什么重要性,以至于要阅读完这篇非常长的文章呢? 我并不直接回答这个问题前。相反,我想请大家看两张图,下图是图一: 图1 机器学习界的执牛耳者与互联网界的大鳄的联姻 这幅图上上的三人是当今机器学习界的执牛耳者。中间的是Geoffrey Hinton, 加拿大多伦多大学的教授,如今被聘为“Google大脑”的负责人。右边的是Yann LeCun, 纽约大学教授,如今是Facebook人工 智能 实验室的主任。而左边的大家都很熟悉,Andrew Ng,中文名吴恩达,斯坦福大学副教授,如今也是“百度大脑”的负责人与百度首席科学家。这三位都是目前业界炙手可热的大牛,被互联网界大鳄求贤若渴的聘请,足见他们的重要性。而他们的研究方向,则全部都是机器学习的子类-- 深度学习 。 下图是图二: 图2

逻辑回归特征重要性查看

孤人 提交于 2020-01-18 09:49:48
逻辑回归特征重要性查看 LR模型也就是逻辑回归模型,作为一个简单的常用的模型,其有非常多的优点,除了模型简单,容易实现分布式, 还有一个重要的优点就是模型的可解释性非常好。因为每个特征都对应一个模型参数 wi该参数越大 ,那么该特征对模型预测结果的 影响就会越大 ,我们就说该特征就越重要 来源: CSDN 作者: 御剑归一 链接: https://blog.csdn.net/wj1298250240/article/details/103929676

机器学习中的特征工程

自作多情 提交于 2020-01-15 14:59:59
作者:城东 链接: 特征工程到底是什么? - 城东的回答 来源:知乎 著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。 目录 1 特征工程是什么? 2 数据预处理   2.1 无量纲化     2.1.1 标准化     2.1.2 区间缩放法     2.1.3 标准化与归一化的区别   2.2 对定量特征二值化   2.3 对定性特征哑编码   2.4 缺失值计算   2.5 数据变换 3 特征选择   3.1 Filter     3.1.1 方差选择法     3.1.2 相关系数法     3.1.3 卡方检验     3.1.4 互信息法   3.2 Wrapper     3.2.1 递归特征消除法   3.3 Embedded     3.3.1 基于惩罚项的特征选择法     3.3.2 基于树模型的特征选择法 4 降维   4.1 主成分分析法(PCA)   4.2 线性判别分析法(LDA) 5 总结 6 参考资料 1 特征工程是什么?   有这么一句话在业界广泛流传:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。那特征工程到底是什么呢?顾名思义,其本质是一项工程活动,目的是最大限度地从原始数据中提取特征以供算法和模型使用。通过总结和归纳,人们认为特征工程包括以下方面:   特征处理是特征工程的核心部分

MATLAB建立回归模型

人盡茶涼 提交于 2020-01-15 04:55:24
终于考完数值分析和数理统计了,回来更新MATLAB 回归分析 在MATLAB的绘图里面其实有工具箱可以直接拟合数据,不过我们还是来看下代码简单拟合的方式。 1.一元线性回归 例如 有下列两组数据 x=1:10; y=[2650,1942,1493,1086,766,539,485,291,224,202]; 我们先用线性回归的思路,先画出数据的散点图 clear all clc % 做x和y的散点图 % x = 1 : 10 ; y = [ 2650 , 1942 , 1493 , 1086 , 766 , 539 , 485 , 291 , 224 , 202 ] ; for i = 1 : 10 plot ( x ( i ) , y ( i ) , 'ok' ) ; hold on end xlabel ( 'x' ) ; ylabel ( 'y' ) ; 我们可以从图中看出不是成线性的,而是近似和对数函数相似,所以我们使用对数函数进行拟合 x = 1 : 10 ; y = [ 2650 , 1942 , 1493 , 1086 , 766 , 539 , 485 , 291 , 224 , 202 ] ; z = zeros ( size ( y ) ) ; N = length ( y ) ; for i = 1 : N z ( i ) = log ( y ( i ) )