回归模型

LogisticRegression逻辑斯特回归性能分析_学习曲线

岁酱吖の 提交于 2020-01-14 02:32:42
LogisticRegression逻辑斯特回归性能分析_学习曲线 L2正则化 # 我们在乳腺癌数据集上详细分析 LogisticRegression from sklearn . datasets import load_breast_cancer cancer = load_breast_cancer ( ) X_train , X_test , y_train , y_test = train_test_split ( cancer . data , cancer . target , stratify = cancer . target , random_state = 42 ) logreg = LogisticRegression ( ) . fit ( X_train , y_train ) print ( "Training set score: {:.3f}" . format ( logreg . score ( X_train , y_train ) ) ) print ( "Test set score: {:.3f}" . format ( logreg . score ( X_test , y_test ) ) ) ​ # C=1 的默认值给出了相当好的性能,在训练集和测试集上都达到 95% 的精度。但由于训练 # 集和测试集的性能非常接近

softmax回归(理论部分解释)

拈花ヽ惹草 提交于 2020-01-10 04:59:30
前面我们已经说了logistic回归,训练样本是 , (且这里的 是d维,下面模型公式的x是d+1维,其中多出来的一维是截距横为1,这里的y=±1也可以写成其他的值,这个无所谓不影响模型,只要是两类问题就可以),训练好这个模型中 参数θ以后(或者是 这个模型,这俩是一个模型),然后给入一个新的 ,我们就可以根据模型来预测 对应label=1或0的概率了。 前面处理的是两类问题,我们想把这个两类问题扩展,即根据训练好的模型,给入一个新的 ,我们就可以根据模型来预测 对应label=1,2,…k等多个值的概率。我们首先也是最重要的部分是确定这个新的模型是什么。对于一个x,新的模型 (j=1,2..k)要加起来等于1. 我们假设新模型为: ……………………………………..……………………………………………………………………(1) (这里模型中的 是经过前面的 处理后的,每一个 都增加了一维 ) 其中 是模型的参数在实现Softmax回归时,将 用一个 的矩阵来表示会很方便,该矩阵是将 按行罗列起来得到的,如下所示: 这里说一个问题 :在logistic回归中,是两类问题,我们只用了一个θ,这里我们是不是也可以只用k-1个θk就可以表示所有的模型呢?具体就是我们只需要把 置为0.所以 =1,这样带入公式(1)中就可以少使用一个 ,我们验证一下,如果k=2即两类问题时

哈罗出行数据挖掘实习生电面题 (一面二面)

感情迁移 提交于 2020-01-06 23:39:38
(一面) 1、先自我介绍一下自己的背景和接触的项目 ; 2、如果一个数据没有明显的相关性 还能放进去LSTM吗; 3、说一下过拟合解决办法; 4、说一下你最熟悉的一个模型; 5、说一下神经网络中怎么解决过拟合; 6、集成方法中的bagging和boosting的区别; 7、随机梯度下降和其他优化方法的区别; 8、口述逻辑回归公式;逻辑回归有什么优化方法吗;逻辑回归为啥用log 9如果你对你的SQL打分打多少分。有用户ID 和时间 怎么写语句找到时间差 ; 10、白噪声 然后就是实习时间 要求一周4天 我说10号前估计只能3天 后面可以天天来 (估计凉 (二面) 1、线性回归的系数和高斯分布的均值 方差有什么关系吗(求解答) 2、xgboost和GBDT区别 3、综合面 比如平时兴趣爱好 、10点上班7点下班 6点半给你个任务 你怎么办、我看你修了机器学习和数据挖掘 你能讲讲学了哪些模型吗 4、你是控制科学与工程的学生,你能说说你在这块和科班的有啥优缺点吗 5、x是常量 y是递增的 可以去拟合吗 来源: CSDN 作者: 南瓜风槐 链接: https://blog.csdn.net/qq_39785597/article/details/103847615

逻辑回归模型

不打扰是莪最后的温柔 提交于 2019-12-30 12:02:19
逻辑回归模型 - zgw21cn - 博客园 逻辑回归模型 1. 逻辑 回 归 模型 1.1逻辑回归模型 考虑具有p个独立变量的向量 ,设条件概率 为根据观测量相对于某事件发生的概率。逻辑回归模型可表示为 (1.1) 上式右侧形式的函数称为称为逻辑函数。下图给出其函数图象形式。 其中 。如果含有名义变量,则将其变为dummy变量。一个具有k个取值的名义变量,将变为k-1个dummy变量。这样,有 (1.2) 定义不发生事件的条件概率为 (1.3) 那么,事件发生与事件不发生的概率之比为 (1.4) 这个比值称为事件的发生比(the odds of experiencing an event),简称为odds。因为0<p<1,故odds>0。对odds取对数,即得到线性函数, (1.5) 1.2极大似然函数 假设有n个观测样本,观测值分别为 设 为给定条件下得到 的概率。在同样条件下得到 的条件概率为 。于是,得到一个观测值的概率为 (1.6) 因为各项观测独立,所以它们的联合分布可以表示为各边际分布的乘积。 (1.7) 上式称为n个观测的似然函数。我们的目标是能够求出使这一似然函数的值最大的参数估计。于是,最大似然估计的关键就是求出参数 ,使上式取得最大值。 对上述函数求对数 (1.8) 上式称为对数似然函数。为了估计能使 取得最大的参数 的值。 对此函数求导,得到p+1个似然方程

Softmax回归(Softmax Regression)

て烟熏妆下的殇ゞ 提交于 2019-12-27 05:04:06
转自:http://www.cnblogs.com/BYRans/ 多分类问题 在一个多分类问题中,因变量y有k个取值,即 。例如在邮件分类问题中,我们要把邮件分为垃圾邮件、个人邮件、工作邮件3类,目标值y是一个有3个取值的离散值。这是一个多分类问题,二分类模型在这里不太适用。 多分类问题符合 多项分布 。有许多算法可用于解决多分类问题,像决策树、朴素贝叶斯等。这篇文章主要讲解多分类算法中的 Softmax回归(Softmax Regression) 推导思路为:首先证明多项分布属于指数分布族,这样就可以使用广义线性模型来拟合这个多项分布,由广义线性模型推导出的目标函数 即为Softmax回归的分类模型。 证明多项分布属于指数分布族 多分类模型的输出结果为该样本属于k个类别的概率,从这k个概率中我们选择最优的概率对应的类别(通常选概率最大的类别),作为该样本的预测类别。这k个概率用k个变量 , …, 表示。这个k变量和为1,即满足: 可以用前k-1个变量来表示,即: 使用 广义线性模型 拟合这个多分类问题,首先要验证这个多项分布是否符合一个指数分布族。定义T(y)为: 在这里,统计分量T(y)并没有像之前那样定义为T(y)=y,因为T(y)不是一个数值,而是一个k-1维的向量。使用符号 表示向量T(y)的第i个元素。 在这里引入一个新符号: ,如果括号内为true则这个符号取1

处理分类问题常用算法(二)-----算法岗面试题

笑着哭i 提交于 2019-12-25 12:56:51
● 分层抽样的适用范围 参考回答: 分层抽样利用事先掌握的信息,充分考虑了保持样本结构和总体结构的一致性,当总体由差异明显的几部分组成的时候,适合用分层抽样。 ● LR的损失函数 参考回答: M为样本个数, 为模型对样本i的预测结果, 为样本i的真实标签。 ● LR和线性回归的区别 参考回答: 线性回归用来做预测,LR用来做分类。线性回归是来拟合函数,LR是来预测函数。线性回归用最小二乘法来计算参数,LR用最大似然估计来计算参数。线性回归更容易受到异常值的影响,而LR对异常值有较好的稳定性。 ● 生成模型和判别模型基本形式,有哪些? 参考回答: 生成式:朴素贝叶斯、HMM、Gaussians、马尔科夫随机场 判别式:LR,SVM,神经网络,CRF,Boosting 详情:支持向量机 ● 核函数的种类和应用场景。 参考回答: 线性核、多项式核、高斯核。 特征维数高选择线性核 样本数量可观、特征少选择高斯核(非线性核) 样本数量非常多选择线性核(避免造成庞大的计算量) 详情:支持向量机 ● 分类算法列一下有多少种?应用场景。 参考回答: 单一的分类方法主要包括:LR逻辑回归,SVM支持向量机,DT决策树、NB朴素贝叶斯、NN人工神经网络、K-近邻;集成学习算法:基于Bagging和Boosting算法思想,RF随机森林,GBDT,Adaboost,XGboost。 ●

【分类算法】逻辑回归

只谈情不闲聊 提交于 2019-12-23 03:54:44
目录 什么是逻辑回归 逻辑回归模型推导 为何不能用线性模型 线性模型转二分类模型(Sigmoid) 代价函数 使用最小二乘法估计 最大似然法 代码样例 总结 什么是逻辑回归 之前我们讲过 线性回归 的原理以及推导过程。今天,我们回家另外一个算法,叫逻辑回归。简单归类一下,这个算法不是归类预测算法,大家千万不要被名字不会了。它其实属于分类算法。说到 分类算法 ,大家有没有联想到?没错,逻辑回归属于监督学习。所以它需要带标签的数据。 这里简单的列举一下逻辑回归的使用场景: 垃圾邮件分类 网络诈骗分类 恶行肿瘤鉴定 逻辑回归模型推导 为何不能用线性模型 下面以恶行肿瘤来举例子。假如我们有个数据集,他们他描述的是肿瘤大小,以及是否为和兴肿瘤。大致如下: 肿瘤大小 是否恶性 1 否 5 否 10 是 10.5 否 15 是 假设x是肿瘤的大小,y代表否恶性。最终我们可以得到下图左边的8个红色交叉点。假如我们线性回归预测这8个点时,我们可以得到蓝色的一条线。若我们假设蓝色线上面的是恶行肿瘤,下面的是良性肿瘤。这里看上去预测的结果好像还可以。 但假如这时候出现一个右边蓝色肩头上点,我们重新用线性模型预测出回归线,然后得到粉色的线。这时候问题就出现了,新增的点的x其实非常的大,但是却被模型判定成良性肿瘤。这样是不是就不对了。所以,我们需要修改我们的模型。我们要把我们的线性模型改成二分类模型

策略构建:均值回归模型

只谈情不闲聊 提交于 2019-12-21 04:46:55
NO:01 “ 现在已然衰朽者,将来可能重放异彩。现在备受青睐者,将来却可能黯然失色。” 当事物发展严重偏离其均值时,均值会像万有引力一样令其回归。如果时间足够长,万物都终将回归于其均值。正所谓:盛极必衰,否极泰来。 在金融学中,均值回归是价格偏离均价或价值一定程度后向其靠拢的规律。本质上,均值回归就是哲学思想中所说的『 物极必反 』。用大白话可以简单地概括为 “ 涨多必跌,跌多必涨 ” 。 NO:02 在商品期货交易中,对于均值回归模型的应用场景,选择跨期价差是非常理想的交易标的。即对不同交割期的合约同时进入低买高卖,当合约间价差过高或过低时,相应的卖出或买入价差,等价差回归均衡价差后,再平仓从而获利。 如上图所示:均值回归模型的基础是跨期价差的回归和震荡特征。理论上,在期货定价和期现套利的作用下,跨期合约间存在稳定的、可量化的价差关系。 当两个合约的价差偏离均衡价差一定程度后,会有向均衡价差回复的走势,那么,我们可以据此构造均值回归模型。 NO:03 FG1809合约 - FG1805合约 价差走势图 MA1809合约 - MA1805合约 价差走势图 如上图所示,价差通常会以其均值为中心上下波动。也就是说,当价差由于波动而偏离均值时,它将调整并重新归于均值。那么如果我们如果能捕捉偏离价差的回归,就可以从此获利。值得注意的是:合约到期月份相差越多,跨期价差波动空间越大。

模型实例_逻辑回归

时光怂恿深爱的人放手 提交于 2019-12-17 10:30:07
模型实例_逻辑回归 关于泰坦尼克号乘客的⽣还率 利用Python进行数据分析(第二版).pdf Introduction to scikit - learn¶ # 举个例⼦,我⽤⼀个Kaggle竞赛的经典数据集,关于泰坦尼克号 # 乘客的⽣还率。我们⽤pandas加载测试和训练数据集: # 13.4 scikit-learn介绍 # scikit-learn是⼀个⼴泛使⽤、⽤途多样的Python机器学习库。它 # 包含多种标准监督和⾮监督机器学习⽅法和模型选择和评估、数 # 据转换、数据加载和模型持久化⼯具。这些模型可以⽤于分类、 # 聚合、预测和其它任务。 ​ # 举个例⼦,我⽤⼀个Kaggle竞赛的经典数据集,关于泰坦尼克号 # 乘客的⽣还率。我们⽤pandas加载测试和训练数据集: train = pd . read_csv ( 'C:/data/titanic/train.csv' ) test = pd . read_csv ( 'C:/data/titanic/test.csv' ) train [ : 4 ] PassengerId Survived Pclass Name Sex Age SibSp Parch Ticket Fare Cabin Embarked 0 1 0 3 Braund , Mr . Owen Harris male 22.0 1 0 A /

线性回归和Logistic回归

余生长醉 提交于 2019-12-16 20:14:02
目录 线性回归 用线性回归模型拟合非线性关系 梯度下降法 最小二乘法 线性回归用于分类(logistic regression,LR) 目标函数 如何求解 \(\theta\) LR处理多分类问题 线性回归 假设存在线性相关关系: \(y=a+bx\) 均方误差是回归任务中最常用的性能度量指标。因此,其损失函数为: \[ J(a,b)=\frac{1}{2m}\sum_{i=1}^{m}(y^{'(i)}-y^{(i)})^2=\frac{1}{2m}\sum_{i=1}^{m}(a+bx^{(i)}-y^{(i)})^2 \] 其中, \(y'\) 为预测值, \(y\) 为实际值。 \(J(a,b)\) 中, \(x^{(i)}\) 和 \(y^{(i)}\) 是常量参数(为 \(m\) 个样本各自的 \(x\) 和 \(y\) 值),而 \(a\) 和 \(b\) 是自变量。我们要做的,就是找到最好的 \(a\) 和 \(b\) ,使得 \(J(a,b)\) 取值最小。 通用线性回归模型:利用线性函数对一个或多个自变量( \(x\) 或 \((x_1,x_2,\cdots,x_k)\) )和因变量 \(y\) 之间的关系进行拟合的模型。 其函数形式为: \[ f(x_1,x_2,\cdots,x_k)=a+b_1x_1+b_2x_2+\cdots + b_kx_k \] \