线性拟合

scala-MLlib官方文档---spark.mllib package--classification and regression

ⅰ亾dé卋堺 提交于 2020-01-26 07:55:42
三、Classification and regression Spark.mllib包为二分类、多分类和回归分析提供了多样的支持工具 linear models(线性模型) 1)Mathematical formulation(数学公式) 很多标准的机器学习方法都可以表述为凸优化问题,例如:找到依赖于变量向量w的凸函数f的极小值的任务(在代码中被称为权重),通常含有d个输入。形式上,我们可以将其写为优化问题minw∈ℝdf(w),,具有如下形式的目标方程 这里的向量 这里向量xi∈ℝd 是训练数据示例, 其中1≤i≤n, 并且 yi∈ℝ是他们相应的标签, 也是我们想要预测的。我们称方法是线性的如果L(w;x,y) 可以被表示称方程 wTx and y。spark.mllib的几种分类和回归算法都属于此类,在此进行讨论。 目标方程f具有两部分: The objective function f has two parts: 控制模型复杂度的正则化器,以及测量训练数据上模型误差的损失。损失函数L(w ;.)通常是w中的凸函数。固定的正则化参数λ≥0(代码中的regParam)定义了两个目标之间的权衡,这两个目标是最小化损失(即训练误差)和最小化模型复杂度(即避免过度拟合)。 (1)损失方程 下表总结了spark.mllib支持的方法的损失函数及其梯度或子梯度: 注意

GBDT与XGBOOST

情到浓时终转凉″ 提交于 2020-01-25 19:56:59
Boosting方法实际上是采用加法模型与前向分布算法。在上一篇提到的Adaboost算法也可以用加法模型和前向分布算法来表示。以决策树为基学习器的提升方法称为提升树(Boosting Tree)。对分类问题决策树是CART分类树,对回归问题决策树是CART回归树。 1、前向分布算法   引入加法模型      在给定了训练数据和损失函数L(y,f(x))L(y,f(x)) 的条件下,可以通过损失函数最小化来学习加法模型      然而对于这个问题是个很复杂的优化问题,而且要训练的参数非常的多,前向分布算法的提出就是为了解决模型的优化问题,其核心思想是因为加法模型是由多各模型相加在一起的,而且在Boosting中模型之间又是有先后顺序的,因此可以在执行每一步加法的时候对模型进行优化,那么每一步只需要学习一个模型和一个参数,通过这种方式来逐步逼近全局最优,每一步优化的损失函数:      具体算法流程如下:   1)初始化f0(x)=0f0(x)=0;   2)第m次迭代时,极小化损失函数      3)更新模型,则$f_m (x)$:      4)得到最终的加法模型       Adaboost算法也可以用前向分布算法来描述,在这里输入的数据集是带有权重分布的数据集,损失函数是指数损失函数。 2、GBDT算法   GBDT是梯度提升决策树(Gradient Boosting

3.线性回归

醉酒当歌 提交于 2020-01-24 04:58:14
本文由中山大学In+ Lab整理完成,转载注明出处 团队介绍 传送门 一、序言 在统计学中,线性回归(Linear regression)是利用称为线性回归方程的最小二乘函数对一个或多个自变量和因变量之间关系进行建模的一种回归分析。线性回归属于监督学习,因此方法和监督学习应该是一样的,先给定一个训练集,根据这个训练集学习出一个线性函数,然后测试这个函数训练的好不好(即此函数是否足够拟合训练集数据),挑选出最好的函数(cost function最小)即可。 二、正文 2.1单变量线性回归 线性回归最典型的一个实例就是预测房价,即房产总价与购买的房屋面积的关系,还可以用来预测买一个移动硬盘的价钱,即移动硬盘的总价和容量大小的关系,这是最简单的一元线性回归,也就是我们所说的单变量线性回归。多变量线性回归只是在单变量线性回归上的扩展,因此我们先来简单介绍一下单变量线性回归。 对于单变量线性回归,其函数模型可以表示为: 我们都知道,房价跟房屋面积肯定是正相关的,但是并不是成正比的,具体的房价受制于多种因素,但最主要的因素是面积,这是毋庸置疑的,移动硬盘也是同样的道理。所以我们可以暂且忽略其他因素,抓住主要矛盾,研究房价与面积的关系,移动硬盘价格和容量的关系。 我们举一个简单的例子来说明,如下为某市的一组不同房屋面积及其对应的房屋总价的数据: 先根据这些数据画出散点图如下:

数学建模第五章插值与拟合

情到浓时终转凉″ 提交于 2020-01-19 16:53:45
插值方法: 1)拉格朗日(二维) 2)分段性插值(二维) 3)Hermite(三维) 4 )样条(三维且对光滑程度有要求) 一维插值函数: 要求x单调 2. 三次样条插值:也可以用 csape(x0,y0,conds,valconds) 二维: 1)网格节点 三次样条插值: pp=csape({x0,y0},z0,conds,valconds) z=fnval(pp,{x,y}) 2)散乱节点 拟合 1.直线拟合 2.曲线拟合 线性最小二乘 最小二乘优化 isqlin函数 iscurvefit函数 3.。。。 来源: CSDN 作者: hyoer 链接: https://blog.csdn.net/weixin_44853593/article/details/104039139

机器学习(Machine Learning)- 吴恩达(Andrew Ng) 学习笔记(七)

早过忘川 提交于 2020-01-19 15:07:37
Regularization 正则化 The problem of overfitting 过拟合问题 什么是过拟合问题、利用正则化技术改善或者减少过拟合问题。 Example: Linear regression (housing prices) 线性回归中的过拟合 对5个训练集建立线性回归模型,分别进行如下图所示的三种分析。 如果拟合一条直线到训练数据(图一),会出现欠拟合(underfitting)/高偏差(high bias)现象(指没有很好地拟合训练数据)。 试着拟合一个二次函数的曲线(图二),符合各项要求。称为just right。 接着拟合一个四次函数的曲线(图三),虽然曲线对训练数据做了一个很好的拟合,但是显然是不合实际的,这种情况就叫做过拟合或高方差(variance)。 Overfitting: If we have too many features, the learned hypothesis may fit the training set very well( \(\sum_{i=1}^m(h_\theta(x^{(i)}) - y^{(i)})^2 \approx 0\) ), but fail to generalize to new example and fails to predict prices on new examples. 过拟合:

机器学习-最小二乘法

女生的网名这么多〃 提交于 2020-01-16 01:51:46
最小二乘法是机器学习中的基础知识点,一致对最小二乘法的理解不够深入,今天就花点时间来深入理解和探讨一下最小二乘法 最小二乘法,又称最小平方法,基本公式通俗来讲,二者先取个差值,在来个平方,最后搞一个和号上去,这就是最小二乘问题的思想,下面介绍下 最小二乘法 我们以最简单的一元线性模型来解释最小二乘法。什么是一元线性模型呢? 监督学习中,如果预测的变量是离散的,我们称其为分类(如决策树,支持向量机等),如果预测的变量是连续的,我们称其为回归。回归分析中,如果只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。如果回归分析中包括两个或两个以上的自变量,且因变量和自变量之间是线性关系,则称为多元线性回归分析。对于二维空间线性是一条直线;对于三维空间线性是一个平面,对于多维空间线性是一个超平面... 对于一元线性回归模型, 假设从总体中获取了n组观察值(X1,Y1),(X2,Y2), …,(Xn,Yn)。对于平面中的这n个点,可以使用无数条曲线来拟合。要求样本回归函数尽可能好地拟合这组值。综合起来看,这条直线处于样本数据的中心位置最合理。 选择最佳拟合曲线的标准可以确定为:使总的拟合误差(即总残差)达到最小。有以下三个标准可以选择: (1)用“残差和最小”确定直线位置是一个途径。但很快发现计算“残差和”存在相互抵消的问题。 (2)用

关于推荐系统的综述

£可爱£侵袭症+ 提交于 2020-01-13 20:50:28
推荐系统中的深度匹配模型 辛俊波 DataFunTalk 今天 文章作者:辛俊波 腾讯 高级研究员 编辑整理:Hoh Xil 内容来源:作者授权 文章出品:DataFunTalk 注:转载请联系作者本人。 导读: 推荐系统和搜索应该是机器学习乃至深度学习在工业界落地应用最多也最容易变现的场景。而无论是搜索还是推荐,本质其实都是匹配,搜索的本质是给定 query,匹配 doc;推荐的本质是给定 user,推荐 item。本文主要讲推荐系统里的匹配问题,包括传统匹配模型和深度学习模型。 深度学习之风虽然愈演愈烈,但背后体现的矩阵分解思想、协同过滤思想等其实一直都是贯穿其中,如 svd++ 体现的 userCF 和 itemCF 的思想,FM 模型本质上可以退化成以上大多数模型等。多对这些方法做总结,有助于更深刻理解不同模型之间的关联。 图1 推荐和搜索的本质,都是 match 的过程 PS:本文主要启发来源 SIGIR2018:Deep Learning for Matching in Search and Recommendation,重点阐述搜索和推荐中的深度匹配问题,非常 solid 的综述,针对里面的一些方法,尤其是 feature-based 的深度学习方法增加了近期一些相关 paper。 本文主要分为以下几部分: ❶ 推荐系统概述 ❷ 推荐系统的传统匹配模型 ❸ 基于

Python 线性回归(Linear Regression) 基本理解

爱⌒轻易说出口 提交于 2020-01-08 23:53:53
背景 学习 Linear Regression in Python – Real Python ,对线性回归理论上的理解做个回顾,文章是前天读完,今天凭着记忆和理解写一遍,再回温更正。 线性回归(Linear Regression) 刚好今天听大妈讲机器学习,各种复杂高大上的算法,其背后都是在求”拟合“。 线性回归估计是最简单的拟合了。也是基础中的基础。 依然是从字面上先来试着拆解和组合: 首先, Regression 回归,指的是研究变量之间的关系,这个由来在 Python 线性回归(Linear Regression) - 到底什么是 regression? 一文中讲多了,这里不多重复。 然后, linear 线性,很直观:直线。 二者连在一起,便是:变量之间呈直线关系。 那具体是哪些变量之间? 因变量 y 和 自变量 (x1...xr) 之间。 𝑦 = 𝛽₀ + 𝛽₁𝑥₁ + ⋯ + 𝛽ᵣ𝑥ᵣ + 𝜀 当只有一个 x1 的时候,就是最简单的线性回归 𝑦 = 𝛽₀ + 𝛽₁𝑥₁ 。 具体怎么理解这个公式呢? 举个简化的例子:员工的工资 y 与 学历 x 的关系。 假设学历越高,工资也越高,二者是某种程度上的线性关系, 那在 理论上 会存在这么一个公式 y = 𝛽₀ + 𝛽₁𝑥 ,其中,x1...xn, y1...yn: x 和 y 的数据很容易拿到(当然合法渠道了,假设你是

逻辑回归模型

不打扰是莪最后的温柔 提交于 2019-12-30 12:02:19
逻辑回归模型 - zgw21cn - 博客园 逻辑回归模型 1. 逻辑 回 归 模型 1.1逻辑回归模型 考虑具有p个独立变量的向量 ,设条件概率 为根据观测量相对于某事件发生的概率。逻辑回归模型可表示为 (1.1) 上式右侧形式的函数称为称为逻辑函数。下图给出其函数图象形式。 其中 。如果含有名义变量,则将其变为dummy变量。一个具有k个取值的名义变量,将变为k-1个dummy变量。这样,有 (1.2) 定义不发生事件的条件概率为 (1.3) 那么,事件发生与事件不发生的概率之比为 (1.4) 这个比值称为事件的发生比(the odds of experiencing an event),简称为odds。因为0<p<1,故odds>0。对odds取对数,即得到线性函数, (1.5) 1.2极大似然函数 假设有n个观测样本,观测值分别为 设 为给定条件下得到 的概率。在同样条件下得到 的条件概率为 。于是,得到一个观测值的概率为 (1.6) 因为各项观测独立,所以它们的联合分布可以表示为各边际分布的乘积。 (1.7) 上式称为n个观测的似然函数。我们的目标是能够求出使这一似然函数的值最大的参数估计。于是,最大似然估计的关键就是求出参数 ,使上式取得最大值。 对上述函数求对数 (1.8) 上式称为对数似然函数。为了估计能使 取得最大的参数 的值。 对此函数求导,得到p+1个似然方程

R 中使用lm进行非线性拟合

血红的双手。 提交于 2019-12-28 17:01:09
以前只是知道R 中的lm函数能够做线性拟合,恰如函数的名字:lm= linear model 不过今天需要做非线性拟合的时候, 上网搜各种函数,包括nls、nlm等等,不过nlm的用法好像和一般的建模函数不太相同;nls函数的用法倒很像,可是却总是出error,不知道为什么。再次苦找,忽然发现其实lm函数便可以完成这个工作: lm函数进行非线性拟合的本质是在其中加入非线性的变量,对这些非线性的变量进行线性拟合,结果还是非线性的。 library(car) plot(USPop) lmfit = lm(population ~ year, data = USPop) #线性拟合 lines(USPop$year, predict(lmfit)) nlmfit1 = lm(population ~ I(year^2)+year , data = USPop) #这里把一个平方项year^2用I来标记成一个变量 nlmfit1 summary(nlmfit1) lines(USPop$year, predict(nlmfit1), col = 'red') #非线性拟合 再上一个例子,是自己研究中的: Type_Num = as.numeric(Type_Fac) nlm = lm(Gene_Data ~ I(exp(-Type_Num)))