线性模型

机器学习之监督学习supervised learning

前提是你 提交于 2019-12-06 16:36:06
分类与回归 监督学习的问题主要有两种,分别是分类classification和回归regression。 分类: 分类问题的目的是预测类别标签class label,这些标签来自预定义的可选列表。 回归: 回归任务的目的是预测一个连续值,也叫作浮点数floating-point number,即预测值不是一个类别而是一个数字值。打个比方,假如要根据一个人的年龄学历等feature来预测这个人的收入,那么预测值为一个金额,可以在给定范围内任意取值。 区分分类与回归: 最好的办法就是看输出是否具有某种连续性,如果在可能的结果之间具有连续性,那么它就是一个回归问题。 泛化 generalize: 如果一个模型能对没有见过的数据做出准确的预测,那么就表明这个模型能从训练集generalize到测试集。 过拟合 overfitting 欠拟合 underfitting: 如果我们总想找到最简单的模型,构建与一个对于现有信息量过于复杂的模型,即在拟合模型的时候过分关注训练集的细节,得到了一个与训练集上表现很好但是不能泛化到新数据上的模型,那么就是overfitting过拟合。 反之 ,如果模型过于简单,无法抓住数据的全部内容以及数据中的变化,甚至在训练集上表现就很差,那么就是underfitting欠拟合。 所以 ,在二者之间存在一个最佳位置,找到这个位置就是我们最想要的模型。 监督学习算法

BAT机器学习面试1000题系列

本小妞迷上赌 提交于 2019-12-06 14:35:20
几点声明: 1、本文的内容全部来源于七月在线发布的BAT机器学习面试1000题系列; 2、文章中带斜体的文字代表是本人自己增加的内容,如有错误还请批评指正; 3、原文中有部分链接已经失效,故而本人重新加上了新的链接,如有不当,还请指正。(也已用斜体标出) 4、部分答案由于完全是摘抄自其它的博客,所以本人就只贴出答案链接,这样既可以节省版面,也可以使排版更加美观。点击对应的问题即可跳转。 最后,此博文的排版已经经过本人整理,公式已用latex语法表示,方便读者阅读。同时链接形式也做了优化,可直接跳转至相应页面,希望能够帮助读者提高阅读体验,文中如果因为本人的整理出现纰漏,还请指出,大家共同进步! 1.请简要介绍下SVM。 SVM,全称是support vector machine,中文名叫支持向量机。SVM是一个面向数据的分类算法,它的目标是为确定一个分类超平面,从而将不同的数据分隔开。 扩展: 支持向量机学习方法包括构建由简至繁的模型:线性可分支持向量机、线性支持向量机及非线性支持向量机。当训练数据线性可分时,通过硬间隔最大化,学习一个线性的分类器,即线性可分支持向量机,又称为硬间隔支持向量机;当训练数据近似线性可分时,通过软间隔最大化,也学习一个线性的分类器,即线性支持向量机,又称为软间隔支持向量机;当训练数据线性不可分时,通过使用核技巧及软间隔最大化,学习非线性支持向量机。

线性模型(1)

孤人 提交于 2019-12-06 03:02:42
1 import numpy as np 2 import matplotlib.pyplot as plt 3 from sklearn.linear_model import LinearRegression 4 from sklearn.datasets import make_regression 5 from sklearn.model_selection import train_test_split 6 7 X,y = make_regression(n_samples=100,n_features=2,n_informative=2,random_state=38) 8 X_train,X_test,y_train,y_test = train_test_split(X,y,random_state=8) 9 lr = LinearRegression().fit(X_train,y_train) 10 11 print('lr.coef_:{}'.format(lr.coef_[:])) 12 print('lr.intercept_:{}'.format(lr.intercept_)) 13 14 # X,y = make_regression(n_samples=50,n_features=1,n_informative=1,noise=50,random

【R语言学习笔记】Day2 线性回归与CART回归树的应用及对比

烂漫一生 提交于 2019-12-04 23:30:21
1. 目的:根据房子信息,判断博士顿地区的房价。 2. 数据来源:论文《Hedonic housing prices and the demand for clean air》,数据中共含506个观测值,及16个变量。其中,每个观测值代表一个人口普查区。 boston <- read.csv("boston.csv") # 读取文件 str(boston) # 查看数据结构   3. 变量介绍: (1)town:每一个人口普查区所在的城镇 (2)LON: 人口普查区中心的经度 (3)LAT: 人口普查区中心的纬度 (4)MEDV: 每一个人口普查区所对应的房子价值的中位数 (单位为$1000) (5)CRIM: 人均犯罪率 (6)ZN: 土地中有多少是地区是大量住宅物业 (7)INDUS: 区域中用作工业用途的土地占比 (8)CHAS: 1:该人口普查区紧邻查尔斯河;0: 该人口普查区没有紧邻查尔斯河 (9)NOX: 空气中氮氧化物的集中度 (衡量空气污染的指标) (10)RM: 每个房子的平均房间数目 (11)AGE: 建于1940年以前的房子的比例 (12)DIS: 该人口普查区距离波士顿市中心的距离 (13)RAD: 距离重要高速路的远近程度 (1代表最近;24代表最远) (14)TAX: 房子每$10,000价值所对应的税收金额 (15)PTRATIO:

列表,队列,栈,链表的内存模型

三世轮回 提交于 2019-12-04 00:08:32
1.列表   连续线性的内存地址,有序可以索引,元素可以插队,去除以后可以挪动 2.队列   元素不让插队,只能从队伍的开头或者结尾插,元素先进先出或者后进先出,与列表 的模型差不多,线性的; 3.链表   手拉手模型,内存地址是线性的,但是元素是散落的,每个元素之间有关联,只能从一头开始找 可以理解为有序的 4.栈   后进先出,落盘子模型 来源: https://www.cnblogs.com/qyan-blog/p/11824780.html

带有关于特征线性模块的图神经网络:GNN-FiLM

独自空忆成欢 提交于 2019-12-03 23:52:24
带有关于特征线性模块的图神经网络:GNN-FiLM 链接:https://arxiv.org/pdf/1906.12192 该文介绍了一种新的图神经网络(GNN)类型,关于特征的线性模块(FiLM)。许多GNN变量沿着图的边传播信息,仅仅计算每条边的源表示信息。在GNN-FiLM中,额外地使用一条边的目标节点表示来计算可用于所有进入信息的转换,使用的是基于过去信息的关于特征的模块。在GNN-FiLM和一系列基准方法上的实验以及相关的扩展显示了GNN-FiLM优于基准方法,同时速度也没有明显变慢。 模型 标记: 定义L为边类型的有限集(通常较小)。图G = (V, E) ,其中V为节点,有类型的边E ⊆V×L×V,(u, l, v) E 代表从节点u到节点v的边,类型为l,通常写作uv。 图神经网络: 每一个节点与初始表示(比如从那个节点的标签或其他模型组件获得)。然后GNN层使用该节点在图中邻居的节点表示来更新该节点的表示,产生表示。这个过程可按时间重复地使用相同的更新函数来展开,并产生表示...。或者,不同层的这种GNN更新机制可以被堆叠,直观上与按时间展开相似,但在每一个时间步使用不同的参数增加了GNN的容量。 在门控图神经网络(GGNN)中,更新使用的是递归单元r(也就是GRU或LSTM cell)在前一个时间步的节点表示,产生以下定义式子:

R语言实战-云图

匿名 (未验证) 提交于 2019-12-03 00:43:02
Ŀ¼ 第一部分  入门 第2章  创建数据集 第3章  图形初阶 第4章  基本数据管理 第5章  高级数据管理 第二部分  基本方法 第6章  基本图形 第7章  基本统计分析 第三部分  中级方法 第8章  回归 第9章  方差分析 第10章  功效分析 第11章  中级绘图 第12章  重抽样与自助法 第四部分  高级方法 第13章  广义线性模型 第14章  主成分和因子分析 第15章  处理缺失数据的高级方法 第16章  高级图形进阶 后记:探索R的世界  357 附录A  图形用户界面  359 附录B  自定义启动环境  362 附录C  从R中导出数据  364 附录D  制作出版级品质的输出  366 附录E  R中的矩阵运算  374 附录F  本书中用到的扩展包  376 附录G  处理大数据  381 附录H  更新R  383 原文:https://www.cnblogs.com/LearnFromNow/p/9348355.html

kaldi中特征变换

匿名 (未验证) 提交于 2019-12-03 00:22:01
简介 Kaldi 目前支持多种特征和模型空间的变换与映射。特征空间变换和映射通过工具来处理(本质上就是矩阵),以下章节将介绍: 全局线性或仿射变换 说话人无关或单一说话人( per-speaker )或者( per-utterance )单一句子自适应 句子-说话人( Utterance-to-speaker )和说话人-句子( speaker-to-utterance )映射 组合变换 估计变换时的静音权重 变换,投影或者其他没有特定说话人的特征操作包括: 线性判别性分析(LDA) 帧拼接和差分特征计算 异方差的线性判别性分析(HLDA) 全局半协方差/最大似然线性变换 全局变换主要通过说话人自适应的方式应用: 全局GMLLR/fMLLR变换 线性声道长度归一化 指数变换 谱均值和方差归一化 下面我们将介绍回归树以及用到回归树的变换: 为自适应构建回归类树 全局线性或仿射特征变换 Matrix<BaseFloat> The Tableconcept )中。 变换可以通过程序transform-feats应用于特征上,语法如下 Specifying Tableformats: wspecifiers and rspecifiers Extendedfilenames: rxfilenames and wxfilenames ).这个程序通常用于管道的一部分。

机器学习线性模型(3)

匿名 (未验证) 提交于 2019-12-03 00:22:01
多分类学习 ,考虑N个类别 C 1 , C 2 , … C N C 1 , C 2 , … C N ,多分类学习的基本思想就是: 将多分类任务拆为若干个二分类任务求解。 先对问题进行 拆分 ,拆出的每个二分类任务训练一个分类器,在测试时,对这些分类器的预测结果进行 集成 以获得最终的多分类结果。 最经典的拆分策略有三种: 一对一(OVO) ,对于N分类学习,OVO将这N个类别两两配对,从而产生 N ( N 1 ) / 2 N ( N 1 ) / 2 个二分类任务,在测试阶段,新样本同时提交给所有分类器,于是我们将得到 N ( N 1 ) / 2 N ( N 1 ) / 2 个分类结果,最终结果将由投票产生。 一对其余(OVR) ,每次将一个类的样例作为正例、所有其他类的样例作为反例来训练N个分类器,在测试时,如果仅有一个分类器预测为正类,则对应的类别标记作为最终分类结果,若有多个分类器预测为正类,通常考虑各分类器的预测置信度,选择置信度最大的类别标记作为最终分类结果。 多对多(MVM) ,每次将若干类作为正类,将若干类作为反类,OVO和OVR是MVM的特例!正反类不能随便选!一种常用的MVM技术: 纠错输出码(ECOC) 比较OVO和OVR :OVO的存储开销和测试时间开销通常比OVR更大。在类别很多时,OVO的训练时间开销比OVR更小(OVO每个分类器仅用两个类的样例

线性模型-线性回归、Logistic分类

匿名 (未验证) 提交于 2019-12-02 23:42:01
线性模型是机器学习中最简单的,最基础的模型结果,常常被应用于分类、回归等学习任务中。 回归和分类区别: 回归:预测值是一个连续的实数; 分类:预测值是离散的类别数据。 以下是均方误差表达式:    那么基于 均方误差来求解模型的方法称为最小二乘法。   最小二乘法思想:寻找一个超平面,使得训练数据集中所有样本点到超平面的距离之和最小。 总结: 缺点与改进:线性回归是采用超平面来拟合所有的训练数据,但如果数据不呈线性分布关系时,线性模型得到的结果是欠拟合的 (ps:欠拟合就时特征学习的不够)。如果解决欠拟合的问题,有两种方式:     第一种方法:挖掘更多的特征,比如不同的特征之间的组合,但这样做会使得模型更复杂,而且好的特征选取并不是一件简单的事;     第二种方法:通过修改线性回归,这时出现的方法是“局部加权线性回归(LWR)”,该方法使得我们在不添加新特征的前提下,获 得近似的效果。该方法只需将损失函数修改为: 但是,LWR也有不足。最大的缺点是空间开销比较大,在线性回归模型中,当训练得到参数的最优解,就可以得到新数据 的预测输出,但LWR除了保留参数得到最优解外,还要保留全部的训练数据,以求取每一个训练数据对应于新数据的权重值。 2. 线性模型来进行分类学习----Logistics回归:基本思想是在空间中构造一个合理的超平面,把空间区域划分为两个子控件