监督分类

机器学习术语整理

家住魔仙堡 提交于 2020-03-11 02:28:28
监督学习 分类问题 回归问题 朴素贝叶斯 逻辑回归 支持向量机 核方法 决策树 随机森林 线性回归 K近邻 无监督学习 聚类 K均值 DBSCAN 降维 主成分分析 线性判别分析 自监督学习 自编码器 强化学习 样本 预测 目标 损失值 类别 标签 二分类 多分类 多标签分类 标量回归 向量回归 小批量 过拟合 欠拟合 泛华 超参数 训练集 测试集 验证集 留出验证 K折验证 特征工程 数据向量化 同质性 训练 测试 正则化 记忆容量 奥卡姆剃刀 非平衡问题 损失函数 激活函数 感知机 全连接神经网络 卷积神经网络 循环神经网络 生成对抗网络 权重衰减 dropout 来源: CSDN 作者: wuzhiyuan2000 链接: https://blog.csdn.net/weixin_43869091/article/details/104780607

2.2:监督学习的基本分类模型(KNN、决策树、朴素贝叶斯)

 ̄綄美尐妖づ 提交于 2020-02-12 19:33:28
K近邻分类器(KNN) KNN:通过计算待分类数据点,与已有数据集中的所有数据点的距离。取距离最小的前K个点,根据“少数服从多数“的原则,将这个数据点划分为出现次数最多的那个类别。 sklearn中的K近邻分类器 在sklearn库中,可以使用sklearn.neighbors.KNeighborsClassifier创建一个K近邻分类器,主要参数有: • n_neighbors:用于指定分类器中K的大小( 默认值为5,注意与kmeans的区别 ) • weights:设置选中的K个点对分类结果影响的权重( 默认值为平均权重“uniform”,可以选择“distance”代表越近的点权重越高,或者传入自己编写的以距离为参数的权重计算函数 ) • algorithm:设置用于计算临近点的方法,因为当数据量很大的情况下计算当前点和所有点的距离再选出最近的k各点,这个计算量是很费时的,所以( 选项中有ball_tree、kd_tree和brute,分别代表不同的寻找邻居的优化算法,默认值为auto,根据训练数据自动选择 ) K近邻分类器的使用 创建一组数据 X 和它对应的标签 y: >>> X = [[0], [1], [2], [3]] >>> y = [0, 0, 1, 1] 使用 import 语句导入 K 近邻分类器: >>> from sklearn.neighbors

机器学习

你离开我真会死。 提交于 2020-02-08 11:58:30
概念 分类、回归、监督学习、非监督学习 机器学习步骤 获取数据 获取、清洗、存储(hdfs) 数据拆分训练集和测试集 用特征向量训练算法 在测试集上评估算法 算法迭代与改进 实际应用 获取更多数据 … ## 常用算法 大专栏 机器学习 "监督学习"> 监督学习 分类 KNN(k个nearest neighbors) python anocoda python DT(decision Tree) SVN(Surpport vector machine) NN(nerual network) //深度学习基础 NB(naive bays) 回归 LR(linear Regression) NLR(Non-) 非监督学习算法 * K-Means 来源: https://www.cnblogs.com/lijianming180/p/12275807.html

统计学习方法笔记

烂漫一生 提交于 2020-02-03 03:33:55
统计学习方法概论 1.1 统计学习 统计学习 (statistics learning): 计算机 基于 数据 构建 概率统计模型 并运用 模型 对 数据 进行 预测与分析 。也称为 统计机器学习 (statistics machine learning)。 统计学习的特点: 以 计算机及网络 为平台,是建立在计算机及网络之上的; 以 数据 为研究对象,是数据驱动的学科; 目的是对 数据 进行 预测与分析 ; 统计学习以 方法 为中心,统计学习方法构建 模型 并应用模型进行预测与分析; 是 概率论、统计学、信息论、计算理论、最优化理论及计算机科学等 多个领域的交叉学科; // 现在我们所说的机器学习,往往是指 统计机器学习 。 统计学习的对象 数据(data) 。 首先呢,统计学习从数据出发,提取数据的特征,抽象出数据中的模型,发现数据中的知识,最终又回到对数据的分析预测中去。 其次,作为统计学习的对象,数据是多样的,它包括存在于计算机及网络上的各种 数字 、 文字 、 图像 、 视频 、 音频 数据以及它们的组合。 关于数据的基本假设: 同类数据具有一定的统计规律性。 (什么叫“同类数据”:具有某种共同性质的数据,比如英文文章,互联网网页,数据库中的数据等,它们具有统 计规律性 ,所以可以用 概率统计方法 来进行处理。比如,可以用随机变量描述数据中的特征

监督学习与非监督学习的区别

。_饼干妹妹 提交于 2020-01-28 04:32:26
以下是摘抄自知乎上对监督学习与非监督学习的总结,觉得写得很形象,于是记下: 这个问题可以回答得很简单:是否有监督(supervised),就看输入数据是否有标签(label)。输入数据有标签,则为有监督学习,没标签则为无监督学习 首 先看什么是学习(learning)?一个成语就可概括:举一反三。此处以高考为例,高考的题目在上考场前我们未必做过,但在高中三年我们做过很多很多题 目,懂解题方法,因此考场上面对陌生问题也可以算出答案。机器学习的思路也类似:我们能不能利用一些训练数据(已经做过的题),使机器能够利用它们(解题 方法)分析未知数据(高考的题目)? 最简单也最普遍的一类机器学习算法就是分类(classification)。对于分类,输入的训练 数据有特征(feature),有标签(label)。所谓的学习,其本质就是找到特征和标签间的关系(mapping)。这样当有特征而无标签的未知数 据输入时,我们就可以通过已有的关系得到未知数据标签。 在上述的分类过程中,如果所有训练数据都有标签,则为有监督学习(supervised learning)。如果数据没有标签,显然就是无监督学习(unsupervised learning)了,也即聚类(clustering)。 (但有监督学习并非全是分类,还有回归(regression),此处不细说。(哇擦,贵圈太乱,逼着我用了这么多括号))

有监督学习 无监督学习

风流意气都作罢 提交于 2020-01-22 21:16:19
原文作者:aihorizon.com 原文链接: Machine Learning, Part I: Supervised and Unsupervised Learning 译者: commondata 监督学习是指我们来教计算机如何“学习”,非监督学习是指让计算机自己学习。监督学习又有两个大的分支,一个是 regression,另一个是 classification。 既然是我们来教计算机如何学习,那就必定有一个“标准答案”。regression 是说,这个标准答案是连续的。 比如说,对三个月销售量的估计。classification 是说,这个标准答案是离散的。比如说,对是否患有cancer的判断。非监督学习就没有标准答案了。比如说,给你一堆数据,让你来分析这堆数据的结构。 上次我们讨论了基于结果的两类学习。这篇文章我们将关注一些其他方面的学习:监督还是无监督。当训练用例被标记了正确结果的时候,监督学习方式为怎样改进学习给出一个反馈。这类似于教官教导某个Agent,它的行为是否正确。对无监督学习来说这个目标很难实现,因为缺乏事先确定的分类。 ·监督学习 监督学习是最常见的分类问题,因为目标往往是让计算机去学习我们已经创建好的分类系统。数字识别再一次成为分类学习的常见样本。更一般地说,对于那些有用的分类系统,和容易判断的分类系统,分类学习都适用。在某些情况下

半监督学习

无人久伴 提交于 2020-01-22 21:11:26
概述 监督学习指的是训练样本包含标记信息的学习任务,例如:常见的分类与回归算法; 无监督学习则是训练样本不包含标记信息的学习任务,例如:聚类算法。 在实际生活中,常常会出现一部分样本有标记和较多样本无标记的情形,例如:做网页推荐时需要让用户标记出感兴趣的网页,但是少有用户愿意花时间来提供标记。若直接丢弃掉无标记样本集,使用传统的监督学习方法,常常会由于训练样本的不充足,使得其刻画总体分布的能力减弱,从而影响了学习器泛化性能。那如何利用未标记的样本数据呢? 以下参考博客:https://blog.csdn.net/u011826404/article/details/74358913 未标记样本 1.基本假设 (原文:https://blog.csdn.net/hellowuxia/article/details/66473252 ) 要利用未标记样本,必然要做一些将未标记样本所揭示的数据分布信息与类别标记相联系的假设。 1)平滑假设(Smoothness Assumption):位于稠密数据区域的两个距离很近的样例的类标签相似,也就是说,当两个样例被稠密数据区域中的边连接时,它们在很大的概率下有相同的类标签;相反地,当两个样例被稀疏数据区域分开时,它们的类标签趋于不同。 2) 聚类假设 (Cluster Assumption):当两个样例位于同一聚类簇时

【机器学习】半监督学习

笑着哭i 提交于 2020-01-22 21:10:40
传统的 机器学习 技术分为两类,一类是无监督学习,一类是监督学习。 无监督学习只利用未标记的样本集,而监督学习则只利用标记的样本集进行学习。 但在很多实际问题中,只有少量的带有标记的数据,因为对数据进行标记的代价有时很高,比如在生物学中,对某种蛋白质的结构分析或者功能鉴定,可能会花上生物学家很多年的工作,而大量的未标记的数据却很容易得到。 这就促使能同时利用标记样本和未标记样本的半监督学习技术迅速发展起来。 半监督学习理论简述: 半监督学习有两个样本集,一个有标记,一个没有标记.分别记作 Lable={(xi,yi)},Unlabled={(xi)}.并且数量上,L<<U. 1. 单独使用有标记样本 ,我们能够生成有监督分类算法 2. 单独使用无标记样本 ,我们能够生成无监督聚类算法 3. 两者都使用 ,我们希望在1中加入无标记样本,增强有监督分类的效果;同样的,我们希望在2中加入有标记样本,增强无监督聚类的效果. 一般而言,半监督学习侧重于在有监督的分类算法中加入无标记样本来实现半监督分类.也就是在1中加入无标记样本,增强分类效果. 半监督学习的动力,motivation 某人讨论的时候,总是教导我们的词,motivation.一下午四五遍地强调写论文要有motivation.下面说说半监督学习的motivation. 1. 有标记样本难以获取 . 需要专门的人员,特别的设备

监督学习

早过忘川 提交于 2020-01-22 21:08:15
1 监督学习   利用一组带标签的数据, 学习 从输入到输出的映射 , 然后将这种映射关系应用到未知数据, 达到 分类 或者 回归 的目的   (1) 分类: 当输出是离散的, 学习任务为分类任务          输入: 一组有标签的训练数据(也叫观察和评估), 标签 表明了这些数据(观察)的所属类别, 图中"猫"和"狗"就是标签     输出: 分类模型根据这些训练数据, 训练自己的模型参数, 学习出一个适合这组数据的分类器, 当有新数据(非训练数据)需要进行类别判断, 就可以将这组数据作为输入送给学习好的 分类器 进行判断(得到标签)     训练集: 训练模型已经标注的数据, 用来建立模型发现规律     测试集: 已标注的数据, 只不过把标注隐藏了, 再送给训练好的模型, 比对结果与原来的标注, 评判该模型的学习能力       一般来说, 获得了一组标注好的数据, 70%当做训练集, 30%当做测试集 , 另外还有交叉验证法, 自助法来评估学习模型     评价标准       1) 准确率         所有预测对的         把正类预测成正类(TP)         把负类预测成负类(TN)         准确率 = (TP+TN)/总数量       2) 精确率         以二分类为例         预测为正的样本是真的正样本        

01-机器学习基础

天涯浪子 提交于 2020-01-08 09:26:05
第1章 机器学习基础 机器学习 概述 机器学习(Machine Learning,ML) 是使用计算机来彰显数据背后的真实含义,它为了把无序的数据转换成有用的信息。是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。 它是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域,它主要使用归纳、综合而不是演绎。 海量的数据 获取有用的信息 机器学习 研究意义 机器学习是一门人工智能的科学,该领域的主要研究对象是人工智能,特别是如何在经验学习中改善具体算法的性能”。 “机器学习是对能通过经验自动改进的计算机算法的研究”。 “机器学习是用数据或以往的经验,以此优化计算机程序的性能标准。” 一种经常引用的英文定义是:A computer program is said to learn from experience E with respect to some class of tasks T and performance measure P, if its performance at tasks in T, as measured by P, improves with experience E.