监督分类 | 易学教程

监督学习最常见的四种算法

阅读更多关于监督学习最常见的四种算法

在机器学习中，无监督学习（Unsupervised learning）就是聚类，事先不知道样本的类别，通过某种办法，把相似的样本放在一起归位一类；而监督型学习（Supervised learning）就是有训练样本，带有属性标签，也可以理解成样本有输入有输出。所有的回归算法和分类算法都属于监督学习。回归（Regression）和分类（Classification）的算法区别在于输出变量的类型，定量输出称为回归，或者说是连续变量预测；定性输出称为分类，或者说是离散变量预测。以下是一些常用的监督型学习方法。一. K-近邻算法（k-Nearest Neighbors，KNN） K-近邻是一种分类算法，其思路是：如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别，则该样本也属于这个类别。K通常是不大于20的整数。KNN算法中，所选择的邻居都是已经正确分类的对象。该方法在定类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。如上图，绿色圆要被决定赋予哪个类，是红色三角形还是蓝色四方形？如果K=3，由于红色三角形所占比例为2/3，绿色圆将被赋予红色三角形那个类，如果K=5，由于蓝色四方形比例为3/5，因此绿色圆被赋予蓝色四方形类。算法的步骤为：（1）计算测试数据与各个训练数据之间的距离；（2

机器学习两种方法——监督学习和无监督学习（通俗理解）

阅读更多关于机器学习两种方法——监督学习和无监督学习（通俗理解）

前言机器学习分为：监督学习，无监督学习，半监督学习（也可以用hinton所说的强化学习）等。在这里，主要理解一下监督学习和无监督学习。监督学习（supervised learning）从给定的训练数据集中学习出一个函数（模型参数），当新的数据到来时，可以根据这个函数预测结果。监督学习的训练集要求包括输入输出，也可以说是特征和目标。训练集中的目标是由人标注的。监督学习就是最常见的分类（注意和聚类区分）问题，通过已有的训练样本（即已知数据及其对应的输出）去训练得到一个最优模型（这个模型属于某个函数的集合，最优表示某个评价准则下是最佳的），再利用这个模型将所有的输入映射为相应的输出，对输出进行简单的判断从而实现分类的目的。也就具有了对未知数据分类的能力。监督学习的目标往往是让计算机去学习我们已经创建好的分类系统（模型）。监督学习是训练神经网络和决策树的常见技术。这两种技术高度依赖事先确定的分类系统给出的信息，对于神经网络，分类系统利用信息判断网络的错误，然后不断调整网络参数。对于决策树，分类系统用它来判断哪些属性提供了最多的信息。常见的有监督学习算法：回归分析和统计分类。最典型的算法是KNN和SVM。有监督学习最常见的就是：regression&classification Regression：Y是实数vector。回归问题，就是拟合(x,y)的一条曲线，使得价值函数

机器学习之监督学习supervised learning

阅读更多关于机器学习之监督学习supervised learning

分类与回归监督学习的问题主要有两种，分别是分类classification和回归regression。分类：分类问题的目的是预测类别标签class label，这些标签来自预定义的可选列表。回归：回归任务的目的是预测一个连续值，也叫作浮点数floating-point number，即预测值不是一个类别而是一个数字值。打个比方，假如要根据一个人的年龄学历等feature来预测这个人的收入，那么预测值为一个金额，可以在给定范围内任意取值。区分分类与回归：最好的办法就是看输出是否具有某种连续性，如果在可能的结果之间具有连续性，那么它就是一个回归问题。泛化 generalize：如果一个模型能对没有见过的数据做出准确的预测，那么就表明这个模型能从训练集generalize到测试集。过拟合 overfitting 欠拟合 underfitting：如果我们总想找到最简单的模型，构建与一个对于现有信息量过于复杂的模型，即在拟合模型的时候过分关注训练集的细节，得到了一个与训练集上表现很好但是不能泛化到新数据上的模型，那么就是overfitting过拟合。反之，如果模型过于简单，无法抓住数据的全部内容以及数据中的变化，甚至在训练集上表现就很差，那么就是underfitting欠拟合。所以，在二者之间存在一个最佳位置，找到这个位置就是我们最想要的模型。监督学习算法

手把手教你用GAN实现半监督学习

阅读更多关于手把手教你用GAN实现半监督学习

引言本文主要介绍如何在tensorflow上仅使用200个带标签的mnist图像，实现在一万张测试图片上99%的测试精度，原理在于使用GAN做半监督学习。前文主要介绍一些原理部分，后文详细介绍代码及其实现原理。前文介绍比较简单，有基础的同学请掠过直接看第二部分，文章末尾给出了代码GitHub链接。对GAN不了解的同学可以查看微信公众号：机器学习算法全栈工程师的GAN入门文章。本博客中的代码最终以GitHub中的代码为准，GitHub链接在文章底部，另外，本文已投稿至微信公众号：机器学习算法全栈工程师，欢迎关注此公众号 1.监督，无监督，半监督学习介绍在正式介绍实现半监督学习之前，我在这里首先介绍一下监督学习（supervised learning），半监督学习（semi-supervised learning）和无监督学习（unsupervised learning）的区别。监督学习是指在训练集中包含训练数据的标签（label），比如类别标签，位置标签等等。最普遍使用标签学习的是分类任务，对于分类任务，输入给网络训练样本（samples）的一些特征（feature）以及此样本对应的标签（label），通过神经网络拟合的方法，神经网络可以在特征和标签之间找到一个合适的映射关系（mapping），这样当训练完成后，输入给网络没有label的样本

半监督学习（五）——半监督支持向量机

阅读更多关于半监督学习（五）——半监督支持向量机

半监督支持向量机（ S3VMs）　　今天我们主要介绍SVM分类器以及它的半监督形式S3VM，到这里我们关于半监督学习基础算法的介绍暂时告一段落了。之后小编还会以论文分享的形式介绍一些比较新的半监督学习算法。让我们开始今天的学习吧~ 引入　　支持向量机（ SVM）相信大家并不陌生吧？但是如果数据集中有大量无标签数据（如下图b），那么决策边界应该如何去确定呢？仅使用有标签数据学得的决策边界（如下图a）将穿过密集的无标签数据，如果我们假定两个类是完全分开的，那么该决策边界并不是我们想要的，我们希望的决策边界是下图（b）中的黑色实线。　　新的决策边界可以很好地将无标签数据分成两类，而且也正确地分类了有标签数据（虽然它到最近的有标签数据的距离比 SVM小）。支持向量机 SVM 　　首先我们来讨论 SVMs，为我们接下来要介绍的S3VMs算法做铺垫。为了简单起见，我们讨论二分类问题，即y{-1,1}，特征空间为并定义决策边界如下其中 w是决定决策边界方向和尺度的参数向量，b是偏移量。举个例子，，b=-1，决策边界就如下图蓝色线所示，决策边界总是垂直于w向量。　　我们的模型为，决策边界是 f(x)=0，我们通过sign(f(x))来预测x的标签，我们感兴趣的是实例x到决策边界的距离，该距离的绝对值为，比如原点 x=(0,0)到决策边界的距离为，如上图中的绿色实线

【监督学习】第四课（分类算法，svm理论）

阅读更多关于【监督学习】第四课（分类算法，svm理论）

监督学习第四，五周：因为有一周是lab课所以第四课实际上是第五周的内容。本课件26页，典型的高压课件！所有复杂的理论就在这26页中全部展示。我会尽量让大家跟随教授的思路并享受到直观的算法思想。 1，具有分离数据功能的超平面前面的课程说过，所谓的分类问题的解就是一个函数，这个函数能够接受数据输入，产生分类结果的输出。而在一个空间中，我们则是要找到一个界限，这个界限可以将不同类别的数据分开。而对于一个空间来说，这个界限实际上是一个平面（超平面）。想象在三维空间里，每个数据点的表示为（X,Y,Z）,有一些数据点聚集在超平面的左侧，而另外一些数据点聚集在超平面的右侧（另一侧）。那么我们说这个超平面具有分离数据的功能。对于三维空间来说，这个界限是一个平面，而对于多维空间来说，这个界限是一个超平面。那么如何表示这个平面呢？假设这个是三维空间，则平面的表达式为：也就是 a x b . y = k c z 其中abc是平面的法向量normal vector，也就是垂直于平面的向量。 xyz就是一个点，位于这个平面上。而多维的空间的超平面，实际上也是一样的表达式， w x + bias = 0, where w stand for weight , 这个时候我们发现，将空间中其他不位于平面上的点带入 wx + b这个式子中，只有两个结果，label >0 或者label <0

监督学习分类模型逻辑回归

阅读更多关于监督学习分类模型逻辑回归

逻辑斯谛回归 - 线性回归的问题一一怎样判断肿瘤是否恶性? - 线性回归健壮性不够，一旦有噪声，立刻“投降” 逻辑斯蒂回归 ―― 分类问题 Sigmoid函数（压缩函数） - 我们将线性回归拟合出来的值用压缩函数进行压缩，压缩完成后　　用0.5做一个概率的判定边界，就能把样本分成两类，即正样本中z的正负决定了 g(z)的值最后是大于0.5还是小于0.5；　　即z大于0时,g(z)大于0.5, z小于0时,g(z)小于0.5 　　也就使得分类边界两边分别对应g(z)>0.5和g(z)<0.5,因此根据g(z)与0.5的大小关系，　　就可以实现分类逻辑斯谛回归损失函数 -平方损失函数的问题损失函数这样，我们获得了一个凸函数。梯度下降法求解

2 机器学习基础

阅读更多关于 2 机器学习基础

2-1 机器学习世界的数据基础概念关于数据鸢尾花数据集 https://en.wikipedia.org/wiki/Iris_flower_data_set 三类鸢尾花数据集数据集描述：数据整体叫数据集（data set）每一行数据称为一个样本（sample）除最后一列，每一列表达样本的一个特征（feature）最后一列，称为标记（label）数据整理，思维转化选择两个特征绘制散点图实际问题中，特征可以很抽象，如文字识别 2-2 机器学习的主要任务分类二分类多分类如数字识别多标签分类回归任务此类问题即为回归任务一些情况下，回归任务可以简化成分类任务分类和回归，监督学习 2-3 监督学习，非监督学习，半监督学习和增强学习分类和回归，从任务上进行分类；从算法上进行分类，则分为监督学习，非监督学习，半监督学习和增强学习 1.监督学习给机器的训练数据拥有“标记”或者“答案” 如猫狗识别，仅仅给出图片是不够的的，还需要给出标签，告诉机器，图像是什么。再如文字识别生活中的实际案例，图像已经拥有了标定信息银行已经积累了一定的客户信息和他们信用卡的信用情况医院已经积累了一定的病人信息和他们最终确诊是否患病的情况市场积累了房屋的基本信息和最终成交的金额我们在这个课程中学习的大部分算法，属于监督学习算法 k近邻线性回归和多项式回归

01-01 机器学习

阅读更多关于 01-01 机器学习

目录机器学习一、学习目标二、人工智能三、机器学习 3.1 机器学习基本术语四、深度学习五、机器学习分类 5.1 监督学习 5.1.1 回归问题 5.1.2 分类问题 5.2 无监督学习 5.2.1 聚类 5.3 半监督学习 5.4 强化学习六、Python语言的优势七、小结更新、更全的《机器学习》的更新网站，更有python、go、数据结构与算法、爬虫、人工智能教学等着你： https://www.cnblogs.com/nickchen121/ 机器学习可能有很多同学想到高大上的人工智能、机器学习和深度学习，会在怀疑我是否能学会。在自我怀疑之前，我希望你能考虑一个问题，你了解机动车的构造原理吗？难道你不了解机动车的构造就不能开车了吗？我们的机器学习也是如此，你只要拿到一张“驾驶证”，你就能很好的应用它，并且能通过本文的学习，快速的为公司、为企业直接创造价值。机器学习已经不知不觉的走入了我们的生活，我们可能无法干涉它的崛起，也可能无法创建如十大算法一样的算法。但现如今生活的方方面面都有着机器学习的身影，为什么我们不试着去认识它呢，让我们能在机器学习彻底降临之前做好驾驭它的准备呢？一、学习目标了解人工智能、机器学习和深度学习之间的区别掌握机器学习中的监督学习和无监督学习问题二、人工智能人工智能（artificial intelligence, AI）：

机器学习简介

阅读更多关于机器学习简介

主要内容 • 机器学习的概念 • 机器学习主要分类 • 监督学习三要素 • 监督学习模型评估策略 • 监督学习模型求解算法一、机器学习的概念 • 机器学习是什么 • 机器学习的开端 • 机器学习的定义 • 机器学习的过程 • 机器学习示例机器学习是什么 • 什么是学习 – 从人的学习说起 – 学习理论；从实践经验中总结 – 在理论上推导；在实践中检验 – 通过各种手段获取知识或技能的过程 • 机器怎么学习？ – 处理某个特定的任务，以大量的“经验”为基础 – 对任务完成的好坏，给予一定的评判标准 – 通过分析经验数据，任务完成得更好了机器学习的定义 • 机器学习 (Machine Learning, ML) 主要研究计算机系统对于特定任务的性能，逐步进行改善的算法和统计模型。 • 通过输入海量训练数据对模型进行训练，使模型掌握数据所蕴含的潜在规律，进而对新输入的数据进行准确的分类或预测。 • 是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸优化、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习的过程二、机器学习的分类 • 机器学习的主要分类 • 无监督学习 • 无监督学习应用 • 监督学习 • 监督学习应用机器学习主要分类 • 有监督学习

订阅监督分类