半监督学习

【机器学习】半监督学习

阅读更多关于【机器学习】半监督学习

传统的机器学习技术分为两类，一类是无监督学习，一类是监督学习。无监督学习只利用未标记的样本集，而监督学习则只利用标记的样本集进行学习。但在很多实际问题中，只有少量的带有标记的数据，因为对数据进行标记的代价有时很高，比如在生物学中，对某种蛋白质的结构分析或者功能鉴定，可能会花上生物学家很多年的工作，而大量的未标记的数据却很容易得到。这就促使能同时利用标记样本和未标记样本的半监督学习技术迅速发展起来。半监督学习理论简述: 半监督学习有两个样本集,一个有标记,一个没有标记.分别记作 Lable={(xi,yi)},Unlabled={(xi)}.并且数量上,L<<U. 1. 单独使用有标记样本 ,我们能够生成有监督分类算法 2. 单独使用无标记样本 ,我们能够生成无监督聚类算法 3. 两者都使用 ,我们希望在1中加入无标记样本,增强有监督分类的效果;同样的,我们希望在2中加入有标记样本,增强无监督聚类的效果. 一般而言,半监督学习侧重于在有监督的分类算法中加入无标记样本来实现半监督分类.也就是在1中加入无标记样本,增强分类效果. 半监督学习的动力,motivation 某人讨论的时候,总是教导我们的词,motivation.一下午四五遍地强调写论文要有motivation.下面说说半监督学习的motivation. 1. 有标记样本难以获取 . 需要专门的人员,特别的设备

【机器学习】半监督学习几种方法

阅读更多关于【机器学习】半监督学习几种方法

转自： http://jiangkeke.blog.hexun.com/42322032_d.html 1.Self-training algorithm(自训练算法) 这个是最早提出的一种研究半监督学习的算法，也是一种最简单的半监督学习算法． 2.Multi-view algorithm(多视角算法) 一般多用于可以进行自然特征分裂的数据集中．考虑特殊情况（每个数据点表征两个特征）：每一个数据点看成是两个特征的集合，然后利用协同训练(Co-training algorithm)进行处理．协同训练（co-training）算法，此类算法隐含地利用了聚类假设或流形假设，它们使用两个或多个学习器，在学习过程中，这些学习器挑选若干个置信度高的未标记示例进行相互标记，从而使得模型得以更新。 Balcan and Blum (2006) show that co-training can be quite effective, that in the extreme case only one labeled point is needed to learn the classifier. Zhou et al. (2007) give a co-training algorithm using Canonical Correlation Analysis which also need

【机器学习】半监督学习几种方法

阅读更多关于【机器学习】半监督学习几种方法

阅读更多关于半监督学习

下面这篇文章摘自 Liqizhou 的随笔，我觉得它非常清楚地概述了半监督学习，值得收藏。原文地址：http://www.cnblogs.com/liqizhou/archive/2012/05/11/2496155.html 最近的一段时间一直在学习半监督学习算法，目前，国内的南京大学周志华老师是这方面的泰斗，写了很多这方面牛的文章，可以参考一下他的主页： http://cs.nju.edu.cn/zhouzh/ 。在国内的学术界周老师一直是我比较钦佩的人之一。下面贴出来的文章出自周老师之手，通俗易懂。受益匪浅。。 1. 引言在传统的监督学习中,学习器通过对大量有标记的(labeled)训练例进行学习,从而建立模型用于预测未见示例的标记。这里的“标记”(label)是指示例所对应的输出,在分类问题中标记就是示例的类别,而在回归问题中标记就是示例所对应的实值输出。随着数据收集和存储技术的飞速发展,收集大量未标记的(unlabeled)示例已相当容易,而获取大量有标记的示例则相对较为困难,因为获得这些标记可能需要耗费大量的人力物力。例如在计算机辅助医学图像分析中,可以从医院获得大量的医学图像作为训练例,但如果要求医学专家把这些图像中的病灶都标识出来,则往往是不现实的。事实上,在真实世界问题中通常存在大量的未标记示例,但有标记示例则比较少,尤其是在一些在线应用中这一问题更加突出

半监督学习简介与综述 —— For 2020

阅读更多关于半监督学习简介与综述 —— For 2020

半监督学习提出的背景数据是机器学习的基础。巧妇难为无米之炊，再牛x的机器学习算法，脱离了数据就是空中楼阁。根据使用的数据样本是否具有标签，可大致将传统的机器学习方法分为监督学习方法和无监督学习方法。其中，无监督学习方法使用的训练样本没有标签；监督学习方法使用的训练样本带有明确的标签。监督学习：训练样本集不仅包含样本，还包含这些样本对应的标签，即样本和样本标签成对出现。监督学习的目标是从训练样本中学习一个从样本到标签的有效映射，使其能够预测未知样本的标签。监督学习是机器学习中最成熟的学习方法，代表性的算法包括神经网络、支持向量机（SVM）等。无监督学习：只能利用训练样本的数据分布或样本间的关系将样本划分到不同的聚类簇或给出样本对应的低维结构。因此，无监督学习常被用于对样本进行聚类或降维，典型的算法包括尺均值聚类和主成分分析等。在许多实际问题中，有标签样本和无标签样本往往同时存在，且无标签样本较多，而有标签样本则相对较少。虽然充足的有标签样本能够有效提升学习性能，但是获取样本标签往往是非常困难的，因为标记样本可能需要专家知识、特殊的设备以及大量的时间。相比于有标签样本，大量的无标签样本广泛存在且非常容易收集。但是，监督学习算法无法利用无标签样本，在有标签样本较少时，难以取得较强的泛化性能。虽然无监督学习算法能够使用无标签样本，但准确性较差。

Semi-Supervised Learning

阅读更多关于 Semi-Supervised Learning

简介半监督学习算法 Self-Training Models Mixture Models and EM 有监督分类的混合模型半监督分类的混合模型 EM算法求解 THE ASSUMPTIONS OF MIXTURE MODELS CLUSTER-THEN-LABEL METHODS Co-Training协同训练 THE ASSUMPTIONS OF CO-TRAINING Graph-Based Semi-Supervised Learning THE GRAPH MINCUT HARMONIC FUNCTION调和函数 THE ASSUMPTION OF GRAPH-BASED METHODS Semi-Supervised Support Vector Machines THE ASSUMPTION OF S3VMS 参考文献简介半监督学习主要是研究如何在有标签和无标签的数据中学习，其目的是设计算法来满足既包含有标记数据，又包含无标记数据的情况，并理解对于这种混合数据下学习的差异性。很多时候，人工标记的数据是很少的，而且代价是很大的，为了改善在缺少训练数据情况下的有监督学习，可以使用半监督学习来利用未标记数据。这里，主要介绍几种半监督学习的算法，如self-training、mixture models、co-training、graph-based

半监督学习（五）——半监督支持向量机

阅读更多关于半监督学习（五）——半监督支持向量机

半监督支持向量机（ S3VMs）　　今天我们主要介绍SVM分类器以及它的半监督形式S3VM，到这里我们关于半监督学习基础算法的介绍暂时告一段落了。之后小编还会以论文分享的形式介绍一些比较新的半监督学习算法。让我们开始今天的学习吧~ 引入　　支持向量机（ SVM）相信大家并不陌生吧？但是如果数据集中有大量无标签数据（如下图b），那么决策边界应该如何去确定呢？仅使用有标签数据学得的决策边界（如下图a）将穿过密集的无标签数据，如果我们假定两个类是完全分开的，那么该决策边界并不是我们想要的，我们希望的决策边界是下图（b）中的黑色实线。　　新的决策边界可以很好地将无标签数据分成两类，而且也正确地分类了有标签数据（虽然它到最近的有标签数据的距离比 SVM小）。支持向量机 SVM 　　首先我们来讨论 SVMs，为我们接下来要介绍的S3VMs算法做铺垫。为了简单起见，我们讨论二分类问题，即y{-1,1}，特征空间为并定义决策边界如下其中 w是决定决策边界方向和尺度的参数向量，b是偏移量。举个例子，，b=-1，决策边界就如下图蓝色线所示，决策边界总是垂直于w向量。　　我们的模型为，决策边界是 f(x)=0，我们通过sign(f(x))来预测x的标签，我们感兴趣的是实例x到决策边界的距离，该距离的绝对值为，比如原点 x=(0,0)到决策边界的距离为，如上图中的绿色实线

半监督学习（四）——基于图的半监督学习

阅读更多关于半监督学习（四）——基于图的半监督学习

基于图的半监督学习以一个无标签数据的例子作为垫脚石 Alice 正在翻阅一本《 Sky and Earth 》的杂志，里面是关于天文学和旅行的文章。 Alice 不会英文，她只能通过文章中的图片来猜测文章的类别。比如第一个故事是“ Bridge Asteroid ”有一张多坑的小行星图片，那么它很明显是天文学类别的。第二个故事是“ Yellowstone Camping ”有张灰熊的图片，那么将它分类到旅行类别。但是其它文章没有图片， Alice 不能给它们分类。 Alice 是一个聪明的人，她注意到其他文章的标题 “Asteroid and Comet,” “Comet Light Curve,” “Camping in Denali,” and “Denali Airport.”她猜测如果两个文章的标题中有相同的单词，它们可能是一个类的，然后他就画出这样一幅图：这其实就是基于图的半监督学习的一个例子。图的概念我们首先来看看如何从训练数据中构建出图，给定半监督数据集，每个数据样本（有标签 & 无标签）是图上的一个顶点，显然，图会非常大，因为无标签数据很多，一旦图构建完成，学习的过程就包括给图中的每一个定点设置标签 y 值。在图中可以通过边将有标签和无标签数据点相连，边通常是无向的，表示的是两个节点（样本）之间的相似性。将边权重记作 wij ， wij 越大， xi 和

订阅半监督学习