【机器学习】半监督学习
传统的 机器学习 技术分为两类,一类是无监督学习,一类是监督学习。 无监督学习只利用未标记的样本集,而监督学习则只利用标记的样本集进行学习。 但在很多实际问题中,只有少量的带有标记的数据,因为对数据进行标记的代价有时很高,比如在生物学中,对某种蛋白质的结构分析或者功能鉴定,可能会花上生物学家很多年的工作,而大量的未标记的数据却很容易得到。 这就促使能同时利用标记样本和未标记样本的半监督学习技术迅速发展起来。 半监督学习理论简述: 半监督学习有两个样本集,一个有标记,一个没有标记.分别记作 Lable={(xi,yi)},Unlabled={(xi)}.并且数量上,L<<U. 1. 单独使用有标记样本 ,我们能够生成有监督分类算法 2. 单独使用无标记样本 ,我们能够生成无监督聚类算法 3. 两者都使用 ,我们希望在1中加入无标记样本,增强有监督分类的效果;同样的,我们希望在2中加入有标记样本,增强无监督聚类的效果. 一般而言,半监督学习侧重于在有监督的分类算法中加入无标记样本来实现半监督分类.也就是在1中加入无标记样本,增强分类效果. 半监督学习的动力,motivation 某人讨论的时候,总是教导我们的词,motivation.一下午四五遍地强调写论文要有motivation.下面说说半监督学习的motivation. 1. 有标记样本难以获取 . 需要专门的人员,特别的设备