半监督学习(四)——基于图的半监督学习
基于图的半监督学习 以一个无标签数据的例子作为垫脚石 Alice 正在翻阅一本《 Sky and Earth 》的杂志,里面是关于天文学和旅行的文章。 Alice 不会英文,她只能通过文章中的图片来猜测文章的类别。比如第一个故事是“ Bridge Asteroid ”有一张多坑的小行星图片,那么它很明显是天文学类别的。第二个故事是“ Yellowstone Camping ”有张灰熊的图片,那么将它分类到旅行类别。但是其它文章没有图片, Alice 不能给它们分类。 Alice 是一个聪明的人,她注意到其他文章的标题 “Asteroid and Comet,” “Comet Light Curve,” “Camping in Denali,” and “Denali Airport.”她猜测如果两个文章的标题中有相同的单词,它们可能是一个类的,然后他就画出这样一幅图: 这其实就是基于图的半监督学习的一个例子。 图的概念 我们首先来看看如何从训练数据中构建出图,给定半监督数据集 , 每个数据样本(有标签 & 无标签)是图上的一个顶点,显然,图会非常大,因为无标签数据很多,一旦图构建完成,学习的过程就包括给图中的每一个定点设置标签 y 值。在图中可以通过边将有标签和无标签数据点相连,边通常是无向的,表示的是两个节点(样本)之间的相似性。将边权重记作 wij , wij 越大, xi 和