7.文档聚类

半世苍凉 提交于 2019-11-27 08:17:45

7.文档聚类

文档聚类或聚类分析是 NLP 和文本分析中一个有趣的领域,它应用了无监督的 ML 概念和技术。文档聚类的主要前提类似于文档分类,从文档的完整语料库开始,并根据文档的一些独特的特性、属性和特征将它们分为不同的组。文档分类需要预先标记的培训数据来构建模型,然后对文档进行分类。文档聚类则使用无监督的 ML 算法将文档分组成各种类。这些类的特性就是相较于和其他类的文档之间,一个类内的文档之间更相似、互相关联更紧密。

这里要记住一件重要的事情就是聚类是一种无监督的学习技术,类之间总有一些重叠,因为并没有一个完美的聚类这样的定义。所有这些技术都是基于数学、启发式算法以及一些聚类产生过程的固有属性,它们从来都不是 100% 完美的。目前有一些发现聚类的技术或方法,几种流行的聚类算法简要描述如下:

  • 层次聚类属性:这些聚类模型也称为基于连接的聚类方法,它基于一个概念,即相似对象在向量空间中应更接近于相关对象,而不是无关对象,即它们距离无关对象更远。聚类通过基于距离的连接对象形成,可以采用树状图来可视化。这些模型的输出是完整的、层次结构详尽的聚类。该类模型主要分为凝聚式和分裂式聚类模型。
  • 基于质心的聚类模型:这些模型以这样的方式构建聚类,即每个聚类都有一个中心的、有代表性的成员,它能够代表整个聚类,并具有将特定聚类和其他聚类区分开来的特征。基于质心的聚类模型包含多种算法,如 k-means、k-medoids 算法等,此类算法中需要提前设置聚类 k 的数量,并且最小化距离度量(如每个数据点到质心的距离的平方)。这些模型的缺点是你需要提权指定 k 值,而这可能会导致局部极小值,使你无法获得数据的真实聚类表示。
  • 基于分布的聚类模型:这类模型利用概率分布的概念来聚类数据点。它的理念是具有相似分布的对象可以聚类成相同的组或聚类。高斯混合模型(Gaussian Mixture Model,GMM)使用诸如预期最大化算法来构建这些聚类。特征、属性相关性的依存关系也可以使用这些模型来捕获,但是这类模型容易过拟合。
  • 基于密度的聚类模型:这类聚类模型使用聚集在较密集区域的数据点生成聚类,与较密集区域的数据点相比,其他数据点可能会随机地出现在向量空间的稀疏区域。将这些稀疏区域视为噪声,并作为边界来隔离聚美。该领域的两个流行算法是 DBSCAN 算法和 OPTICS 算法。

最近还出现了一些其他聚类模型,包括 BIRCH 和 CLARANS 算法等。目前,有很多专门研究聚类的数据和杂志——因为聚类是一个非常有效且很有价值的话题。将主要介绍三种不同的聚类算法,并用实际数据说明他们,方便更好的理解:

  • k-means 聚类。
  • 近邻传播(Affinity Propagation,AP)聚类。
  • 沃德凝聚层次聚类(Ward's agglomerative hierarchical chustering)。

对于每个算法,将介绍其理论概念,正如介绍其他算法那样。还将通过将每个聚类算法应用于对电影和电影简介相关的一些真实数据来说明每种算法的工作原理。还想查看详细的聚类统计数据,并着重关注使用经过验证的算法可视化聚类,因为通常聚类结果很难可视化,而从业人员往往又面临着这一挑战。

易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!