【论文笔记】Evaluation of Hierarchical Clustering Algorithms for Document Datasets

落花浮王杯 提交于 2020-02-26 00:13:03

导读

这篇文章感觉挺有意思,2002年CIKM的文章。
在我的todo list里面虽然已经一个月了,但是之前主要是奔着他的 hierarchy evaluation来的,现在看看其实他主要的contribution是大量的实验+自己提出的constrained agglomerative algorithms
(话说做hierarchy clustering evaluation的人真少啊,我找了非常久,来来去去就那么几篇好点的文章。自己思考做这个方向的人少是因为:

  • 1 聚类算法本身无监督,特别难以定论在所有的情况下都是这个算法好。
  • 2 很少有人本身就是做聚类算法改进的,毕竟要实验需要在不同的人物上做大量的实验。图片聚类、文本聚类、人物画像 聚类等等。数据集大小又因人而异。
  • 3 大部分都聚类也不是很需要层次聚类(你看我上面举的三个例子,跟层级没有一定的联系吧…

这三个理由互成因果。没什么需求导致小方向,小方向又导致没什么新鲜血液来研究。

doc-level聚类这个任务我之前没有做过,但是光从文档这个级别上来思考,可操作的特征非常多,会比我们自己做的任务要简单。毕竟我们是sentence level的。

Abstract

主要说在文档分类这个任务下
比较了大量的 agglomerative 和 partitional 两类hierarchy聚类算法
然后partitional算法总是要好一些,但是自己提出的算法比这两者效果都好。

Introduction

  • 1 先出现的agglo类别的hierarchy clustering,再是partitional
  • 2 partitional算力要求低,但是聚类质量上要比aggo差一些(为什么?
  • 3 比较了多个split criterion和 merge scheme
  • 4 提出新的算法,先用partitional算法到中间低聚类层级,然后对中间层级的每一个类进行aggo聚类,把子树接上去,佛了。

Clustering Criterion Function

一共有4种类型的聚类优化

  • 1 external,着重于强调每个cluster的区别
  • 2 internal,着重于cluster内部instance的优化
  • 3 graph-based,把所有的instance分成graph再进行操作
  • 4 hybrid,上述的某些混合。

震惊!这文章比了15个算法分别在12个数据集上的效果

5.2 Experimental Methodology and Metrics

重点讲讲这个吧,我就想看个这个。

1 给定一个LrL_r类别下的instance,size为nrn_r | 以及一个特定的聚类SiS_i,size为nin_i

注意这里没有说明谁大谁小哦,聚类的结果可以远大于LrL_r的哦
别问这里为什么有LrL_r,不然怎么evaluation?聚类出来不能自己肉眼看吧

2 假定在这个聚类SiS_i中存在nrin_{ri}个instance属于类别LrL_r
3 FScore measure:

F(Lr,Si)=2R(Lr,Si)P(Lr,Si)R(Lr,Si)+P(Lr,Si) F(L_r, S_i) = \frac {2*R(L_r, S_i)*P(L_r, S_i)} {R(L_r, S_i)+P(L_r, S_i)}
其中的P, R自然是Precision和Recall
度量的是nrin_{ri}nrn_r

4 每一个类别,都要对所有的聚类进行这样的度量。选取其中最大的F值表示,所有聚类结果TT中,最接近预定义的类别LrL_r的是某个SiS_i

i.e.
F(Lr)=maxSiT(F(Lr,Si)) F(L_r) = \max\limits_{S_i \in T}(F(L_r, S_i))

5 最终再normalize出一个整体的overall的F Score,因为不同LL下的instance数量不同

FScore=r=1cnrnF(Lr) FScore = \sum\limits_{r=1}^{c} \frac{n_r}{n}F(L_r)

这也就是当前聚类算法下,在当前数据集中的最终FScore

结语

这个Evaluation非常的好,论文工作量也非常大,创新点也有。700+引用实至名归。

这个Cluster的FScore是在1999年的SIGKDD上Fast and effective text mining using linear-time document clustering提出来的。有必要稍微再去看一下

不过让我觉得比较可惜的是,虽然这篇说了是一个hierarchy clustering的evaluation,但是只是算法换成了层级聚类,evaluation的标准还是普通聚类的都用的一个标准。这样并没有度量hierarchy这个树形结构是否符合标准

标签
易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!