导读
这篇文章感觉挺有意思,2002年CIKM的文章。
在我的todo list里面虽然已经一个月了,但是之前主要是奔着他的 hierarchy evaluation来的,现在看看其实他主要的contribution是大量的实验+自己提出的constrained agglomerative algorithms
(话说做hierarchy clustering evaluation的人真少啊,我找了非常久,来来去去就那么几篇好点的文章。自己思考做这个方向的人少是因为:
- 1 聚类算法本身无监督,特别难以定论在所有的情况下都是这个算法好。
- 2 很少有人本身就是做聚类算法改进的,毕竟要实验需要在不同的人物上做大量的实验。图片聚类、文本聚类、人物画像 聚类等等。数据集大小又因人而异。
- 3 大部分都聚类也不是很需要层次聚类(你看我上面举的三个例子,跟层级没有一定的联系吧…
这三个理由互成因果。没什么需求导致小方向,小方向又导致没什么新鲜血液来研究。
doc-level聚类这个任务我之前没有做过,但是光从文档这个级别上来思考,可操作的特征非常多,会比我们自己做的任务要简单。毕竟我们是sentence level的。
Abstract
主要说在文档分类这个任务下
比较了大量的 agglomerative 和 partitional 两类hierarchy聚类算法
然后partitional算法总是要好一些,但是自己提出的算法比这两者效果都好。
Introduction
- 1 先出现的agglo类别的hierarchy clustering,再是partitional
- 2 partitional算力要求低,但是聚类质量上要比aggo差一些(为什么?
- 3 比较了多个split criterion和 merge scheme
- 4 提出新的算法,先用partitional算法到中间低聚类层级,然后对中间层级的每一个类进行aggo聚类,把子树接上去,佛了。
Clustering Criterion Function
一共有4种类型的聚类优化
- 1 external,着重于强调每个cluster的区别
- 2 internal,着重于cluster内部instance的优化
- 3 graph-based,把所有的instance分成graph再进行操作
- 4 hybrid,上述的某些混合。
震惊!这文章比了15个算法分别在12个数据集上的效果
5.2 Experimental Methodology and Metrics
重点讲讲这个吧,我就想看个这个。
1 给定一个类别下的instance,size为 | 以及一个特定的聚类,size为
注意这里没有说明谁大谁小哦,聚类的结果可以远大于的哦
别问这里为什么有,不然怎么evaluation?聚类出来不能自己肉眼看吧
2 假定在这个聚类中存在个instance属于类别
3 FScore measure:
其中的P, R自然是Precision和Recall
度量的是和
4 每一个类别,都要对所有的聚类进行这样的度量。选取其中最大的F值表示,所有聚类结果中,最接近预定义的类别的是某个。
i.e.
5 最终再normalize出一个整体的overall的F Score,因为不同下的instance数量不同
这也就是当前聚类算法下,在当前数据集中的最终FScore
结语
这个Evaluation非常的好,论文工作量也非常大,创新点也有。700+引用实至名归。
这个Cluster的FScore是在1999年的SIGKDD上Fast and effective text mining using linear-time document clustering提出来的。有必要稍微再去看一下
不过让我觉得比较可惜的是,虽然这篇说了是一个hierarchy clustering的evaluation,但是只是算法换成了层级聚类,evaluation的标准还是普通聚类的都用的一个标准。这样并没有度量hierarchy这个树形结构是否符合标准
来源:CSDN
作者:DrogoZhang
链接:https://blog.csdn.net/weixin_40400177/article/details/104500841