【论文笔记】Evaluation of Hierarchical Clustering Algorithms for Document Datasets
导读 这篇文章感觉挺有意思,2002年CIKM的文章。 在我的todo list里面虽然已经一个月了,但是之前主要是奔着他的 hierarchy evaluation来的,现在看看其实他主要的contribution是大量的实验+自己提出的constrained agglomerative algorithms (话说做hierarchy clustering evaluation的人真少啊,我找了非常久,来来去去就那么几篇好点的文章。自己思考做这个方向的人少是因为: 1 聚类算法本身无监督,特别难以定论在所有的情况下都是这个算法好。 2 很少有人本身就是做聚类算法改进的,毕竟要实验需要在不同的人物上做大量的实验。图片聚类、文本聚类、人物画像 聚类等等。数据集大小又因人而异。 3 大部分都聚类也不是很需要层次聚类(你看我上面举的三个例子,跟层级没有一定的联系吧… 这三个理由互成因果。没什么需求导致小方向,小方向又导致没什么新鲜血液来研究。 doc-level聚类这个任务我之前没有做过,但是光从文档这个级别上来思考,可操作的特征非常多,会比我们自己做的任务要简单。毕竟我们是sentence level的。 Abstract 主要说在 文档分类 这个任务下 比较了大量的 agglomerative 和 partitional 两类hierarchy聚类算法