面向图结构聚类why问题的溯源解释问题
图是描述现实世界各类复杂系统的一种普适模型,具有很强的表述能力。在现实世界中,很多应用将数据和数据之间的关系表示为一个图,比如说社交网络,信息网络,协作网络,电子商务网络,通信网络,生物蛋白质网络等。从数据管理角度出发,对大规模数据进行按需加载,将会节省大量计算资源,图的聚类为上述需求提供了解决途径,有利于大规模图的分析,理解和可视化。 在围绕图结构聚类算法展开研究时,我们发现图结构聚类算法主要存在的两个问题,第一是数据存在质量问题,第二是聚类方法存在参数不合理的问题。 1.图数据质量问题:图数据存在质量问题分为4个小点,第一点是由于图数据源存在缺失信息和错误的现象导致的,如由于人为因素,机器故障或位置确定技术的限制,移动设备用户的位置信息有时不准确或丢失,第二点是图数据抽取存在错误,如网页抽取数据时,大部分抽取方法不但速度慢,容易出错而且难以维护,第三点是图数据在提取时发生重复错误的现象,如在线服务中,一个用户可能有多个账号,造成有多个用户的假象,第四点是图数据的集成错误导致的质量问题,在整合多源数据时,对于同一个事实,不同的数据源有不同的判断,造成了数据冲突和不确定。图结构聚类方法对数据时敏感的,如果数据中存在质量问题,那么聚类结果就不能满足用户的需求 2.聚类参数不合理问题:图结构聚类方法对聚类参数是非常敏感的,由于用户专业知识有限