干货 :使用Spark进行大规模图形挖掘(附链接)
翻译:陈丹 校对:王雨桐 本文 约4700字 ,建议阅读 15 分钟 本文为大家介绍了多种图挖掘工具,并运用Spark为大家展示了一个标签传播算法LPA构建图的实例。 本教程分为两部分: 第1部分:无监督学习图 (https://towardsdatascience.com/large-scale-graph-mining-with-spark-750995050656) 第2部分(就是本文!) : 如何运用神奇的图。我们将讨论标签传播,Spark GraphFrame和结果。 下文可回顾示例图和笔记: https://github.com/wsuen/pygotham2018_graphmining 在第1部分,我们看到了如何使用图来解决无监督的机器学习问题,因为社区是集群。我们可以利用节点之间的边作为相似性或相关性的指标,特征空间中的距离可用于其他类型的聚类。 本文将深入探讨社区检测的方式。我们构建和挖掘一个大型网络图,学习如何在Spark中实现标签传播算法(LPA)的社区检测方法。 通过标签传播检测社区 尽管有许多社区检测技术,但本文仅关注一种:标签传播。有关其他方法的概述,我推荐Santo Fortunato的“图形中的社区检测”(https://arxiv.org/pdf/0906.0612.pdf)。 Raghavan,Usha Nandini