1、什么是Spark GraphX?
Spark GraphX是一个分布式的图处理框架。社交网络中,用户与用户之间会存在错综复杂的联系,如微信、QQ、微博的用户之间的好友、关注等关系,构成了一张巨大的图,单机无法处理,只能使用分布式图处理框架处理,Spark GraphX就是一种分布式图处理框架。
2、Spark GraphX优点:
相对于其他分布式图计算框架,Graphx最大的贡献,也是大多数开发喜欢它的原因是,在Spark之上提供了一站式解决方案,可以方便且高效地完成图计算的一整套流水作业;即在实际开发中,可以使用核心模块来完成海量数据的清洗与与分析阶段,SQL模块来打通与数据仓库的通道,Streaming打造实时流处理通道,基于GraphX图计算算法来对网页中复杂的业务关系进行计算,最后使用MLLib以及SparkR来完成数据挖掘算法处理。
- SparkGraphX的整体架构
(1)存储层和原语层:Graph类是图计算的核心类,内部含有VertexRDD、EdgeRDD和RDD。GraphImpl是Graph类的子类,实现了图操作。
(2)接口层:在底层RDD的基础之上实现Pragel模型,BSP模式的计算接口。
(3)算法层:基于Pregel接口实现了常用的图算法。包含:PageRank、SVDPlusPlus、TriangleCount、ConnectedComponents、StronglyConnectedConponents等算法。
- [2019好程序员大数据教程]如何快速入门SparkGraphx(33集视频+源码+笔记)
如何学习SparkGraphx?好程序员为大家准备了33集视频+源码+笔记,希望能对你学习有所帮助。
(1)课程介绍
在本课程中,主要讲述了Graphx的特性、存储原理, 图构建的方法、过程,构建点集合, PageRank算法,代码操作,深度优先算法等。
(2)本课程适用人群
具有一定大数据基础的人群
(3)课程目录:
01. Graphx的优势
02. 弹性分布式属性图(图计算的优势)
03. Graphx图存储原理
04. Partition分区策略
05. Graphx中的vertices、edges、triples
06. 图构建
07. 图构建之方法
08. 图构建之过程
09. 构建点集合
10. 构建点和边的集合例子
11. 构建边集合
12. 构建图
13. 转换操作(mapVertices)
14. 转换操作(mapEdges、mapTriplets)
15. 结构操作
16. 关联操作
17. 聚合操作(map阶段)
18. 缓存操作
19. 代码操作
20. 代码操作(2)
21. 代码操作(3)
22. 代码操作(4)
23. 代码操作(5)
24. 代码操作(6)
25. 深度优先算法(上)
26. 深度优先算法(中)
27. 深度优先算法(下)
28. 联通分量
29. 广度优先算法
30. PageRank算法(动态和静态)
31. PageRank(源码解析)
32. PageRank(案例实现)
33. PageRank(测试总结)
尾注:
精心整理,实属不易,手动点赞,以示鼓励
关注作者vx公众号“好程序员”,回复“DT2”即可领取33集“SparkGraphx从入门到精通”视频+源码+笔记!想学习大数据的小伙伴抓紧时间领取!