Spark(GraphX)
Spark core GraphX core Pregel+GraphLab API GraphX工具包 处理流水线 raw data from FS/DB->initail graph by ETL->subgraph by Slice->Pagerank by Graphlib/Pregel compute->store/ to FS/DB 数据结构(物理数据结构) RDPG(Resilient Distributed Property Graph),一种点和边都带属性的有向多重图 实际上都会转化为RDD(RDD[VertexPartition]和RDD[EdgePartition]) 操作视图(逻辑数据结构) RDPG,支持两种视图Graph视图和Collection/Table视图 Collection/Table视图由边表和点表组成,使用spark rdd API Graph视图是直接操作图 图存储 边分割(GraphX采用):每个顶点都存储一次,但有的边会被打断分到两台机器上 点分割:每条边只存储一次,都只会出现在一台机器上 每个图由3个RDD组成 图计算 基础模型:BSP(bulk synchronous parallel),一次计算分多个超步,一个超步含三子步(并发计算,通信,栅栏同步) BSP扩展模型: 消息通信模型(Pregel,顶点思考模型