07-noderepr 图机器学习之图表征学习
网络中的机器学习 节点分类 链接预测 机器学习的生命圈需要特征工程 网络的特征学习——特征向量 embedding network embedding的意义 节点的表征 节点的相似度衡量→网络相似度衡量 网络信息编码,生成节点表征 用途:异常检测,属性预测,聚类,关系预测 例子:deepwalk 难度:当前的深度学习视为序列或网格数据而设计的,但网络结构比这些更复杂,没有固定的空间结构,没有固定的顺序,是动态的,并且有多类特征 Embedding Nodes 假设我们有图G,V是节点集合,A是邻接矩阵, 将节点编码,编码后的向量计算得到的相似度与原网络的一致 因此需要定义一个编码器,以及计算节点相似度的函数,并优化encoder 浅层encoding,有一个大矩阵,存储各类节点的向量,encoder只是look-up,类似于word embedding 常见的方法:deepwalk,node2vec,transE 如何定义节点相似性 例子:若两个节点的embedding相似,那么在物理结构上,他们:相连?有相同邻居?相似的结构角色?等 随机游走→node embedding 随机游走:从一个节点出发,随机选择一个邻居节点,游走到该节点,再重复上述步骤。经过的节点组成的序列即为图的random walk 公式表示节点u,v在random walk中共同出现的概率 步骤: 1.