PageRank算法小结
PageRank 这个学期选了数据挖掘的课程,期末要做一个关于链接分析算法的报告,这是PR算法的小结。 算法 PR算法基于等级权威的思想,及不仅考虑指向该网页的链接数,同时也考虑指向该网页网站的重要程度。 PR算法是一种静态的网页评级方法,因为它为每个网页离线计算PR值,与查询内容无关。计算出的PR值即可作为网页排序的依据。 从权威的时角来说,PR值应体现以下的两点: 从一个网页指向另一个网页的链接是一种对目标网站权威性的隐含认可,也就是说,指向一个网页的连接数越多,该网页的PR值也就越高; 指向某个网页w的网页本身也具有PR值。在现实生活中,我们知道被一个高权威的人认可的事比被一个低权威的人认可的更具有可信度。因此,如果一个网页被其他具有高PR值的网页认可,那么该网页的PR值也应该较高。 根据以上的思想,我们可以推导出计算PR值的公式。将网页之间的链接关系看作一个有向图 G(V, E) ,其中V是所有节点(即网页)的集合,E是所有有向边(即超链接)的集合。假设 |V|=n ,PR值的定义如下: \[P(i) = \sum\limits_{(j,i)\in E} \frac{P(j)}{O_j}\] 其中, \(O_j\) 为网页的链出链接数目。根据线性代数的知识,以上的式子可以写成矩阵的形式。 不妨用 P 表示PR值的列向量,令 A 为图 G 的邻接矩阵,有: \[A =