Machine Learning:PageRank算法
然后将每一行除以该行非零数字之和,即(每行非0数之和就是链接网个数)则得到新矩阵P’,如图3所示。 这个矩阵记录了 每个网页跳转到其他网页的概率,即其中i行j列的值表示用户从页面i 转到页面j的概率。图1 中A页面链向B、C,所以一个用户从A跳转到B、C的概率各为1/2。 4)概率转移矩阵P 采用P’ 的转置矩 阵进行计算, 也就是上面提到的概率转移矩阵P 。 如图4所示: 二、 A矩阵计算过程。 1)P概率转移矩阵 : 2) 3)A矩阵为:q × P + ( 1 一 q) * 初始每个网页的 PageRank值均为1 , 即X~t = ( 1 , 1 , 1 ) 。 三、 循环迭代计算PageRank的过程 第一步: 因为X 与R的差别较大。 继续迭代。 第二步: 继续迭代这个过程... 直到最后两次的结果近似或者相同,即R最终收敛,R 约等于X,此时计算停止。最终的R 就是各个页面的 PageRank 值。 用幂法计算PageRank 值总是收敛的,即计算的次数是有限的。 Larry Page和Sergey Brin 两人从理论上证明了不论初始值如何选取,这种算法都保证了网页排名的估计值能收敛到他们的真实值。 由于互联网上网页的数量是巨大的,上面提到的二维矩阵从理论上讲有网页数目平方之多个元素。如果我们假定有十亿个网页,那么这个矩阵 就有一百亿亿个元素。这样大的矩阵相乘,计算量是非常大的。Larry Page和Sergey Brin两人利用稀疏矩阵计算的技巧,大大的简化了计算量。 5. PageRank算法优缺点 优点:
缺点:
注:本文作者为Leonis_v,站长之家已获得转载权限,未经原作者允许不得转载。 注:相关网站建设技巧阅读请移步到建站教程频道。 (编辑:云计算网_泰州站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |