加入收藏 | 设为首页 | 会员中心 | 我要投稿 云计算网_泰州站长网 (http://www.0523zz.com/)- 视觉智能、AI应用、CDN、行业物联网、智能数字人!
当前位置: 首页 > 综合聚焦 > 创业热点 > 经验 > 正文

Machine Learning:PageRank算法

发布时间:2016-01-19 23:01:34 所属栏目:经验 来源:csdn博客
导读:在谷歌主导互联网搜索之前, 多数搜索引擎采用的排序方法, 是以被搜索词语在网页中的出现次数来决定排序——出现次数越多的网页排在越前面。 这个判据不能说毫无道理,可

然后将每一行除以该行非零数字之和,即(每行非0数之和就是链接网个数)则得到新矩阵P’,如图3所示。 这个矩阵记录了 每个网页跳转到其他网页的概率,即其中i行j列的值表示用户从页面i 转到页面j的概率。图1 中A页面链向B、C,所以一个用户从A跳转到B、C的概率各为1/2。

4)概率转移矩阵P

采用P’ 的转置矩 阵进行计算, 也就是上面提到的概率转移矩阵P 。  如图4所示:

11

12

二、 A矩阵计算过程。

1)P概率转移矩阵  :

       Machine Learning:PageRank算法

  2)Machine Learning:PageRank算法/N 为:

Machine Learning:PageRank算法

3)A矩阵为:q  × P + ( 1 一 q) * Machine Learning:PageRank算法 /N = 0.85  × P + 0.15  *Machine Learning:PageRank算法 /N

Machine Learning:PageRank算法

初始每个网页的 PageRank值均为1 , 即X~t = ( 1 , 1 , 1 ) 。 

三、 循环迭代计算PageRank的过程

第一步:

Machine Learning:PageRank算法

因为X 与R的差别较大。 继续迭代。

第二步:

Machine Learning:PageRank算法

继续迭代这个过程...

直到最后两次的结果近似或者相同,即R最终收敛,R 约等于X,此时计算停止。最终的R 就是各个页面的 PageRank 值。

用幂法计算PageRank 值总是收敛的,即计算的次数是有限的。

Larry Page和Sergey Brin 两人从理论上证明了不论初始值如何选取,这种算法都保证了网页排名的估计值能收敛到他们的真实值。

由于互联网上网页的数量是巨大的,上面提到的二维矩阵从理论上讲有网页数目平方之多个元素。如果我们假定有十亿个网页,那么这个矩阵 就有一百亿亿个元素。这样大的矩阵相乘,计算量是非常大的。Larry Page和Sergey Brin两人利用稀疏矩阵计算的技巧,大大的简化了计算量。

5. PageRank算法优缺点

优点:

是一个与查询无关的静态算法,所有网页的PageRank值通过离线计算获得;有效减少在线查询时的计算量,极大降低了查询响应时间。

缺点:

1)人们的查询具有主题特征,PageRank忽略了主题相关性,导致结果的相关性和主题性降低

2)旧的页面等级会比新页面高。因为即使是非常好的新页面也不会有很多上游链接,除非它是某个站点的子站点。

注:本文作者为Leonis_v,站长之家已获得转载权限,未经原作者允许不得转载。

注:相关网站建设技巧阅读请移步到建站教程频道。

(编辑:云计算网_泰州站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

推荐文章
    热点阅读