用Spark 来做大规模图形挖掘:第一部分
如果你的图是随机的话,那么根本不会行得通的。但是现实生活中大多数的图并不是随机的。结点相互之间的连接关系是存在某种相关性的。以下两个原则会解释其中的原因:
在现实生活中,这两个原则会相互作用! 研究人员利用这些现象可以对图中的一些有趣的问题建模。例如,Farine et al通过动物之间强烈关联性预测了狒狒的位置——对行为生态学产生了很好的影响。 Farine, Damien R., et al“最近邻居和长期分支机构都能预测野生狒狒集体行动期间的个体位置。”科学报告6(2016):27704 同质相吸原则经常用于社交网络研究。Adamic和Glance在2004年大选期间对政治博客进行了一项引人入胜的研究。 他们用图表的方式,显示了不同的博客如何相互引用;蓝色节点代表自由博客,红色节点是保守的博客。 也许不出所料,他们发现博客倾向于引用同样政治倾向的其他博客。 Adamic,Lada A.和Natalie Glance。 “政治博客圈和2004年美国大选:区分了他们的博客。”第三届国际链接发现研讨会论文集。ACM,2005年。 即使在个人层面上,同质相吸原则也是有道理的。 机会是你自己的朋友网络由可能与你年龄相同,住在同一个城镇,有相同的爱好,或去同一所学校的人组成! 在工作中,你是一个活生生同质相吸原则的例子。不要畏惧,大胆将它加入到简历中! 我们已经介绍了图是怎么运用数据中基本的网络特性来生成聚类。在互联网中,这些聚类对于推荐系统、观众分类、以及异常检测等等都有重大意义。 在第二部分(链接传送门),我们会将对社团检测技术进行深入研究,并且学着怎么利用常用的爬虫数据集,从网页的图状结构中得到聚类。 【编辑推荐】
点赞 0 (编辑:云计算网_泰州站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |