加入收藏 | 设为首页 | 会员中心 | 我要投稿 云计算网_泰州站长网 (http://www.0523zz.com/)- 视觉智能、AI应用、CDN、行业物联网、智能数字人!
当前位置: 首页 > 运营中心 > 建站资源 > 经验 > 正文

如何看待网站分析数据也许存在的偏差

发布时间:2022-01-13 17:02:26 所属栏目:经验 来源:互联网
导读:【导言】在做网站分析的漫长历程中,被问到最多的问题就是你的数据精确吗?网站分析的数据究竟准确与否,如何看待网站分析数据可能存在的偏差,本文将会给出答案。 【正文】 准确和精确在汉语里面是近义词,我们在口语中是可以混用的,英语中也如此,accurat
  【导言】在做网站分析的漫长历程中,被问到最多的问题就是“你的数据精确吗?”网站分析的数据究竟准确与否,如何看待网站分析数据可能存在的偏差,本文将会给出答案。
 
  【正文】
 
  准确和精确在汉语里面是近义词,我们在口语中是可以混用的,英语中也如此,accurate和precise人们也是随性而用,脱口而出。可是,既然有两个词存在,而没有在文字演化的长河中消亡其中一个,就说明它们还是有微妙的不同。事实上,准确和精确绝对不是同一个概念,它们在工程学、统计学以及其他许许多多的科学中都被严格的区分,对于网站分析这么新兴的学科而言,也完全如此。
 
  我们先看看准确和精确到底有什么不同,然后再看看网站分析工具能够做到准确还是精确,或是二者皆备。
 
  
  何为准确,何为精确
 
  维基百科上有关于准确和精确的极佳的解释,堪称经典词条。这里我用汉语向它致敬:准确是指现象或者测量值相对事实之间的离散程度小,也就是我们口语的“接近事实、符合事实”等;精确是指在条件不变的情况下,现象或者测量值能够低离散程度的反复再现,也就是我们口语说的“次次如此、回回一样”等。下面这两个图特别经典,从维基百科引用而来:
  
    
  左上象限是我们最喜欢的,既准确,且精确——对物理学和绝大多数理工科的要求就是如此;右下角是最糟糕的情况,不仅不精确,而且不准确——这是生活中最常见的,我们的社会生活其实很离散也很混沌。
 
  那么,自然而然的你会问,网站分析属于哪个象限呢?一定是左上角的象限对吗?
 
  网站分析是准确的吗?
 
  首先,这个问题没有固定的答案,因为网站分析的准确度很大程度上取决于你的期望和所采用的监测方法和所使用的工具。不过,就我们最常使用的网站分析方法而言,网站分析绝对不属于图3中左边的两个象限(即不属于既准确又精确的象限,也不属于准确但不精确的象限),更简单说,就是网站分析的数据不会准确。
 
  这可能会让你失望,但相信并不出乎你的意料。你肯定已经发现,如果我们使用不同的网站分析工具衡量同一个网站的时候,各工具的结果之间有令人费解的差异(我们在为什么两个监测工具报告中的数据不同有探讨个中原因),而且我们也无法知道哪个工具是更准确的还原了事实上的数据。
 
  所以,如果ga显示你的网站在一个月内有36,954个unique visitor,你的网站的真实访问者(一个个活生生的网友!)肯定不是36,954个!
 
  事实上,我们几乎找不出来任何一个能够准确被统计的度量,即使是最基本最简单的度量——page view也是如此!
 
  因此,如果你的老板想要100%没有误差地知道网站到底有多少个人访问过,这个想要本身已经没有意义。
 
  为什么网站分析数据无法准确
 
  你可能会吃惊,因为我们的物理学实际上也是不可能100%准确的,原因是我们都听说过的“测不准原理”。同样,网站分析也因为一个最基本的事实而无法准确,即:网站分析的监测媒介是浏览器和服务器,而不是真实的人,这注定了我们不可能寻求到准确的结果。
 
  具体而言,就目前我们通常使用的两种监测方法——server log和page tag都不可能准确对网站分析的一些最基本度量进行计数。
 
  server log的误差(bias):image
 
  unique visitor的误差:
 
  如果用server log的方法监测数据,那么很显然,获取真实的访问者数量是不可能的任务。本身server log对于访问者的估算只能依据误差巨大ip,而网络爬虫/机器人的访问又使这种误差进一步扩大。
 
  page view的误差:
 
  本来server log是可以很准确的记录page view的,但是可惜cache的出现让这成为历史。cache极有可能会屏蔽服务器端的响应,这样server log可能不会留下任何关于某次page view记录。
 
  时间记录的误差:
 
  在没有cache干扰的情况下,服务器能准确探知访问开始的时间,但是访问结束的时间无法了解。因为访问结束往往是随关闭浏览器而一同结束的。关闭浏览器本身不能激发一条新的server log记录。
 
  flash站点误差:
 
  如果一个网站主要构成部分是包含多个页面的一个flash文件,或多个此类flash文件的组合,那么server log不会记录flash内部的操作,监测会几乎失效。

(编辑:云计算网_泰州站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    热点阅读