加入收藏 | 设为首页 | 会员中心 | 我要投稿 云计算网_泰州站长网 (http://www.0523zz.com/)- 视觉智能、AI应用、CDN、行业物联网、智能数字人!
当前位置: 首页 > 服务器 > 安全 > 正文

关于 Python 反爬虫 我有几点想讲的

发布时间:2022-07-20 09:09:08 所属栏目:安全 来源:互联网
导读:随着大数据时代的来临,无论是个人还是企业,对于数据的需求都越来越大。这种需求也催生了如今异常热门的数据产业,也催生了日益完善的网络数据采集技术。 一、为什么要反爬虫? 在设计反爬虫系统之前,我们先来看看爬虫会给网站带来什么问题? 本质上来说,互
  随着大数据时代的来临,无论是个人还是企业,对于数据的需求都越来越大。这种需求也催生了如今异常热门的数据产业,也催生了日益完善的网络数据采集技术。
 
  一、为什么要反爬虫?
 
  在设计反爬虫系统之前,我们先来看看爬虫会给网站带来什么问题?
 
  本质上来说,互联网上可以供人们浏览、查看和使用的网站及其网站上的数据,都是公开和允许获取的,所以并不存在于所谓的“非法授权访问”问题。
 
  爬虫程序访问网页和人访问网页没有本质区别,都是由客户端向网站服务器发起HTTP请求,网站服务器接收到请求之后将内容响应返回给客户端。
 
  二、识别爬虫
 
  既然讨厌爬虫,所以要将爬虫拒之于网站的门外了。要拒绝爬虫的访问,首先当然要识别出网络访问者中的爬虫程序。如何识别呢?
 
  1. HTTP请求头
 
  这算是最基础的网络爬虫识别了,正常的网络访问者都是通过浏览器对网站进行访问的。而浏览器都会带上自己的请求头以表明自己的基础信息。而这也是最容易被爬虫程序突破的识别手段,因为HTTP请求头谁都可以进行修改和伪造。
 
  2. Cookie值
 
  Cookie通常用来标识网站访问者的身份,就像是手上的一张临时凭证。并凭着这个凭着与网站服务器进行身份的校对。很遗憾,Cookie是保存在客户端的数据,也可以被修改和伪造。
 
  3. 访问频率
 
  如果一个访问者,每隔1秒请求一次网站的某个页面,或者一秒钟请求了几百次这个页面。这个访问者不是爬虫程序就有鬼了。试问人类中有谁能快速和频繁地点击鼠标访问一个页面?他是得了帕金森综合征还是八爪鱼转世?
 
  通过访问频率来识别爬虫程序是可行的,但是爬虫程序也能通过使用大量的代理IP来实现一个IP地址只访问了一次的效果,也可以通过随机的请求时间间隔规避。
 
  4. 鼠标行为轨迹
 
  正常人类访问者浏览网页势必不会像机器一样,机械地移动和点击鼠标。而鼠标的移动和点击,是可以通过JS脚本捕获到的,所以可以通过判断访问者的鼠标行为轨迹来判断访问者是否为爬虫程序。

(编辑:云计算网_泰州站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    热点阅读