加入收藏 | 设为首页 | 会员中心 | 我要投稿 云计算网_泰州站长网 (http://www.0523zz.com/)- 视觉智能、AI应用、CDN、行业物联网、智能数字人!
当前位置: 首页 > 运营中心 > 搜索优化 > 正文

pythoy超级简单的一个爬虫小程序

发布时间:2022-06-07 22:03:48 所属栏目:搜索优化 来源:互联网
导读:首次接触爬虫,这个程序可以让初学者明白爬虫是啥,爬虫的基本逻辑。(参照网易云课堂heibanke老师的程序编写的。hebanke老师的课程讲得很清楚,感兴趣的选手可以去看看) 被爬虫的网址是http://www.heibanke.com/lesson/crawler_ex00/需要完成的任务是在
  首次接触爬虫,这个程序可以让初学者明白爬虫是啥,爬虫的基本逻辑。(参照网易云课堂heibanke老师的程序编写的。hebanke老师的课程讲得很清楚,感兴趣的选手可以去看看)
 
  被爬虫的网址是http://www.heibanke.com/lesson/crawler_ex00/需要完成的任务是在网址后面输入显示的数字转入下一个网址,再次读取显示的数字,转入下一个网址,以此循环
 
  爬虫要求
 
  在爬虫的时候需要需要用到两个库,一个urllib,一个BeautifulSoup,urllib为python自带的库,beautifulsoup需要自己安装
 
  pip install beautifulsoup4
 
  安装成功后导入
 
  import urllibfrom bs4 import BeautifulSoup
 
  urllib提供了一系列用于操作URL的功能打开要爬取得网站:
 
  urllib.urlopen(url)
 pythoy超级简单的一个爬虫小程序
  beautifulsoup主要用于解析HTML,将 HTML转化成数型结构,每个节点都是Python对象。所有对象可以归纳为4种:1.Tag2.NavigableString3.BeautifulSoup4.Comment如果一个HTML为
 
   <[head])>     The Dormouse's story  
 
  print soup.title>>>The Dormouse's story
 
  print soup.title.string>>>The Dormouse's story
 
  程序逻辑:读出页面上的数字,将数字加在url后面,继续读取新页面的数字,直到进入最后一个没有数字的页面,break程序如下:
 
  import urllibfrom bs4 import BeautifulSoupimport re#这个库导入是为了使用正则表达式读取读取找到的内容中的数字url='http://www.heibanke.
 

(编辑:云计算网_泰州站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    热点阅读