加入收藏 | 设为首页 | 会员中心 | 我要投稿 云计算网_泰州站长网 (http://www.0523zz.com/)- 视觉智能、AI应用、CDN、行业物联网、智能数字人!
当前位置: 首页 > 站长学院 > PHP教程 > 正文

怎么利用PHP抓取百度阅读

发布时间:2022-02-24 11:33:44 所属栏目:PHP教程 来源:互联网
导读:本文实例讲述了PHP编程实现的TCP服务端和客户端功能。分享给大家供大家参考,具体如下: 1、修改php.ini,打开extension=php_sockets.dll 2、服务端程序SocketServer.php ?php //确保在连接客户端时不会超时 set_time_limit(0); //设置IP和端口号 $address
  本文实例讲述了PHP编程实现的TCP服务端和客户端功能。分享给大家供大家参考,具体如下:
 
  1、修改php.ini,打开extension=php_sockets.dll
 
  2、服务端程序SocketServer.php
 
  <?php
  //确保在连接客户端时不会超时
  set_time_limit(0);
  //设置IP和端口号
  $address = "127.0.0.1";
  $port = 3046;
  /**
   * 创建一个SOCKET
   * AF_INET=是ipv4 如果用ipv6,则参数为 AF_INET6
   * SOCK_STREAM为socket的tcp类型,如果是UDP则使用SOCK_DGRAM
  */
  $sock = socket_create(AF_INET, SOCK_STREAM, SOL_TCP) or die("socket_create() fail:" . socket_strerror(socket_last_error()) . "/n");
  //阻塞模式
  socket_set_block($sock) or die("socket_set_block() fail:" . socket_strerror(socket_last_error()) . "/n");
  //绑定到socket端口
  $result = socket_bind($sock, $address, $port) or die("socket_bind() fail:" . socket_strerror(socket_last_error()) . "/n");
  //开始监听
  $result = socket_listen($sock, 4) or die("socket_listen() fail:" . socket_strerror(socket_last_error()) . "/n");
  echo "OK/nBinding the socket on $address:$port ... ";
  echo "OK/nNow ready to accept connections./nListening on the socket ... /n";
  do { // never stop the daemon
    //它接收连接请求并调用一个子连接Socket来处理客户端和服务器间的信息
    $msgsock = socket_accept($sock) or die("socket_accept() failed: reason: " . socket_strerror(socket_last_error()) . "/n");
    while(1){
      //读取客户端数据
      echo "Read client data /n";
      //socket_read函数会一直读取客户端数据,直到遇见/n,/t或者/0字符.PHP脚本把这写字符看做是输入的结束符.
      $buf = socket_read($msgsock, 8192);
      echo "Received msg: $buf  /n";
      if($buf == "bye"){
        //接收到结束消息,关闭连接,等待下一个连接
        socket_close($msgsock);
        continue;
      } //Cuoxin.com
      //数据传送 向客户端写入返回结果
      $msg = "welcome /n";
      socket_write($msgsock, $msg, strlen($msg)) or die("socket_write() failed: reason: " . socket_strerror(socket_last_error()) ."/n");
    }
  } while (true);
  socket_close($sock);
  ?>
  3、客户端程序SocketClient.php
 
  <?php
  set_time_limit(0);
  $host = "127.0.0.1";
  $port = 3046;
  $socket = socket_create(AF_INET, SOCK_STREAM, SOL_TCP)or die("Could not create socket/n");
  $connection = socket_connect($socket, $host, $port) or die("Could not connet server/n");
  socket_write($socket, "hello socket") or die("Write failed/n");
  while ($buff = socket_read($socket, 1024, PHP_NORMAL_READ)) {
    echo("Response was:" . $buff . "/n");
    echo("input what you want to say to the server:/n");
    $text = fgets(STDIN);
    socket_write($socket, $text);
  }
  socket_close($socket);
  ?>
  4、测试
 
  运行服务端程序:C:wampbinphpphp5.4.16php.exe C:wampwwwSocketServer.php
 
  运行客户端程序: C:wampbinphpphp5.4.16php.exe C:wampwwwSocketClient.php
 
  如果遇到
 
  Fatal error: Call to undefined function socket_create()。
 
  1. 找到php.ini,看 extension=php_gd2.dll   和  extension=php_sockets.dll 扩展是否打开;
 
  2. 看phpInfo()显示的内容里,socket模块是否为enable;
 
  我检查了一下,发现都是符合的。但错误仍然出现?怎么回事呢?
 
  后来我才发现,原来是我在phpInfo()里看到的和在cmd窗口里使用的php不是同一个东西。
 
  原因是我多次安装过php. 先前的php在系统的环境变量里面注册了path。所以在cmd窗口里使用的是以前的php. 而在phpInfo()里显示的是现在的php的设置。
 
  解决的办法很简单了,就把系统环境变量里的path里,指向老的Php的路径改为指向正在使用的Php的路径。这样在cmd里的php和在浏览器里的php就是同一个东西了。
 
  就是这样。
 
  5、其流程与C语言很相似,实际上就是封装了C语言的socket。抓取方法如下:首先在浏览器里打开阅读页面,查看源代码后发现小说的内容并不是直接写在页面里的,也就是说小说的内容是通过异步加载而来的。
 
  于是将chrome的开发者工具切到network一栏,刷新阅读页面,主要关注的是XHR和script两个分类下。
 
  经过排查,发现在script分类下有个jsonp请求比较像是小说内容,请求的地址是
 
  http://wenku.baidu.com/content/49422a3769eae009581becba?m=8ed1dedb240b11bf0731336eff95093f&type=json&cn=1&_=1&t=1423309200&callback=wenku7
 
  返回的是一个jsonp字符串,然后我发现,如果把地址里面的callback=wenku7去掉,返回的就是一个json字符串,这样解析起来就方便不少,可以直接在php里面转换成数组。
 
  再来分析一下返回数据的结构,返回的json字符串之后是一个树状的结构,每个节点都有一个t属性和c属性,t属性用来指明这个节点的标签,比如h2 div等等,c属性就是内容了,但也有两种可能,一个是字符串,另一个是数组,数组的每个元素都是一个节点。
 
  这种结构最好解析了,用一个递归就搞定,最终代码如下:
 
  <?php
  
  classBaiduYuedu {
  
   protected$bookId;
  
   protected$bookToken;
  
   protected$cookie;
  
   protected$result;
  
   publicfunction__construct($bookId,$bookToken,$cookie){
  
    $this->bookId =$bookId;
  
    $this->bookToken =$bookToken;
  
    $this->cookie =$cookie;
  
   }
  
   publicstaticfunctionparseNode($node){
  
    $str=''
  
    if(is_string($node['c'])){
  
     $str.=$node['c'];
  
    }elseif(is_array($node['c'])){
  
     foreach($node['c']as$d){
  
      $str.= self::parseNode($d);
  
     }
  
    }
  
    switch($node['t']){
  
     case'h2':
  
      $str.="/n/n";
  
      break;
  
     case'br':
  
     case'div':
  
     case'p':
  
      $str.="/n";
  
      break;
  
     case'img':
  
     case'span':
  
      break;
  
     case'obj':
  
      $tmp='('. self::parseNode($node['data'][0]) .')'
  
      $str.=str_replace("/n",'',$tmp);
  
      break;
  
     default:
  
      trigger_error('Unkown type:'.$node['t'], E_USER_WARNING);
  
      break;
  
    }
  
    return$str;
  
   }
  
   publicfunctionget($page= 1){
  
    echo"getting page {$page}.../n";
  
    $ch= curl_init();
  
    $url= sprintf('http://wenku.baidu.com/content/%s/?m=%s&type=json&cn=%d',$this->bookId,$this->token,$page);
  
    curl_setopt_array($ch,array(
  
     CURLOPT_URL   =>$url,
  
     CURLOPT_RETURNTRANSFER => 1,
  
     CURLOPT_HEADER   => 0,
  
     CURLOPT_HTTPHEADER  =>array('Cookie: '.$this->cookie)
  
    ));
  
    $ret= json_decode(curl_exec($ch), true);
  
    curl_close($ch);
  
    $str=''
  
    if(!emptyempty($ret)){
  
     $str.= self::parseNode($ret);
  
     $str.=$this->get($page+ 1);
  
    }
  
    return$str;
  
   }
  
   publicfunctionstart(){
  
    $this->result =$this->get();
  
   }
  
   publicfunctiongetResult(){
  
    return$this->result;
  
   }
  
   publicfunctionsaveTo($path){
  
    if(emptyempty($this->result)){
  
     trigger_error('Result is empty', E_USER_ERROR);
  
     return;
  
    }
  
    file_put_contents($path,$this->result);
  
    echo"save to {$path}/n";
  
   }
  
  }
  //Cuoxin.com
  //使用示例
  
  $yuedu=newBaiduYuedu(�a3769eae009581becba',Ǝed1dedb240b11bf0731336eff95093f','你的百度域cookie');
  
  $yuedu->start();
  
  $yuedu->saveTo('result.txt');
  这个类前两个参数可以从小说的介绍页面获得,第一个参数bookId就是url里ebook后面跟着的字符串,第二个参数bookToken在页面源代码搜索bdjsonUrl,m参数后面的那个字符串就是。
 
  注:如果不传入百度cookie或者百度cookie无效,则只能抓取免费阅读部分,要抓完整的内容必须保证cookie可以正常使用。
 
  总结:以上就是这篇文章的全部内容了,希望本文的内容对大家学习或者使用PHP能有一定的帮助,如果有疑问大家可以留言交流。

(编辑:云计算网_泰州站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    热点阅读