当前位置:首页 > CN2资讯 > 正文内容

PHP采集类-Snoopy.class.php

2天前CN2资讯

Snoopy是一个php采集类,用来模拟浏览器获取网页内容和发送表单。

下面是一些Snoopy特性: 

  • 容易抓取网页内容
  • 容易抓取页面文本(去除HTML标签)
  • 容易抓取网页内链接
  • 支持代理抓取
  • 支持基本的用户名、密码认证
  • 支持设置user-agent,referer,cookies和header内容
  • 支持浏览器转向,和控制转向深度
  • 能把页面中的链接转化成高质量的链接
  • 容易提交数据和获得返还值
  • 能追踪HTML框架
  • 支持重定向的时候传递Cookies

Snoopy类,方法:

fetch($URI)

抓取网页的内容而使用的方法。$URI参数是被抓取网页的URL地址。抓取的结果被存储在 $this->results 中。如果你正在抓取的是一个框架,Snoopy将会将每个框架追踪后存入数组中,然后存入 $this->results。

fetchtext($URI)

本方法类似于fetch(),唯一不同的就是本方法会去除HTML标签和其他的无关数据,只返回网页中的文字内容。

fetchform($URI)

本方法类似于fetch(),唯一不同的就是本方法会去除HTML标签和其他的无关数据,只返回网页中表单内容(form)。

fetchlinks($URI)

本方法类似于fetch(),唯一不同的就是本方法会去除HTML标签和其他的无关数据,只返回网页中链接(link)。默认情况下,相对链接将自动补全,转换成完整的URL。

submit($URI,$formvars)

本方法向$URL指定的链接地址发送确认表单。$formvars是一个存储表单参数的数组。

submittext($URI,$formvars)

本方法类似于submit(),唯一不同的就是本方法会去除HTML标签和其他的无关数据,只返回登陆后网页中的文字内容。

submitlinks($URI)

本方法类似于submit(),唯一不同的就是本方法会去除HTML标签和其他的无关数据,只返回网页中链接(link)。默认情况下,相对链接将自动补全,转换成完整的URL。

类属性: (缺省值在括号里)

  • $host 连接的主机
  • $port 连接的端口
  • $proxy_host 使用的代理主机,如果有的话
  • $proxy_port 使用的代理主机端口,如果有的话
  • $agent 用户代理伪装 (Snoopy v0.1)
  • $referer 来路信息,如果有的话
  • $cookies,如果有的话
  • $rawheaders 其他的头信息, 如果有的话
  • $maxredirs 最大重定向次数,0=不允许 (5)
  • $offsiteok whether or not to allow redirects off-site. (true)
  • $expandlinks 是否将链接都补全为完整地址 (true)
  • $user 认证用户名, 如果有的话
  • $pass 认证用户名, 如果有的话
  • $accept http 接受类型 (image/gif, image/x-xbitmap, image/jpeg, image/pjpeg, */*)
  • $error 哪里报错, 如果有的话
  • $response_code 从服务器返回的响应代码
  • $headers 从服务器返回的头信息
  • $maxlength 最长返回数据长度
  • $read_timeout 读取操作超时 (requires PHP 4 Beta 4+) 设置为0为没有超时
  • $timed_out 如果一次读取操作超时了,本属性返回 true (requires PHP 4 Beta 4+)
  • $maxframes 允许追踪的框架最大数量
  • $status 抓取的http的状态
  • $temp_dir 网页服务器能够写入的临时文件目录 (/tmp)
  • $curl_path cURL binary 的目录, 如果没有cURL binary就设置为 false

Snoopy官方网址:http://sourceforge.net/projects/snoopy/

    你可能想看:

    扫描二维码推送至手机访问。

    版权声明:本文由皇冠云发布,如需转载请注明出处。

    本文链接:https://www.idchg.com/info/26287.html

    分享给朋友:

    “PHP采集类-Snoopy.class.php” 的相关文章

    全面提升VPS性能测试与优化方法指南

    VPS性能测试概述 在使用VPS的过程中,了解它的性能测试显得尤为重要。VPS性能测试是一种评估虚拟专用服务器性能的手段,可以帮助我们清晰地了解VPS的状态与能力。这项测试不仅关注CPU型号、内存大小等硬件配置,还涵盖了磁盘存储量、操作系统版本以及虚拟化程序等多个方面的检测。通过这些参数,我们能对V...

    Atlantic VPS:高性能、灵活性与安全性的理想选择

    什么是Atlantic VPS? Atlantic VPS由Atlantic.net提供,这是一家在VPS托管服务领域中的资深者,已经经营了近29年。创建之初,Atlantic.net就定位于高性能和灵活性,以满足企业和开发者日益增长的需求。他们的目标是提供一种可靠的解决方案,让用户在自己的业务上更...

    推荐高效的CN2 GIA VPS解决方案与商家分析

    在如今快速发展的互联网时代,对于个人用户和企业来说,服务器的选择显得尤为重要。CN2 GIA VPS,作为一种高效的虚拟专用服务器,逐渐成为许多人青睐的选择。它是什么?到底能为我们提供什么样的服务呢?我来分享一下我对CN2 GIA VPS的理解。 CN2 GIA VPS,是一种通过中国电信的CN2...

    Vultr Cloud Computer与High Frequency服务器的全面对比

    在云服务的世界中,Vultr无疑是一个备受瞩目的名字。它提供两种主要的云服务器类型:Vultr Cloud Compute和High Frequency服务器。这两种服务器各有其独特之处,适合不同类型的用户和使用场景。 首先,Vultr Cloud Compute是其最基础的产品,主要以高性价比为卖...

    RackNerd Windows VPS的硬件条件与性能评测

    在选择虚拟服务器服务商时,硬件条件是我最关注的部分。RackNerd作为一家提供多种配置Windows VPS的服务商,其硬件条件非常吸引。接下来,我将详细介绍RackNerd在硬件配置方面的一些关键特点。 处理器配置 RackNerd使用的AMD Ryzen 3900X处理器,让人印象深刻。这个处...

    SSH工具:安全远程连接与数据传输的最佳选择

    SSH 工具概述 在网络安全日益受到重视的今天,SSH(Secure Shell Protocol)工具逐渐成为了我们进行安全远程连接的首选。简单来说,SSH 是一种加密的网络传输协议,它能在不安全的网络环境中提供安全的数据传输。这使得无论是在公司办公还是在家中,SSH 工具都极其重要,特别是对于那...