当前位置:首页 > CN2资讯 > 正文内容

PHP采集类:Snoopy.class.phpphp 获取

2天前CN2资讯


Snoopy是一个php采集类,用来模拟浏览器获取网页内容和发送表单。

下面是一些Snoopy特性: 

  • 容易抓取网页内容
  • 容易抓取页面文本(去除HTML标签)
  • 容易抓取网页内链接
  • 支持代理抓取
  • 支持基本的用户名、密码认证
  • 支持设置user-agent,referer,cookies和header内容
  • 支持浏览器转向,和控制转向深度
  • 能把页面中的链接转化成高质量的链接
  • 容易提交数据和获得返还值
  • 能追踪HTML框架
  • 支持重定向的时候传递Cookies

Snoopy类,方法:

fetch($URI)

抓取网页的内容而使用的方法。$URI参数是被抓取网页的URL地址。抓取的结果被存储在 $this->results 中。如果你正在抓取的是一个框架,Snoopy将会将每个框架追踪后存入数组中,然后存入 $this->results。

fetchtext($URI)

本方法类似于fetch(),唯一不同的就是本方法会去除HTML标签和其他的无关数据,只返回网页中的文字内容。

fetchform($URI)

本方法类似于fetch(),唯一不同的就是本方法会去除HTML标签和其他的无关数据,只返回网页中表单内容(form)。

fetchlinks($URI)

本方法类似于fetch(),唯一不同的就是本方法会去除HTML标签和其他的无关数据,只返回网页中链接(link)。默认情况下,相对链接将自动补全,转换成完整的URL。

submit($URI,$formvars)

本方法向$URL指定的链接地址发送确认表单。$formvars是一个存储表单参数的数组。

submittext($URI,$formvars)

本方法类似于submit(),唯一不同的就是本方法会去除HTML标签和其他的无关数据,只返回登陆后网页中的文字内容。

submitlinks($URI)

本方法类似于submit(),唯一不同的就是本方法会去除HTML标签和其他的无关数据,只返回网页中链接(link)。默认情况下,相对链接将自动补全,转换成完整的URL。

类属性: (缺省值在括号里)

  • $host 连接的主机
  • $port 连接的端口
  • $proxy_host 使用的代理主机,如果有的话
  • $proxy_port 使用的代理主机端口,如果有的话
  • $agent 用户代理伪装 (Snoopy v0.1)
  • $referer 来路信息,如果有的话
  • $cookies,如果有的话
  • $rawheaders 其他的头信息, 如果有的话
  • $maxredirs 最大重定向次数,0=不允许 (5)
  • $offsiteok whether or not to allow redirects off-site. (true)
  • $expandlinks 是否将链接都补全为完整地址 (true)
  • $user 认证用户名, 如果有的话
  • $pass 认证用户名, 如果有的话
  • $accept http 接受类型 (image/gif, image/x-xbitmap, image/jpeg, image/pjpeg, */*)
  • $error 哪里报错, 如果有的话
  • $response_code 从服务器返回的响应代码
  • $headers 从服务器返回的头信息
  • $maxlength 最长返回数据长度
  • $read_timeout 读取操作超时 (requires PHP 4 Beta 4+) 设置为0为没有超时
  • $timed_out 如果一次读取操作超时了,本属性返回 true (requires PHP 4 Beta 4+)
  • $maxframes 允许追踪的框架最大数量
  • $status 抓取的http的状态
  • $temp_dir 网页服务器能够写入的临时文件目录 (/tmp)
  • $curl_path cURL binary 的目录, 如果没有cURL binary就设置为 false


    你可能想看:

    扫描二维码推送至手机访问。

    版权声明:本文由皇冠云发布,如需转载请注明出处。

    本文链接:https://www.idchg.com/info/26470.html

    分享给朋友:

    “PHP采集类:Snoopy.class.phpphp 获取” 的相关文章

    Oracle 云:一站式云计算解决方案,助力企业高效运营

    Oracle Cloud 的定义与核心服务 Oracle Cloud 是由甲骨文公司推出的云计算服务平台,它提供了包括数据库、计算、存储、网络、人工智能和机器学习在内的广泛服务。这些服务旨在帮助企业和组织在云端高效运行和管理其应用与数据。Oracle Cloud 不仅仅是一个基础设施即服务(IaaS...

    如何在VPS上轻松安装模拟器:一步步指南与优化技巧

    在VPS上安装模拟器的第一步,就是选择一款适合你需求的模拟器。模拟器的种类很多,不同的模拟器针对不同的平台和用途设计。比如,如果你想在电脑上运行安卓应用或游戏,夜神模拟器是一个不错的选择。它基于Android内核,能够很好地模拟安卓系统的运行环境。对于iOS应用,Xcode自带的iOS模拟器则更为合...

    DMIT VPS评测:高性能与稳定性的完美结合

    在了解DMIT VPS之前,我想先分享一下我对这家公司的最初印象。记得第一次听到DMIT时,它的名字总是在VPS领域中流传。人们提到它时,无一不带着敬仰,增加了我对它的好奇心。自从它在2017年成立以来,DMIT便以其优秀的服务和产品迅速吸引了不少用户。我也开始关注起它背后的故事。 DMIT的崛起显...

    iHerb优惠码使用指南:最大化你的购物折扣

    在现代生活中,网络购物已经成为很多人日常消费的一部分,尤其是像iHerb这样的电商平台,提供了丰富的天然保健品和生活必需品。对于我们消费者来说,iHerb优惠码就是一个能够让购物更加实惠的绝佳工具。 iHerb优惠码是一种特殊的代码,用户在结账时输入这些代码,就可以享受相应的折扣。无论是新用户还是老...

    RackNerd优惠活动详解:如何享受高性价比虚拟主机和VPS折扣

    RackNerd是一家在2019年成立的美国主机商。虽然成立时间不久,它却迅速在市场上崭露头角,赢得了许多VPS用户的青睐。公司的数据中心分别位于洛杉矶、圣何塞、西雅图和纽约等地,这些地理位置的选择让它的服务在各个区域都有稳定的覆盖。从我个人的体验来说,RackNerd的性价比非常高,尤其在价格和服...

    腾讯云接入备案流程与注意事项详解

    在开始腾讯云接入备案之前,了解整个流程非常重要。备案是一个涉及多个步骤的过程,其中每一步都有其独特的要求和注意事项。接下来,我们就来看看腾讯云接入备案的具体流程,让你对这个过程有更清晰的认识。 首先,我们需要进行基础信息校验。这个步骤相对简单,主要是选择你希望备案的网站、域名或 APP。确保配置相关...