几种PHP实现网页抓取的程序代码

更新时间：2016年11月25日 15:38 点击：1807

网页抓取就像搜索引擎一个可以去自动抓取其它服务器上的内容了，下面我整理的几个php常用做法，大家一起来看看。

抓取某一个网页中的内容，需要对DOM树进行解析，找到指定节点后，再抓取我们需要的内容，过程有点繁琐。LZ总结了几种常用的、易于实现的网页抓取方式，如果熟悉JQuery选择器，这几种框架会相当简单。

一、Ganon

项目地址： http://code.google.com/p/ganon/

文档： http://code.google.com/p/ganon/w/list

测试:抓取我的网站首页所有class属性值是focus的div元素，并且输出class值

<?php
 include 'ganon.php';
 $html = file_get_dom('http://www.111cn.net/');
 foreach($html('div[class="focus"]') as $element) {
   echo $element->class, "<br>n"; 
 }
?>

结果:

二、phpQuery

项目地址：http://code.google.com/p/phpquery/

文档：https://code.google.com/p/phpquery/wiki/Manual

测试：抓取我网站首页的article标签元素，然后出书其下h2标签的html值

<?php
include 'phpQuery/phpQuery.php'; 
phpQuery::newDocumentFile('http://www.111cn.net/'); 
$artlist = pq("article"); 
foreach($artlist as $title){ 
   echo pq($title)->find('h2')->html()."<br/>"; 
} 
?>

结果：

三、Simple-Html-Dom

项目地址： http://simplehtmldom.sourceforge.net/
文档： http://simplehtmldom.sourceforge.net/manual.htm

测试：抓取我网站首页的所有链接

<?php
include 'simple_html_dom.php';
//使用url和file都可以创建DOM
$html = file_get_html('http://www.111cn.net/');

//找到所有图片
// foreach($html->find('img') as $element)
//        echo $element->src . '<br>';

//找到所有链接
foreach($html->find('a') as $element)
       echo $element->href . '<br>'; 
?>

结果：（截图是一部分）

四、Snoopy

项目地址：http://code.google.com/p/phpquery/

文档：http://code.google.com/p/phpquery/wiki/Manual

测试：抓取我的网站首页

<?php
include("Snoopy.class.php");
$url = "http://www.111cn.net";
$snoopy = new Snoopy;
$snoopy->fetch($url); //获取所有内容
 echo $snoopy->results; //显示结果
// echo $snoopy->fetchtext ;//获取文本内容（去掉html代码）
// echo $snoopy->fetchlinks($url) ;//获取链接
// $snoopy->fetchform ;//获取表单 
?>

结果：

五、手动编写爬虫

如果编写能力ok，可以手写一个网页爬虫，实现网页抓取。网上有千篇一律的介绍此方法的文章，LZ就不赘述了。有兴趣了解的，可以百度 php 网页抓取。

七、开源爬虫软件汇总

发语言	软件名称	软件介绍	许可证
Java	Arachnid	微型爬虫框架，含有一个小型HTML解析器	GPL
	crawlzilla	安装简易，拥有中文分词功能	Apache2
	Ex-Crawler	由守护进程执行，使用数据库存储网页信息	GPLv3
	Heritrix	严格遵照robots文件的排除指示和META robots标签	LGPL
	heyDr	轻量级开源多线程垂直检索爬虫框架	GPLv3
	ItSucks	提供swing GUI操作界面	不详
	jcrawl	轻量、性能优良，可以从网页抓取各种类型的文件	Apache
	JSpider	功能强大，容易扩展	LGPL
	Leopdo	包括全文和分类垂直搜索，以及分词系统	Apache
	MetaSeeker	网页抓取、信息提取、数据抽取工具包，操作简单	不详
	Playfish	通过XML配置文件实现高度可定制性与可扩展性	MIT
	Spiderman	灵活、扩展性强，微内核+插件式架构，通过简单的配置就可以完成数据抓取，无需编写一句代码	Apache
	webmagic	功能覆盖整个爬虫生命周期，使用Xpath和正则表达式进行链接和内容的提取	Apache
	Web-Harvest	运用XSLT、XQuery、正则表达式等技术来实现对Text或XML的操作，具有可视化的界面	BSD
	WebSPHINX	由两部分组成：爬虫工作平台和WebSPHINX类包	Apache
	YaCy	基于P2P的分布式Webseo/seo.html" target="_blank">搜索引擎	GPL
Python	QuickRecon	具有查找子域名名称、收集电子邮件地址并寻找人际关系等功能	GPLv3
	PyRailgun	简洁、轻量、高效的网页抓取框架	MIT
	Scrapy	基于Twisted的异步处理框架，文档齐全	BSD
C++	hispider	支持多机分布式下载, 支持网站定向下载	BSD
	larbin	高性能的爬虫软件，只负责抓取不负责解析	GPL
	Methabot	经过速度优化、可抓取WEB、FTP及本地文件系统	不详
	Methanol	模块化、可定制的网页爬虫，速度快	不详
C#	NWebCrawler	统计信息、执行过程可视化	GPLv2
	Sinawler	国内第一个针对微博数据的爬虫程序，功能强大	GPLv3
	spidernet	以递归树为模型的多线程web爬虫程序，支持以GBK (gb2312)和utf8编码的资源，使用sqlite存储数据	MIT
	Web Crawler	多线程，支持抓取PDF/DOC/EXCEL等文档来源	LGPL
	网络矿工	功能丰富，毫不逊色于商业软件	BSD
PHP	OpenWebSpider	开源多线程网络爬虫，有许多有趣的功能	不详
	PhpDig	适用于专业化强、层次更深的个性化搜索引擎	GPL
	Snoopy	具有采集网页内容、提交表单功能	GPL
	ThinkUp	采集推特、脸谱等社交网络数据的社会媒体视角引擎，可进行交互分析并将结果以可视化形式展现	GPL
	微购	可采集淘宝、京东、当当等300多家电子商务数据	GPL
ErLang	Ebot	可伸缩的分布式网页爬虫	GPLv3
Ruby	Spidr	可将一个或多个网站、某个链接完全抓取到本地	MIT

简单的说time()与$_SERVER["REQUEST_TIME"]都是获得时间了，但time返回当前的 Unix 时间戳而$_SERVER["REQUEST_TIME"]得到请求开始时的时间戳了了，稍有区别哦。

1) time() 获取当前的系统时间戳

int time(void) :

返回当前的 Unix 时间戳 (返回自从 Unix 纪元（格林威治时间 1970 年 1 月 1 日 00:00:00）到当前时间的秒数。 )

自 PHP 5.1 起在 $_SERVER['REQUEST_TIME'] 中保存了发起该请求时刻的时间戳。

$_SERVER["REQUEST_TIME"] ：The timestamp of the start of the request. Available since PHP 5.1.0. 一看解释就都明白了

2) $_SERVER["REQUEST_TIME"] 得到请求开始时的时间戳

实例代码:

代码如下	复制代码
<?php date_default_timezone_set('PRC'); sleep(5);//php脚本睡5秒 echo date('Y-m-d H:i:s',time());//获取当前系统时间的时间戳 echo '<hr />'; echo date('Y-m-d H:i:s',$_SERVER['REQUEST_TIME']);//得到请求此php脚本时的时间戳 ?>

输出结果截图如下:

php中time()与$_SERVER["REQUEST_TIME"]比较

结论:

因为sleep(5)睡了5秒，之后用time()获取系统的时间戳，$_SERVER['REQUEST_TIME']则记录了发起此请求时刻的时间戳。所以$_SERVER['REQUEST_TIME']比用time()获取的时间戳早5秒

在工作项目中有一个需求，要把数一些数据转成数组，然后再存到数库库一个字段中，个人目前知道两种方法，一种是用序列化函数serialize($arr);，还有一种是用php的json扩展自带的函数json_encode($arr);。

要把数一个数组，存到数据库的一个字段中，有两种方法，一种是用序列化函数serialize($arr);还有一种是用php的json扩展自带的函数json_encode($arr);如果json_encode对含有中文的字符进行编码时，会自动转换成unicode编码。就像这样：a:2:{s:4:”code”;s:1:”1″;s:3:”msg”;s:9:”PHP日志”;}，虽然js上能正常处理，但是看起来还是不那爽，在PHP的官方网站上面找到一个函数，可以解决这个问题，也就是将数据转换json，而且中文不会被转换为unicode码。

代码如下

复制代码

<?php
function php2js($a=false)
{
if (is_null($a)) return 'null';
if ($a === false) return 'false';
if ($a === true) return 'true';
if (is_scalar($a))
{
    if (is_float($a))
    {
      // Always use "." for floats.
      $a = str_replace(",", ".", strval($a));
    }

    // All scalars are converted to strings to avoid indeterminism.
    // PHP's "1" and 1 are equal for all PHP operators, but
    // JS's "1" and 1 are not. So if we pass "1" or 1 from the PHP backend,
    // we should get the same result in the JS frontend (string).
    // Character replacements for JSON.
    static $jsonReplaces = array(array("", "/", "n", "t", "r", "b", "f", '"'),
    array('\', '/', 'n', 't', 'r', 'b', 'f', '"'));
    return '"' . str_replace($jsonReplaces[0], $jsonReplaces[1], $a) . '"';
}
$isList = true;
for ($i = 0, reset($a); $i < count($a); $i++, next($a))
{
    if (key($a) !== $i)
    {
      $isList = false;
      break;
    }
}
$result = array();
if ($isList)
{
    foreach ($a as $v) $result[] = php2js($v);
    return '[ ' . join(', ', $result) . ' ]';
}
else
{
    foreach ($a as $k => $v) $result[] = php2js($k).': '.php2js($v);
    return '{ ' . join(', ', $result) . ' }';
}
}
?>

使用方法一：

echo serialize(array(‘code’=>’1′,’msg’=>’PHP日志’));
输出：a:2:{s:4:”code”;s:1:”1″;s:3:”msg”;s:9:”PHP日志”;}

使用方法二：

echo json_encode(array(‘code’=>’1′,’msg’=>’PHP日志’));
输出：{“code”:”1″,”msg”:”PHPu65e5u5fd7″}

使用方法三：

echo php2js(array(‘code’=>’1′,’msg’=>’未知错误’));
输出：{ “code”: “1”, “msg”: “PHP日志” }

下面来给各位介绍php中的相关函数，我们利用这些函数可以获得当前php使用内存的具体情况哦，希望例子可以帮助到各位哦。

cPHP内置函数memory_get_usage()能返回当前分配给PHP脚本的内存量，单位是字节（byte）。在WEB实际开发中，这些函数非常有用，我们可以使用它来调试PHP代码性能。
memory_get_usage()函数返回内存使用量，memory_get_peak_usage()函数返回内存使用峰值，getrusage()返回CUP使用情况。但有一点请注意，在这些函数需要在Linux上运行。
下面我们来看一个实例：

代码如下

复制代码

echo '开始内存：'.memory_get_usage(), '';
$tmp = str_repeat('hello', 1000);
echo '运行后内存：'.memory_get_usage(), '';
unset($tmp);
echo '回到正常内存：'.memory_get_usage();

输出结果：

开始内存：147296
运行后内存：152456
回到正常内存：147296

例子中，我们使用str_repeat()将字符串“hello”重复了1000遍，最终来对比前后消耗的内存大小。由上面的例子可以看出，要想减少内存的占用，可以使用unset() 函数把不再需要使用的变量删除。类似还有mysql_free_result() 函数，当我们不再需要查询数据得到的结果集时，可以使用释放查询占用的内存。
函数memory_get_usage()还可以有个参数，$real_usage，其值为布尔值。如果设置为 TRUE，获取系统分配的真实内存尺寸。如果未设置或者设置为 FALSE，将是 emalloc() 报告使用的内存量。
在实际WEB开发中，可以用PHP memory_get_usage()比较各个方法占用内存的高低，来选择使用哪种占用内存小的方法。
函数memory_get_usage()返回的字节数（单位为 byte(s)）。下面这个自定义函数将字节数转换成MB更容易阅读：

代码如下	复制代码
function memory_usage() { $memory = ( ! function_exists('memory_get_usage')) ? '0' : round(memory_get_usage()/1024/1024, 2).'MB'; return $memory; }

常用的调试检测PHP代码性能的方法有：
memory_get_usage可以分析内存占用空间。
用microtime函数就可以分析程序执行时间。

生成静态页的页面非常的简单就是定义好模板与模板标题，之后利用str_replace进行替换了,是最常用的方法，另一种是利用ob_get_contents输出获得然后生成html，还有一种不怎么推荐的是使用file_get_contents直接执行访问远程文件然后进行保存，性能极差。

方法简单说明如下：
1．使用文件函数得到静态页面的模板字符串，然后用str_replace函数将需要替换的东西替换了再写入到新的文件中。
2．利用PHP的输出控制函数（Output Control）得到静态页面字符串，再写入到新的文件中。

代码如下	复制代码
$filemodel="template/it.php"; #模板地址 $file=fopen($filemodel,"rb"); #打开模板，得到文件指针 $temp=fread($file,filesize($filemodel)); #得到模板文件html代码

方法一：ob_get_contents()
这是一种很方便的方法，也是很常用的方法，实现原理是：首先打开缓存，然后创建相应的静态页文件，写入缓存的内容，清空缓存。
示例：

代码如下	复制代码
ob_strart();#打开缓冲区 $fn=date('ymdhis').rand(1000,9999).'html';//生成文件名 require("supply.php");#载入要生成静态页的文件，因为后台有ob_clen()所以在不会显示出来 $fs=fopen($fn,'w');#打开静态页文件 fwrite($fs,ob_get_contents());#生成静态文件 ob_clean();#清空缓存

方法二：file_get_contents();

代码如下	复制代码
$fn=date('ymdhis').rand(1000,9999).'html'; $url= 'http://'.$_SERVER['HTTP_HOST']."/";#注意 $content=file_get_contents($url); $fs=fopen($fn,'w'); fwrite($fs,$content);

下面对上面的注意进行一下解释，如果在些你使用的是仅仅是文件名，而不是URL那么您这个文件中如果有使用引用文件比如require (‘header.php’); 那么header.php中的内容将会显示不出来。
方法三：str_replace()

代码如下	复制代码
$filemodel="supply.php"; 　　字串5$file=fopen($filemodel,"w+"); $temp=fread($file,filesize($filemodel)); $temp=str_replace("[title]",$title,$temp); $temp=str_replace("[postTime]",$postTime,$temp); $temp=str_replace("[content]",$content,$temp);

该方法适用于很简单的页面，如果supply.php中有使用引用文件比如require (‘header.php’);那么header.php中的内容将会显示不出来
在实际应用中，您可以写一个生成静态页的类，

代码如下

复制代码

/*+++
|
| Author :陈毓端
| 使用方法
|   $shtml = new Shtml($Url,$FileBag,$FolderName,$fileid)
|   $Url：       页面 URL 地址
|   $FileBag：   文件夹标记   1 为：指定文件夹
|         2 为：默认文件夹(时间(年月日))
|        $FolderRoot html文件存放路径
|   $FolderName 指定文件夹的名称 $FileBag为2时可以写为空("");
|   $fileid      静态页面名称(后缀默认为 .html)
|
|
|
/*++*/
class Shtml
{
var $message1="Error    1: You write class Shtml is Wrong !   The second parameter is 1 or 2 in   this class!.";
var $message2="Error    2: The file write    Error.";
function __construct ($Url,$FileBag,$FolderRoot,$FolderName,$fileid)
{
$this->Url   = $Url;
$this->FileBag   = $FileBag;
$this->FileRoot = $FolderRoot;
$this->FileName = $FolderName;
$this->fileid    = $fileid;
Shtml::useFolder ();
}
/*************获取数据*******************/
public function loadcontent ($Folder)
{
ob_start();
require_once $this->Url;
Shtml::writehtml ($Folder,ob_get_contents());
ob_clean();
}
/********** 指定文件夹*****************/
public function useFolder ()
{
if($this->FileBag==1)
{
$Folder=$this->FileName;
}
else if($this->FileBag==2)
{
$Folder=date('Ymd',time());
}
else
{
exit($this->message1);
}
if(!is_dir($this->FileRoot.$Folder)){ mkdir($this->FileRoot.$Folder,0700);}
Shtml::loadcontent ($Folder);
}
/********** 生成静态页面*****************/
public function writehtml ($Folder,$cache_value)
{
$file   = fopen($this->FileRoot.$Folder.'/'.$this->fileid.'.html','w+');
fwrite($file,$cache_value);
fclose($file);
}
}
$fileid=2;
$shtml = new Shtml("http://www.111cn.net",1,"","cc",$fileid);

总结，这个生成html程序代码没有生成分页了，如果文章很多它也只生成一篇文章哦，如果要改进我们需要进行比较大的改动了，在此就不介绍了。

[!--infotagslink--]

上一篇: php中time()与$_SERVER["REQUEST_TIME"]比较

下一篇: 用PHP将一个数组存到数据库的一个字段的方法

php语言实现redis的客户端
php语言实现redis的客户端与服务端有一些区别了因为前面介绍过服务端了这里我们来介绍客户端吧，希望文章对各位有帮助。为了更好的了解redis协议，我们用php来实现...2016-11-25
jQuery+jRange实现滑动选取数值范围特效
有时我们在页面上需要选择数值范围，如购物时选取价格区间，购买主机时自主选取CPU，内存大小配置等，使用直观的滑块条直接选取想要的数值大小即可，无需手动输入数值，操作简单又方便。HTML首先载入jQuery库文件以及jRange相关...2015-03-15
不打开网页直接查看网站的源代码
　　有一种方法，可以不打开网站而直接查看到这个网站的源代码.. 　　这样可以有效地防止误入恶意网站... 　　在浏览器地址栏输入：　　view-source:http://...2016-09-20
php 调用goolge地图代码
<?php require('path.inc.php'); header('content-Type: text/html; charset=utf-8'); $borough_id = intval($_GET['id']); if(!$borough_id){ echo ' ...2016-11-25
JS基于Mootools实现的个性菜单效果代码
本文实例讲述了JS基于Mootools实现的个性菜单效果代码。分享给大家供大家参考，具体如下：这里演示基于Mootools做的带动画的垂直型菜单，是一个初学者写的，用来学习Mootools的使用有帮助，下载时请注意要将外部引用的mootools...2015-10-23
JS实现的简洁纵向滑动菜单(滑动门)效果
本文实例讲述了JS实现的简洁纵向滑动菜单(滑动门)效果。分享给大家供大家参考，具体如下：这是一款纵向布局的CSS+JavaScript滑动门代码，相当简洁的手法来实现，如果对颜色不满意，你可以试着自己修改CSS代码，这个滑动门将每一...2015-10-21
JS+CSS实现分类动态选择及移动功能效果代码
本文实例讲述了JS+CSS实现分类动态选择及移动功能效果代码。分享给大家供大家参考，具体如下：这是一个类似选项卡功能的选择插件，与普通的TAb区别是加入了动画效果，多用于商品类网站，用作商品分类功能，不过其它网站也可以用，...2015-10-21
JS实现自定义简单网页软键盘效果代码
本文实例讲述了JS实现自定义简单网页软键盘效果。分享给大家供大家参考，具体如下：这是一款自定义的简单点的网页软键盘，没有使用任何控件，仅是为了练习JavaScript编写水平，安全性方面没有过多考虑，有顾虑的可以不用，目的是学...2015-11-08
php 取除连续空格与换行代码
php 取除连续空格与换行代码，这些我们都用到str_replace与正则函数第一种： $content=str_replace("n","",$content); echo $content; 第二种： $content=preg_replac...2016-11-25
php简单用户登陆程序代码
php简单用户登陆程序代码这些教程很对初学者来讲是很有用的哦，这款就下面这一点点代码了哦。 <center> <p> </p> <p> </p> <form name="form1...2016-11-25
PHP实现清除wordpress里恶意代码
公司一些wordpress网站由于下载的插件存在恶意代码，导致整个服务器所有网站PHP文件都存在恶意代码，就写了个简单的脚本清除。恶意代码示例...2015-10-23
JS实现双击屏幕滚动效果代码
本文实例讲述了JS实现双击屏幕滚动效果代码。分享给大家供大家参考，具体如下：这里演示双击滚屏效果代码的实现方法，不知道有觉得有用处的没，现在网上还有很多还在用这个特效的呢，代码分享给大家吧。运行效果截图如下：在线演...2015-10-30
js识别uc浏览器的代码
其实挺简单的就是if(navigator.userAgent.indexOf('UCBrowser') > -1) {alert("uc浏览器");}else｛//不是uc浏览器执行的操作｝如果想测试某个浏览器的特征可以通过如下方法获取JS获取浏览器信息浏览器代码名称：navigator...2015-11-08
jQuery+slidereveal实现的面板滑动侧边展出效果
我们借助一款jQuery插件：slidereveal.js，可以使用它控制面板左右侧滑出与隐藏等效果，项目地址：https://github.com/nnattawat/slideReveal。如何使用首先在页面中加载jquery库文件和slidereveal.js插件。复制代码代码如...2015-03-15
JS日期加减,日期运算代码
一、日期减去天数等于第二个日期function cc(dd,dadd){//可以加上错误处理var a = new Date(dd)a = a.valueOf()a = a - dadd * 24 * 60 * 60 * 1000a = new Date(a)alert(a.getFullYear() + "年" + (a.getMonth() +...2015-11-08
PHP+jQuery翻板抽奖功能实现
翻板抽奖的实现流程：前端页面提供6个方块，用数字1-6依次表示6个不同的方块，当抽奖者点击6个方块中的某一块时，方块翻转到背面，显示抽奖中奖信息。看似简单的一个操作过程，却包含着WEB技术的很多知识面，所以本文的读者应该熟...2015-10-21
PHP开发微信支付的代码分享
微信支付，即便交了保证金，你还是处理测试阶段，不能正式发布。必须到你通过程序测试提交订单、发货通知等数据到微信的系统中，才能申请发布。然后，因为在微信中是通过JS方式调用API，必须在微信后台设置支付授权目录，而且要到...2014-05-31
SQLMAP结合Meterpreter实现注入渗透返回shell
sqlmap 是一个自动SQL 射入工具。它是可胜任执行一个广泛的数据库管理系统后端指印, 检索遥远的DBMS 数据库等，下面我们来看一个学习例子。自己搭建一个PHP+MYSQ...2016-11-25
PHP常用的小程序代码段
本文实例讲述了PHP常用的小程序代码段。分享给大家供大家参考，具体如下：1.计算两个时间的相差几天$startdate=strtotime("2009-12-09");$enddate=strtotime("2009-12-05");上面的php时间日期函数strtotime已经把字符串...2015-11-24
php根据用户语言跳转相应网页
当来访者浏览器语言是中文就进入中文版面，国外的用户默认浏览器不是中文的就跳转英文页面。 <?php $lan = substr( $HTTP_ACCEPT_LANGUAGE,0,5); if ($lan == "zh-cn") print("<meta http-equiv='refresh' c...2015-11-08

几种PHP实现网页抓取的程序代码

相关文章

阁下可能感兴趣的内容

推荐阅读