php curl采集远程页面内容演示代码

 更新时间:2016年11月25日 16:47  点击:1288
在php中可以采集远程页面的函数有很多,如有file_get_contents(),fopen,file()这些函数都可采集远程服务器数据,但是要算性能curl最可,他支持支持多线程.

 代码如下 复制代码

$curlPost = 'a=1&b=2';//模拟POST数据
$ch = curl_init();
curl_setopt($ch, CURLOPT_HTTPHEADER, array('X-FORWARDED-FOR:0.0.0.0', 'CLIENT-IP:0.0.0.0'));  //构造IP
curl_setopt($ch, CURLOPT_REFERER, "http://www.111cn.net/");   //构造来路
curl_setopt($ch,CURLOPT_URL, 'http://www.111cn.net');//需要抓取的页面路径
curl_setopt ($ch, CURLOPT_RETURNTRANSFER, 1);
curl_setopt ($ch, CURLOPT_TIMEOUT, 30);
curl_setopt($ch, CURLOPT_POSTFIELDS, $curlPost);//post值

$file_contents = curl_exec($ch);//抓取的内容放在变量中
curl_close($ch)

还有一种办法就是使用file_get_contents() 远程文件获取函数,用来获取远程页面内容

注意事项

curl()效率挺高的,支持多线程,不过需要开启下curl扩展。下面是curl扩展开启的步骤:

1、将PHP文件夹下的三个文件php_curl.dll,libeay32.dll,ssleay32.dll复制到system32下;

2、将php.ini(c:WINDOWS目录下)中的;extension=php_curl.dll中的分号去掉;
3、重启apache或者IIS。

在php中我们要把字符串转换在数组可使用函数有str_split()、explode(),preg_split()函数了,如果把数组转换在字符串我们也有一个函数implode()函数与直接把数组连接起来。

我们先来看字符串转换成数组

str_split()

<?php
print_r(str_split("Hello"));
?>

Array
(
[0] => H
[1] => e
[2] => l
[3] => l
[4] => o
)

explode()

<?php
$str = "Hello world. It's a beautiful day.";
print_r (explode(" ",$str));
?>

结果

Array
(
[0] => Hello
[1] => world.
[2] => It's
[3] => a
[4] => beautiful
[5] => day.
)

preg_split()函数

 代码如下 复制代码

<?
$user_info = "+J+++G+++++w";
$fields = preg_split("/+{1,}/", $user_info);
while ($x < sizeof($fields)) :
   print $fields[$x]. "<br>";
   $x++;
endwhile;
?>

总结在php中str_split()、explode()函数功能是一样的,这里就不介绍了。

把数组转换在字符串

implode()


 代码如下 复制代码

$array = array('a','b','c');

echo implode($array);

//结果  abc

本文章来给大家介绍debug_backtrace、debug_print_backtrace和匿名函数一些用法分析,有需要了解的同学不防进入参考。

debug_print_backtrace,与之不同的是它会直接打印回溯信息。

debug_print_backtrace() 是一个很低调的函数,很少有人注意过它.
不过当我对着一个对象调用另一个对象再调用其它的对象和文件中的一个函数出错时,它正在一边笑呢.
debug_print_backtrace() 可以打印出一个页面的调用过程 , 从哪儿来到哪儿去一目了然.
不过这是一个PHP5的专有函数,好在pear中已经有了实现,

一、debug_backtrace 它可以回溯跟踪函数的调用信息,可以说是一个调试利器

 代码如下 复制代码

one();
function one() {    two();     }
function two() {    three();  }
function three() {    print_r( debug_backtrace() );   }
/*输出:
Array(
     [0] => Array        (
            [file] => D:apmservwwwhtdocstestdebugindex.php
            [line] => 10
            [function] => three
            [args] => Array                (                )
      ),
      [1] => Array        (
           [file] => D:apmservwwwhtdocstestdebugindex.php
           [line] => 6
           [function] => two
           [args] => Array                (                )
      ),
      [2] => Array        (
           [file] => D:apmservwwwhtdocstestdebugindex.php
           [line] => 3
           [function] => one
           [args] => Array                (                )
      )
)*/

二、debug_print_backtrace 它与之不同的是它会直接打印回溯信息。

三、匿名函数

从PHP 5.3开始新增了匿名函数(Anonymous functions),也叫闭包函数(closures),关键字 use 同时也在匿名函数中。

先看一下匿名函数的示例,作为回调函数的参数

 代码如下 复制代码

<?php
echo preg_replace_callback('~-([a-z])~', function ($match) {
    return strtoupper($match[1]);
    }, 'hello-world'
);
// 输出 helloWorld
?>

连接闭包和外界变量的关键字:USE
闭包可以保存所在代码块上下文的一些变量和值。PHP在默认情况下,匿名函数不能调用所在代码块的上下文变量,而需要通过使用use关键字

 代码如下 复制代码


function test(){
    $num = 2;
    $array = array(1,2,3,4,5,6,7,8);
    print_r(array_filter($array, function($param)  use ($num){
    return $param % intval($num) ==0; })
);}
test();

在php中mt_rand()和rand()函数都是可以随机生成一个纯数字的,他们都是需要我设置好种子数据然后生成,那么mt_rand()和rand()那个性能会好一些呢,下面我带着疑问来测试一下。

例子 1. mt_rand() 范例

 代码如下 复制代码

<?php
echo mt_rand() . "n";
echo mt_rand() . "n";

echo mt_rand(5, 15);
?> 

上例的输出类似于:

1604716014
1478613278
6

 

注: 自 PHP 4.2.0 起,不再需要用 srand() 或 mt_srand() 函数给随机数发生器播种,现已自动完成。

注: 在 3.0.7 之前的版本中,max 的含义是 range。要在这些版本中得到和上例相同 5 到 15 的随机数,简短的例子是 mt_rand (5, 11)。

参见 mt_srand(),mt_getrandmax() 和 rand()。


rand() 函数返回随机整数。

语法

rand(min,max)参数 描述
min,max 可选。规定随机数产生的范围。

说明

如果没有提供可选参数 min 和 max,rand() 返回 0 到 RAND_MAX 之间的伪随机整数。例如,想要 5 到 15(包括 5 和 15)之间的随机数,用 rand(5, 15)。
提示和注释
注释:在某些平台下(例如 Windows)RAND_MAX 只有 32768。如果需要的范围大于 32768,那么指定 min 和 max 参数就可以生成大于 RAND_MAX 的数了,或者考虑用 mt_rand() 来替代它。

注释:自 PHP 4.2.0 起,不再需要用 srand() 或 mt_srand() 函数给随机数发生器播种,现在已自动完成。

注释:在 3.0.7 之前的版本中,max 的含义是 range 。要在这些版本中得到和上例相同 5 到 15 的随机数,简短的例子是 rand (5, 11)。


mt_rand()真的会比rand()快4倍吗?

带着这个疑问,一边自己测试一边看网上的介绍,测试如下。

mt_rand()和rand()对比测试一

测试代码:

 代码如下 复制代码

<?php
$max = 100000;
$timeparts = explode(' ',microtime());
$stime = $timeparts[1].substr($timeparts[0],1);
$i = 0;
while($i < $max) {
rand();
$i++;
}
$timeparts = explode(' ',microtime());
$etime = $timeparts[1].substr($timeparts[0],1);
$time = $etime-$stime;
echo "{$max} random numbers generated in {$time} seconds using rand();
";

$timeparts = explode(' ',microtime());
$stime = $timeparts[1].substr($timeparts[0],1);
$i = 0;
while($i < $max) {
mt_rand();
$i++;
}
$timeparts = explode(' ',microtime());
$etime = $timeparts[1].substr($timeparts[0],1);
$time = $etime-$stime;
echo "{$max} random numbers generated in {$time} seconds using mt_rand();
";
?>

结果:

第一次测试
100000 random numbers generated in 0.024894952774048 seconds using rand();
100000 random numbers generated in 0.028925895690918 seconds using mt_rand();
第二次测试
100000 random numbers generated in 0.03147292137146 seconds using rand();
100000 random numbers generated in 0.02997088432312 seconds using mt_rand();
第三次测试
100000 random numbers generated in 0.028102874755859 seconds using rand();
100000 random numbers generated in 0.02803111076355 seconds using mt_rand();
第四次测试
100000 random numbers generated in 0.025573015213013 seconds using rand();
100000 random numbers generated in 0.028030157089233 seconds using mt_rand();

这个结果只是几次的显示结果,多测试几次你会发觉,两者是交替变化的,其实两者没有太大的差异。

mt_rand()和rand()对比测试二

本人测试环境
操作系统:windows xp
apache 2.0
php 5.2.12
内存 2G

 代码如下 复制代码

<?php
function microtime_float()
{
    list($usec, $sec) = explode(" ", microtime());
    return ((float)$usec + (float)$sec);
}
$time_start = microtime_float();
for($i=0; $i<1000000; ++$i)
{
    rand();
}
$time_end = microtime_float();
$time = $time_end - $time_start;
echo "rand() cost $time secondsn";


$time_start = microtime_float();
for($i=0; $i<1000000; ++$i)
{
    mt_rand();
}
$time_end = microtime_float();
$time = $time_end - $time_start;
echo "mt_rand() cost $time secondsn";
?>

结果:
第一次
rand() cost 0.25919604301453 seconds
mt_rand() cost 0.28554391860962 seconds
第二次
rand() cost 0.31136202812195 seconds
mt_rand() cost 0.28973197937012 seconds
第三次
rand() cost 0.27545690536499 seconds
mt_rand() cost 0.27108001708984 seconds
第四次
rand() cost 0.26263308525085 seconds
mt_rand() cost 0.27727103233337 seconds

结果还是一样:两者用的时间是交替变化,其实两者没有太大的差异
php的mt_rand()与rand()对比结论

在网上看了很多别人的测试,有linux的还有windows环境的,大多数人得出的结果和我的一样:两者相差无几,不过也有人测出mt_rand()比rand()快4倍,但是由于他们没给出具体的测试环境,所以无法判断真假。我还是比较相信我的结论,因为我看到有人这样介绍mt_rand()与rand():


那为什么php手册上说mt_rand()比rand()快4倍呢?

这是因为mt_rand()使用的Mersenne Twister algorythm是1997的事,所以在10年前,和rand()在速度上的差异是(4倍)。
自2004年,rand()已经开始使用algorythm,所以现在它们速度上没有太大的区别

从上面的各种测试来看它们之间并没有区别,只是在不同系统中可能数值会有变化了。

magic_quotes_gpc方法是根据你php.ini配置来的,如果打开了magic_quotes_gpc就生成,他的作用与addslashes是一样的,下面我来详细介绍一下关于magic_quotes_gpc用法。

看了thinksaas部分源码,发现对$_POST/$_GET过来的数据处理方法是通过函数Add_S()进行的,即环境默认没有开启magic_quotes_gpc,就对提交过来的数据进行addslashes()处理。

一直对magic_quotes_gpc感到疑惑,前面我也有发过对magic_quotes_gpc的文章《magic_quotes_gpc和addslashes()的正确关系?》,现在再谈这个问题,就是想彻底搞明白这个东西,我已经在thinksaas官网提交了这个问题,等候答复,到时我把结果更新到本文。
问题1:现在要读取数据里的数据是不是读取后要进行stripslashes()处理,才能还原到原来的本来的数据状态?

问题2:我看很多其他程序都是反过来处理的,即如果环境开启magic_quotes_gpc了,就对提交过来的数据进行stripslashes()处理,然后再对数据进行htmlspecialchars()处理去替换掉那些特殊符号,我想问这种方法和thinksaas的处理方法哪种好?听说magic_quotes_gpc以后默认是不开启的。

typecho火车头发布接口,我处理post过来的数据就是采用问题2中的方法,不知道是不是最好的方法?

 

对提交过来的数据进行stripslashes()处理,然后再对数据进行htmlspecialchars()--这种方法我想没有啥优点吧。相比还是TS的好。如果特别点的网站,比如微博之类格式很少的,我看只须addslashed()就行,然后直接入库最好。
问题1没有人回答,不过我在这里可以自己回答,无论开没开magic_quotes_gpc,读取数据后都不需要再进行stripslashes()处理,因为保存的时候数据并没有加上额外的反斜线。

magic_quotes_gpc总结

1、处理方法

方法一:如果系统环境没有开启magic_quotes_gpc,就对提交过来的数据进行addslashes()处理。
方法二:如果系统环境开启magic_quotes_gpc,就对提交过来的数据进行stripslashes()处理,最后再对数据进行htmlspecialchars()处理去掉那些特殊符号。

2、最好的方法如那个兄弟说的一样,简单的入库就直接addslashed()后入库就可以了;如果需要对字符串进行比较复杂的处理后再入库,一般需要先去掉magic_quotes_gpc自动添加的反斜线,然后进行字符串的处理,处理完后再addslashed()或者htmlspecialchars()处理,最后入库。虽然一般是这样,但是还是要根据实际灵活采取方法的。

2012-10-21日更新

最最好的方法是:去掉magic_quotes_gpc自动添加的反斜线,然后在数据库操作类里把所有入库的操作都先addslashed(),再入库


现在看看官方操作怎么说的


先看下手册上怎么说的吧!

对一般人来说看下前两段就可以了

Magic Quotes

代码:
Magic Quotes is a process that automagically escapes incoming data to the PHP script. It's preferred to code with magic quotes off and to instead escape the data at runtime, as needed.
What are Magic Quotes


代码:
When on, all ' (single-quote), " (double quote), (backslash) and NULL characters are escaped with a backslash automatically. This is identical to what addslashes() does.

There are three magic quote directives:
magic_quotes_gpc

代码:
Affects HTTP Request data (GET, POST, and COOKIE). Cannot be set at runtime, and defaults to on in PHP.
magic_quotes_runtime

代码:
If enabled, most functions that return data from an external source, including databases and text files, will have quotes escaped with a backslash. Can be set at runtime, and defaults to off in PHP.
magic_quotes_sybase

代码:
If enabled, a single-quote is escaped with a single-quote instead of a backslash. If on, it completely overrides magic_quotes_gpc. Having both directives enabled means only single quotes are escaped as ''. Double quotes, backslashes and NULL's will remain untouched and unescaped.
Why use Magic Quotes

 


1 Useful for beginners

Magic quotes are implemented in PHP to help code written by beginners from being dangerous. Although SQL Injection is still possible with magic quotes on, the risk is reduced.

2Convenience

For inserting data into a database, magic quotes essentially runs addslashes() on all Get, Post, and Cookie data, and does so automagically.


Why not to use Magic Quotes

 


1 Portability

代码:
Assuming it to be on, or off, affects portability. Use get_magic_quotes_gpc() to check for this, and code accordingly.
2 Performance

代码:
Because not every piece of escaped data is inserted into a database, there is a performance loss for escaping all this data. Simply calling on the escaping functions (like addslashes()) at runtime is more efficient.

Although php.ini-dist enables these directives by default, php.ini-recommended disables it. This recommendation is mainly due to performance reasons.
3 Inconvenience

代码:
Because not all data needs escaping, it's often annoying to see escaped data where it shouldn't be. For example, emailing from a form, and seeing a bunch of ' within the email. To fix, this may require excessive use of stripslashes().
这些英文实在是需要像我这类人有足够的耐心啊(不是说我有耐心,而是我英语烂),刚才也说了,对于一般人只看下前两段就可以了,特别是我用红色标出来的字!!!

get_magic_quotes_gpc

取得 PHP 环境变数 magic_quotes_gpc 的值。

语法: long get_magic_quotes_gpc(void);

传回值: 长整数

函式种类: PHP 系统功能

内容说明


本函式取得 PHP 环境设定的变数 magic_quotes_gpc (GPC, Get/Post/Cookie) 值。传回 0 表示关闭本功能;传回 1 表示本功能开启。当 magic_quotes_gpc 开启时,所有的 &#39; (单引号), " (双引号), '' (反斜线) and 空字符会自动转为含有反斜线的溢出字符。

addslashes -- 使用反斜线引用字符串

描述
string addslashes ( string str)

返回字符串,该字符串为了数据库查询语句等的需要在某些字符前加上了反斜线。这些字符是单引号(&#39;)、双引号(")、反斜线('')与 NUL(NULL 字符)。

一个使用 addslashes() 的例子是当你要往数据库中输入数据时。例如,将名字 O&#39;reilly 插入到数据库中,这就需要对其进行转义。大多数据库使用 '' 作为转义符:O''&#39;reilly。这样可以将数据放入数据库中,而不会插入额外的 ''。当 PHP 指令 magic_quotes_sybase 被设置成 on 时,意味着插入 &#39; 时将使用 &#39; 进行转义。

默认情况下,PHP 指令 magic_quotes_gpc 为 on,它主要是对所有的 GET、POST 和 COOKIE 数据自动运行 addslashes()。不要对已经被 magic_quotes_gpc 转义过的字符串使用 addslashes(),因为这样会导致双层转义。遇到这种情况时可以使用函数 get_magic_quotes_gpc() 进行检测。

例子 1. addslashes() 示例

 代码如下 复制代码

$str = "Is your name O&#39;reilly?";

// 输出:Is your name O''&#39;reilly?
echo addslashes($str);
?>

get_magic_quotes_gpc()
本函数取得 PHP 环境配置的变量 magic_quotes_gpc (GPC, Get/Post/Cookie) 值。返回 0 表示关闭本功能;返回 1 表示本功能打开。当 magic_quotes_gpc 打开时,所有的 &#39; (单引号), " (双引号), '' (反斜线) and 空字符会自动转为含有反斜线的溢出字符。

 代码如下 复制代码

function html($str) {
$str = get_magic_quotes_gpc()?$str:addslashes($str);
return $str;
}

总结如下:

1. 对于PHP magic_quotes_gpc=on的情况,

我们可以不对输入和输出数据库的字符串数据作
addslashes()和stripslashes()的操作,数据也会正常显示。

如果此时你对输入的数据作了addslashes()处理,
那么在输出的时候就必须使用stripslashes()去掉多余的反斜杠。

2. 对于PHP magic_quotes_gpc=off 的情况

必须使用addslashes()对输入数据进行处理,但并不需要使用stripslashes()格式化输出
因为addslashes()并未将反斜杠一起写入数据库,只是帮助mysql完成了sql语句的执行。

[!--infotagslink--]

相关文章

  • 不打开网页直接查看网站的源代码

      有一种方法,可以不打开网站而直接查看到这个网站的源代码..   这样可以有效地防止误入恶意网站...   在浏览器地址栏输入:   view-source:http://...2016-09-20
  • php 调用goolge地图代码

    <?php require('path.inc.php'); header('content-Type: text/html; charset=utf-8'); $borough_id = intval($_GET['id']); if(!$borough_id){ echo ' ...2016-11-25
  • JS基于Mootools实现的个性菜单效果代码

    本文实例讲述了JS基于Mootools实现的个性菜单效果代码。分享给大家供大家参考,具体如下:这里演示基于Mootools做的带动画的垂直型菜单,是一个初学者写的,用来学习Mootools的使用有帮助,下载时请注意要将外部引用的mootools...2015-10-23
  • JS+CSS实现分类动态选择及移动功能效果代码

    本文实例讲述了JS+CSS实现分类动态选择及移动功能效果代码。分享给大家供大家参考,具体如下:这是一个类似选项卡功能的选择插件,与普通的TAb区别是加入了动画效果,多用于商品类网站,用作商品分类功能,不过其它网站也可以用,...2015-10-21
  • JS实现自定义简单网页软键盘效果代码

    本文实例讲述了JS实现自定义简单网页软键盘效果。分享给大家供大家参考,具体如下:这是一款自定义的简单点的网页软键盘,没有使用任何控件,仅是为了练习JavaScript编写水平,安全性方面没有过多考虑,有顾虑的可以不用,目的是学...2015-11-08
  • php 取除连续空格与换行代码

    php 取除连续空格与换行代码,这些我们都用到str_replace与正则函数 第一种: $content=str_replace("n","",$content); echo $content; 第二种: $content=preg_replac...2016-11-25
  • php简单用户登陆程序代码

    php简单用户登陆程序代码 这些教程很对初学者来讲是很有用的哦,这款就下面这一点点代码了哦。 <center> <p>&nbsp;</p> <p>&nbsp;</p> <form name="form1...2016-11-25
  • PHP传值到不同页面的三种常见方式及php和html之间传值问题

    在项目开发中经常见到不同页面之间传值在web工作中,本篇文章给大家列出了三种常见的方式。接触PHP也有几个月了,本文总结一下这段日子中,在编程过程里常用的3种不同页面传值方法,希望可以给大家参考。有什么意见也希望大...2015-11-24
  • PHP实现清除wordpress里恶意代码

    公司一些wordpress网站由于下载的插件存在恶意代码,导致整个服务器所有网站PHP文件都存在恶意代码,就写了个简单的脚本清除。恶意代码示例...2015-10-23
  • jQuery实现切换页面过渡动画效果

    直接为大家介绍制作过程,希望大家可以喜欢。HTML结构该页面切换特效的HTML结构使用一个<main>元素来作为页面的包裹元素,div.cd-cover-layer用于制作页面切换时的遮罩层,div.cd-loading-bar是进行ajax加载时的loading进...2015-10-30
  • js识别uc浏览器的代码

    其实挺简单的就是if(navigator.userAgent.indexOf('UCBrowser') > -1) {alert("uc浏览器");}else{//不是uc浏览器执行的操作}如果想测试某个浏览器的特征可以通过如下方法获取JS获取浏览器信息 浏览器代码名称:navigator...2015-11-08
  • JS实现双击屏幕滚动效果代码

    本文实例讲述了JS实现双击屏幕滚动效果代码。分享给大家供大家参考,具体如下:这里演示双击滚屏效果代码的实现方法,不知道有觉得有用处的没,现在网上还有很多还在用这个特效的呢,代码分享给大家吧。运行效果截图如下:在线演...2015-10-30
  • JS日期加减,日期运算代码

    一、日期减去天数等于第二个日期function cc(dd,dadd){//可以加上错误处理var a = new Date(dd)a = a.valueOf()a = a - dadd * 24 * 60 * 60 * 1000a = new Date(a)alert(a.getFullYear() + "年" + (a.getMonth() +...2015-11-08
  • PHP开发微信支付的代码分享

    微信支付,即便交了保证金,你还是处理测试阶段,不能正式发布。必须到你通过程序测试提交订单、发货通知等数据到微信的系统中,才能申请发布。然后,因为在微信中是通过JS方式调用API,必须在微信后台设置支付授权目录,而且要到...2014-05-31
  • 解决vue刷新页面以后丢失store的数据问题

    这篇文章主要介绍了解决vue刷新页面以后丢失store的数据问题,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧...2020-08-12
  • PHP常用的小程序代码段

    本文实例讲述了PHP常用的小程序代码段。分享给大家供大家参考,具体如下:1.计算两个时间的相差几天$startdate=strtotime("2009-12-09");$enddate=strtotime("2009-12-05");上面的php时间日期函数strtotime已经把字符串...2015-11-24
  • php怎么用拼音 简单的php中文转拼音的实现代码

    小编分享了一段简单的php中文转拼音的实现代码,代码简单易懂,适合初学php的同学参考学习。 代码如下 复制代码 <?phpfunction Pinyin($_String...2017-07-06
  • php导出csv格式数据并将数字转换成文本的思路以及代码分享

    php导出csv格式数据实现:先定义一个字符串 存储内容,例如 $exportdata = '规则111,规则222,审222,规222,服2222,规则1,规则2,规则3,匹配字符,设置时间,有效期'."/n";然后对需要保存csv的数组进行foreach循环,例如复制代...2014-06-07
  • ecshop商品无限级分类代码

    ecshop商品无限级分类代码 function cat_options($spec_cat_id, $arr) { static $cat_options = array(); if (isset($cat_options[$spec_cat_id]))...2016-11-25
  • 几种延迟加载JS代码的方法加快网页的访问速度

    本文介绍了如何延迟javascript代码的加载,加快网页的访问速度。 当一个网站有很多js代码要加载,js代码放置的位置在一定程度上将会影像网页的加载速度,为了让我们的网页加载速度更快,本文总结了一下几个注意点...2013-10-13