php curl网站采集的实现程序

 更新时间:2016年11月25日 16:18  点击:1873
网站采集功能现在多半会使用火车头这些软件来实现了,但是对于一些定时或小的采集我们可以使用程序来实现,在php中curl是当选的一个函数了,下面一起来看看curl网站采集的实现程序吧.

选择curl的理由


关于curl与file_get_contents,摘抄一段通俗易懂的对比:
file_get_contents其实是一堆内置的文件操作函数的合并版本,比如file_exists,fopen,fread,fclose,专门提供给懒人用的,而且它主要是用来对付本地文件的,但又是因为懒人的原因,同时加入了对网络文件的支持;
curl是专门用来进行网络交互的库,提供了一堆自定义选项,用来应对不同的环境,稳定性自然要大于file_get_contents。

使用方法

1、开启curl支持

由于php环境安装后默认是没有打开curl支持的,需修改php.ini文件,找到;extension=php_curl.dll,把前面的冒号去掉,重启服务即可;

2、使用curl进行数据抓取

// 初始化一个 cURL 对象
$curl = curl_init();
// 设置你需要抓取的URL
curl_setopt($curl, CURLOPT_URL, 'http://www.111cn.net');
// 设置header
curl_setopt($curl, CURLOPT_HEADER, 1);
// 设置cURL 参数,要求结果保存到字符串中还是输出到屏幕上。
curl_setopt($curl, CURLOPT_RETURNTRANSFER, 1);
// 运行cURL,请求网页
$data = curl_exec($curl);
// 关闭URL请求
curl_close($curl);

3、通过正则匹配找到关键数据

//$data是curl_exec返回的的值,即采集的目标内容
preg_match_all("/<li class=\"item\">(.*?)<\/li>/",$data, $out, PREG_SET_ORDER);
foreach($out as $key => $value){
    //此处$value是数组,同时记录找到带匹配字符的整句和单独匹配的字符
    echo '匹配到的整句:'.$value[0].'
';
    echo '单独匹配到的:'.$value[1].'
';
}

技巧

1、超时的相关设置

通过curl_setopt($ch, opt) 可以设置一些超时的设置,主要包括:
CURLOPT_TIMEOUT 设置cURL允许执行的最长秒数。
CURLOPT_TIMEOUT_MS 设置cURL允许执行的最长毫秒数。 (在cURL 7.16.2中被加入。从PHP 5.2.3起可使用。 )
CURLOPT_CONNECTTIMEOUT 在发起连接前等待的时间,如果设置为0,则无限等待。
CURLOPT_CONNECTTIMEOUT_MS 尝试连接等待的时间,以毫秒为单位。如果设置为0,则无限等待。 在cURL 7.16.2中被加入。从PHP 5.2.3开始可用。

CURLOPT_DNS_CACHE_TIMEOUT 设置在内存中保存DNS信息的时间,默认为120秒。

curl_setopt($ch, CURLOPT_TIMEOUT, 60);   //只需要设置一个秒的数量就可以

curl_setopt($ch, CURLOPT_NOSIGNAL, 1);    //注意,毫秒超时一定要设置这个
curl_setopt($ch, CURLOPT_TIMEOUT_MS, 200);  //超时毫秒,cURL 7.16.2中被加入。从PHP 5.2.3起可使用

2、通过post提交数据,保留cookie

//以下摘抄一个例子过来,用于学习借鉴:
//Curl 模拟登录 discuz 程序,适合DZ7.0
 
!extension_loaded('curl') && die('The curl extension is not loaded.');  
  
$discuz_url = 'http://www.111cn.net';//论坛地址  
$login_url = $discuz_url .'/logging.php?action=login';//登录页地址  
$get_url = $discuz_url .'/my.php?item=threads'; //我的帖子  
  
$post_fields = array();  
//以下两项不需要修改  
$post_fields['loginfield'] = 'username';  
$post_fields['loginsubmit'] = 'true';  
//用户名和密码,必须填写  
$post_fields['username'] = 'lxvoip';  
$post_fields['password'] = '88888888';  
//安全提问  
$post_fields['questionid'] = 0;  
$post_fields['answer'] = '';  
//@todo验证码  
$post_fields['seccodeverify'] = '';  
  
//获取表单FORMHASH  
$ch = curl_init($login_url);  
curl_setopt($ch, CURLOPT_HEADER, 0);  
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);  
$contents = curl_exec($ch);  
curl_close($ch);  
preg_match('/<input\s*type="hidden"\s*name="formhash"\s*value="(.*?)"\s*\/>/i', $contents, $matches);  
if(!empty($matches)) {  
    $formhash = $matches[1];  
} else {  
    die('Not found the forumhash.');  
}  
  
//POST数据,获取COOKIE  
$cookie_file = dirname(__FILE__) . '/cookie.txt';  
//$cookie_file = tempnam('/tmp');  
$ch = curl_init($login_url);  
curl_setopt($ch, CURLOPT_HEADER, 0);  
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);  
curl_setopt($ch, CURLOPT_POST, 1);  
curl_setopt($ch, CURLOPT_POSTFIELDS, $post_fields);  
curl_setopt($ch, CURLOPT_COOKIEJAR, $cookie_file);  
curl_exec($ch);  
curl_close($ch);  
  
//带着上面得到的COOKIE获取需要登录后才能查看的页面内容  
$ch = curl_init($get_url);  
curl_setopt($ch, CURLOPT_HEADER, 0);  
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 0);  
curl_setopt($ch, CURLOPT_COOKIEFILE, $cookie_file);  
$contents = curl_exec($ch);  
curl_close($ch);  
  
var_dump($contents);

在使用curl 中有一些心得给各位分享一下


编码转换

首先通过查看源代码找到采集的网站使用的编码,通过mb_convert_encoding函数进行转码;
具体使用方法:

//源字符是$str
 
//以下已知原编码为GBK,转换为utf-8
mb_convert_encoding($str, "UTF-8", "GBK");
 
//以下未知原编码,通过auto自动检测后,转换编码为utf-8
mb_convert_encoding($str, "UTF-8", "auto");

3、为更好地避开换行符和空格等不定因素的阻碍,有必要先清除采集到的源码中的换行符、空格符和制表符

//方法一,使用str_replace进行替换
$contents = str_replace("\r\n", '', $contents); //清除换行符
$contents = str_replace("\n", '', $contents); //清除换行符
$contents = str_replace("\t", '', $contents); //清除制表符
$contents = str_replace(" ", '', $contents); //清除空格符
 
//方法二,使用正则表达式进行替换

$contents = preg_replace("/([\r\n|\n|\t| ]+)/",'',$contents);

4、通过正则表达式匹配找出需要获得的代码段,使用preg_match_all实现该匹配

函数解释:

int preg_match_all ( string pattern, string subject, array matches [, int flags] )
pattern即正规表达式
subject即要进行查找的原文
matches是用于储存输出结果的数组
flags是储存的模式,包括:
    PREG_PATTERN_ORDER;  //整个数组是二维数组,$arr1[0]是包括边界所构成匹配字符串的数组,$arr1[1]除去边界所构成的匹配字符串的数组
    PREG_SET_ORDER;  //整个数组是二维数组,$arr2[0][0]是第一个包括边界所构成的匹配的字符串,$arr2[0][1]是第一个除去边界所构成的匹配的字符串,之后的数组以此类推
    PREG_OFFSET_CAPTURE;  //整个数组是三维数组,$arr3[0][0][0]是第一个包括边界所构成的匹配的字符串,$arr3[0][0][1]是到达第一个匹配字符串的边界的偏移量(边界不算在内),之后以此类推,$arr2[1][0][0]是第一个包括边界所构成的匹配的字符串,$arr3[1][0][1]是到达第一个匹配字符串的边界的偏移量(边界算在内);
 
//实际应用
preg_match_all('/<pclass=\"content\">(.*?)<\/p>/',$contents, $out, PREG_SET_ORDER);
$out将获取到所有匹配的元素
$out[0][0]将是包括<pclass=\"content\"></p>在内的全段字符
$out[0][1]将是仅包括(.*?)括号内所匹配到的字符段
 
//如此类推,第n个匹配到的字段可以用以下方法取得
$out[n-1][1]
 
//若正则表达式中存大多个括号,则取得句中第m个匹配点的方法是
$out[n-1][m]

5、取得要找到字符后,若要去掉html标签,使用PHP自带的函数strip_tags即可方便地实现
 
//例
$result=strip_tags($out[0][1]);

上面只是把数据采集下载了,当然最好我们需要把$contents内容进入库处理了,这里就是简单的php数据查询保存的功能了,非常简单.

Wappalyzer是一个Firefox扩展,在网络上跟踪软件分发,并告诉您的维基,留言板等在页面上您目前使用。 本文我们来讨论如何使用Wappalyzer API进行Web应用指纹识别。

Web应用指纹识别,是web渗透信息收集最关键的一步,这方面开源的工具也非常多,像BlindElephant,whatweb 以及在非安全圈都很火的wappalyzer。本文主要描述如何使用wappalyzer的perl与php接口进行指纹识别。

Wappalyzer的功能是识别单个uri的指纹,其原理就是给指定URI发送HTTP请求,获取响应头与响应体并按指纹规则进行匹配。这也是 web应用指纹识别最基础的部分,除此之外,还有指纹置信度计算(如何去处伪造指纹,多种指纹特征如何综合判断,隐藏指纹信息如何提取),整个站点的指纹识别还涉及到有效爬虫抓取,分布式计算等问题,这些都不在本文内容中。

FreeBuf小科普:了解wappalyzer

Wappalyzer API进行Web应用指纹识别实例

Wappalyzer是一款浏览器插件,通过Wappalyzer可以识别出网站采用了那种web技术。它能够检测出CMS和电子商务系统、留言板、javascript框架,主机面板,分析统计工具和其它的一些web系统。The company behind Wappalyzer还能够收集web程序的一些信息用于统计分析,揭示出各种web系统的使用率即增长情况。实际Wappalyzer就是一个指纹识别工具。更多信息请点击:http://www.freebuf.com/tools/7391.html

官方地址:https://wappalyzer.com/

一、perl版本

原理:

给指定uri发送HTTP请求,通过分析HTTP相应的以下部分来判断指纹

(1) headers特征

响应头key:value对,多个key:value用逗号隔开,例如

"headers": { "X-AMP-Version": "([d.]+);version:", "Set-Cookie": "^AMP=" },

(2) html特征

响应体内容,多个规则用逗号隔开,例如

"html": [ "

特别注意:html全文匹配的规则一定要谨慎编写

(3) url特征

url内容,例如

"url": "/cgi-bin/UCEditor?(?:.*&)?merchantid=."

(4) meta特征

响应html 页面中诸如中的名字name:内容content对,多个规则用逗号隔开,例如

"meta": { "generator": "webEdition", "DC.title": "webEdition" }

(5) script特征

响应html页面中诸如 src中中url内容,多个规则用逗号隔开,例如

"script": [ "angular(?:-|.)([d.]*d)[^/]*.js;version:", "/([d.]+(-?rc[.d]*)*)/angular(.min)?.js;version:", "angular.*.js" ]

局限性:

不支持规则文件中APP版本号与置信度的获取

对非utf8的中文编码可能会存在问题

优点:

较之PHP版本,使用qr正则预编译处理,可以提前发现正则的问题,这是我选择该语言版本的主要原因。

(接下来的php版本就能让你知道正则不预编译处理有多坑了!)

脚本的功能:

(1)指纹识别结果按JSON格式返回,以便后续指纹信息入库等处理

(2)支持批量uri查询

(3)支持指定自定义JSON格式的指纹规则文件

(默认的指纹文件放置在/usr/lib/perl5/WWW/apps.json ,具体的路径会因cpan模块的安装路径有区别

可以使用perl -V 察看@INC变量来确定路径,或者更暴力的find吧)

安装:

cpan -i WWW::Wappalyzer
clone https://github.com/tanjiti/FingerPrint.git

运行:

(1)获取单个uri的指纹

perl FingerPrint.pl www.xxx.com tanjiti.json[指纹规则文件,可选]

返回结果

{
       "www.xxx.com": {
               "blogs": [
                       "WordPress"
               ],
               "web-servers": [
                       "Nginx"
               ],
               "cdn": [
                       "CloudFlare"
               ],
               "cms": [
                       "WordPress"
               ],
               "font-scripts": [
                       "Google Font API"
               ],
               "javascript-frameworks": [
                       "jQuery"
               ],
               "javascript-graphics": [
                       "Javascript Infovis Toolkit"
               ]
       }
}

(2) 从文件读取url列表进行批量指纹识别,并将结果输出到文件中

perl FingerPrint.pl url.txt tanjiti.json[指纹规则文件,可选]

结果输出到 url.txt__fingerprint 文件里

指纹规则文件编写示例:

more tanjiti.json


"apps": {

       "Discuz!":{
      "website": "www.discuz.net/forum.php",
      "cats": [ 1 ],
        "meta": { "generator": "Discuz"},
        "headers": {"Set-Cookie": "_lastact.*_sid|_sid.*_lastact|_sid.*smile|smile.*_sid"},
        "url": "/uc_server[/$]|uc_client[/$]",
        "html": "Powered by (?:Discuz!|<a href="http://www.discuz.net/"|UCenter)",
        "implies": "php"
       },
"PHP": {
       "website": "php.net",
       "cats": [ 27 ],
       "headers": { "Server": "php/?([d.]+)?;confidence:40;version:", "X-Powered-By": "php/?([d.]+)?;confidence:40;version:", "Set-Cookie": "PHPSESSID" },
       "url": ".php(?:$|?)"
       }

}

二、php版本

原理

同perl版本,区别有两点:

1. HTTP请求部分:较之perl使用LWP发送HTTP请求,php使用curl发送HTTP请求

2. 规则匹配部分:指纹规则的匹配部分使用javascript语法,然后通过php的v8js模块来解析。(为什么要这样做呢?当返回响应体内容很多,指纹正则写的很烂的时候,会卡死在规则匹配这一过程中,现在的规则下sina,163等大站基本卡死!)

运行

PHP版的接口已经能直接使用了,只是需要替换规则文件,??/p>

第一步:安装php、curl及v8js

apt-get install php5-dev php-pear build-essential libv8-dev php5-curl
pecl install channel://pecl.php.net/v8js-0.1.3
echo extension=v8js.so >> /etc/php5/cli/php.ini

验证是否安装成功

php -m | grep v8js
v8js -----------OK

第二步:下载Wappalyzer脚本

git clone https://github.com/ElbertF/Wappalyzer.git
cp -R Wappalyzer/drivers/php/* .
cp Wappalyzer/share/js/wappalyzer.js js/
cp Wappalyzer/share/apps.json . (指纹规则文件) 该规则文件的正则编写的有问题,所以我使用的以前版本的规则文件cp /usr/lib/perl5/WWW/apps.json .

php版指纹识别程序结构如下:

index.php 主程序
Wappalyzer.php
WappalyzerException.php
js/driver.js js/wappalyzer.js

apps.json 指纹规则文件

第三步:验证是否成功

php index.php www.tanjiti.com

输出格式为

应用名,版本号,置信度,app类型 (比perl版本多了对版本号,置信度的获取)

CloudFlare, , 100%, cdn
Javascript Infovis Toolkit, , 100%, javascript-graphics
jQuery, , 100%, javascript-frameworks
Nginx, , 100%, web-servers
PHP, 5.5.9, 100%, programming-languages
Ubuntu, , 100%, operating-systems
WordPress, 4.0, 100%, cms, blogs

接下来的优化输出为json格式与批量处理uri同perl版本。

最后寄言,一定一定要写好正则,NFA引擎正则优化TIPS、Perl正则技巧及正则性能评测方法

下面来看一个我们在生活中常碰到的一个php实现微信红包的程序算法,希望这个程序对各位做微信开的朋友会带来帮助.

最近一直在微信群里体验红包功能,红包类型有


•普通红包

•拼手气红包两种


普通红包就不用多解析了,大锅饭原理,平分。
拼手气红包讲的是手气(运气),有人可以抢到很多,有人抢的少得可怜,当然也不是先抢就一定多,说到底了就是随机。

 

2848416585426645400

 

想了想,自己写写看,能不能实现类似的功能(不敢说是算法)。
// $bonus_total 红包总金额
// $bonus_count 红包个数
// $bonus_type 红包类型 1=拼手气红包 0=普通红包
function randBonus($bonus_total=0, $bonus_count=3, $bonus_type=1){
    $bonus_items    = array(); // 将要瓜分的结果
    $bonus_balance  = $bonus_total; // 每次分完之后的余额
    $bonus_avg      = number_format($bonus_total/$bonus_count, 2); // 平均每个红包多少钱

    $i              = 0;
    while($i<$bonus_count){
        if($i<$bonus_count-1){
            $rand           = $bonus_type?(rand(1, $bonus_balance*100-1)/100):$bonus_avg; // 根据红包类型计算当前红包的金额
            $bonus_items[]  = $rand;
            $bonus_balance  -= $rand;
        }else{
            $bonus_items[]  = $bonus_balance; // 最后一个红包直接承包最后所有的金额,保证发出的总金额正确
        }
        $i++;
    }
    return $bonus_items;
}


 好吧,我们现在来体验一下
// 发3个拼手气红包,总金额是100元
$bonus_items    = randBonus(100, 3, 1);
// 查看生成的红包
var_dump($bonus_items);
// 校验总金额是不是正确,看看微信有没有坑我们的钱
var_dump(array_sum($bonus_items));


 另一个使用数组实现的版本,原理差不多:
function sendRandBonus($total=0, $count=3, $type=1){
    if($type==1){
        $input          = range(0.01, $total, 0.01);
        if($count>1){
            $rand_keys  = (array) array_rand($input,  $count-1);
            $last       = 0;
            foreach($rand_keys as $i=>$key){
                $current    = $input[$key]-$last;
                $items[]    = $current;
                $last       = $input[$key];
            }
        }
        $items[]        = $total-array_sum($items);
    }else{
        $avg            = number_format($total/$count, 2);
        $i              = 0;
        while($i<$count){
            $items[]    = $i<$count-1?$avg:($total-array_sum($items));
            $i++;
        }
    }
    return $items;
}

下面的代码是用此前一个名为MyPDO的类改写的,引入了单例模式来保证在全局调用中不会重复实例化这个类,降低系统资源的浪费。

用php大部分操作都是和各种数据库打交道,包括mysql,redis,memcache等各种关系型和非关系型数据库,所以一个应用中会 存在大量连接数据库的操作,如果不用单例模式,那每次都要new操作,但是每次new都会消耗大量的内存资源和系统资源,而且每次打开和关闭数据库连接都 是对数据库的一种极大考验和浪费


代码如下:


<?php

class MyPDO
{
    protected static $_instance = null;
    protected $dbName = '';
    protected $dsn;
    protected $dbh;
   
    /**
     * 构造
     *
     * @return MyPDO
     */
    private function __construct($dbHost, $dbUser, $dbPasswd, $dbName, $dbCharset)
    {
        try {
            $this->dsn = 'mysql:host='.$dbHost.';dbname='.$dbName;
            $this->dbh = new PDO($this->dsn, $dbUser, $dbPasswd);
            $this->dbh->exec('SET character_set_connection='.$dbCharset.', character_set_results='.$dbCharset.', character_set_client=binary');
        } catch (PDOException $e) {
            $this->outputError($e->getMessage());
        }
    }
   
    /**
     * 防止克隆
     *
     */
    private function __clone() {}
   
    /**
     * Singleton instance
     *
     * @return Object
     */
    public static function getInstance($dbHost, $dbUser, $dbPasswd, $dbName, $dbCharset)
    {
        if (self::$_instance === null) {
            self::$_instance = new self($dbHost, $dbUser, $dbPasswd, $dbName, $dbCharset);
        }
        return self::$_instance;
    }
   
    /**
     * Query 查询
     *
     * @param String $strSql SQL语句
     * @param String $queryMode 查询方式(All or Row)
     * @param Boolean $debug
     * @return Array
     */
    public function query($strSql, $queryMode = 'All', $debug = false)
    {
        if ($debug === true) $this->debug($strSql);
        $recordset = $this->dbh->query($strSql);
        $this->getPDOError();
        if ($recordset) {
            $recordset->setFetchMode(PDO::FETCH_ASSOC);
            if ($queryMode == 'All') {
                $result = $recordset->fetchAll();
            } elseif ($queryMode == 'Row') {
                $result = $recordset->fetch();
            }
        } else {
            $result = null;
        }
        return $result;
    }
   
    /**
     * Update 更新
     *
     * @param String $table 表名
     * @param Array $arrayDataValue 字段与值
     * @param String $where 条件
     * @param Boolean $debug
     * @return Int
     */
    public function update($table, $arrayDataValue, $where = '', $debug = false)
    {
        $this->checkFields($table, $arrayDataValue);
        if ($where) {
            $strSql = '';
            foreach ($arrayDataValue as $key => $value) {
                $strSql .= ", `$key`='$value'";
            }
            $strSql = substr($strSql, 1);
            $strSql = "UPDATE `$table` SET $strSql WHERE $where";
        } else {
            $strSql = "REPLACE INTO `$table` (`".implode('`,`', array_keys($arrayDataValue))."`) VALUES ('".implode("','", $arrayDataValue)."')";
        }
        if ($debug === true) $this->debug($strSql);
        $result = $this->dbh->exec($strSql);
        $this->getPDOError();
        return $result;
    }
   
    /**
     * Insert 插入
     *
     * @param String $table 表名
     * @param Array $arrayDataValue 字段与值
     * @param Boolean $debug
     * @return Int
     */
    public function insert($table, $arrayDataValue, $debug = false)
    {
        $this->checkFields($table, $arrayDataValue);
        $strSql = "INSERT INTO `$table` (`".implode('`,`', array_keys($arrayDataValue))."`) VALUES ('".implode("','", $arrayDataValue)."')";
        if ($debug === true) $this->debug($strSql);
        $result = $this->dbh->exec($strSql);
        $this->getPDOError();
        return $result;
    }
   
    /**
     * Replace 覆盖方式插入
     *
     * @param String $table 表名
     * @param Array $arrayDataValue 字段与值
     * @param Boolean $debug
     * @return Int
     */
    public function replace($table, $arrayDataValue, $debug = false)
    {
        $this->checkFields($table, $arrayDataValue);
        $strSql = "REPLACE INTO `$table`(`".implode('`,`', array_keys($arrayDataValue))."`) VALUES ('".implode("','", $arrayDataValue)."')";
        if ($debug === true) $this->debug($strSql);
        $result = $this->dbh->exec($strSql);
        $this->getPDOError();
        return $result;
    }
   
    /**
     * Delete 删除
     *
     * @param String $table 表名
     * @param String $where 条件
     * @param Boolean $debug
     * @return Int
     */
    public function delete($table, $where = '', $debug = false)
    {
        if ($where == '') {
            $this->outputError("'WHERE' is Null");
        } else {
            $strSql = "DELETE FROM `$table` WHERE $where";
            if ($debug === true) $this->debug($strSql);
            $result = $this->dbh->exec($strSql);
            $this->getPDOError();
            return $result;
        }
    }
   
    /**
     * execSql 执行SQL语句
     *
     * @param String $strSql
     * @param Boolean $debug
     * @return Int
     */
    public function execSql($strSql, $debug = false)
    {
        if ($debug === true) $this->debug($strSql);
        $result = $this->dbh->exec($strSql);
        $this->getPDOError();
        return $result;
    }
   
    /**
     * 获取字段最大值
     *
     * @param string $table 表名
     * @param string $field_name 字段名
     * @param string $where 条件
     */
    public function getMaxValue($table, $field_name, $where = '', $debug = false)
    {
        $strSql = "SELECT MAX(".$field_name.") AS MAX_VALUE FROM $table";
        if ($where != '') $strSql .= " WHERE $where";
        if ($debug === true) $this->debug($strSql);
        $arrTemp = $this->query($strSql, 'Row');
        $maxValue = $arrTemp["MAX_VALUE"];
        if ($maxValue == "" || $maxValue == null) {
            $maxValue = 0;
        }
        return $maxValue;
    }
   
    /**
     * 获取指定列的数量
     *
     * @param string $table
     * @param string $field_name
     * @param string $where
     * @param bool $debug
     * @return int
     */
    public function getCount($table, $field_name, $where = '', $debug = false)
    {
        $strSql = "SELECT COUNT($field_name) AS NUM FROM $table";
        if ($where != '') $strSql .= " WHERE $where";
        if ($debug === true) $this->debug($strSql);
        $arrTemp = $this->query($strSql, 'Row');
        return $arrTemp['NUM'];
    }
   
    /**
     * 获取表引擎
     *
     * @param String $dbName 库名
     * @param String $tableName 表名
     * @param Boolean $debug
     * @return String
     */
    public function getTableEngine($dbName, $tableName)
    {
        $strSql = "SHOW TABLE STATUS FROM $dbName WHERE Name='".$tableName."'";
        $arrayTableInfo = $this->query($strSql);
        $this->getPDOError();
        return $arrayTableInfo[0]['Engine'];
    }
   
    /**
     * beginTransaction 事务开始
     */
    private function beginTransaction()
    {
        $this->dbh->beginTransaction();
    }
   
    /**
     * commit 事务提交
     */
    private function commit()
    {
        $this->dbh->commit();
    }
   
    /**
     * rollback 事务回滚
     */
    private function rollback()
    {
        $this->dbh->rollback();
    }
   
    /**
     * transaction 通过事务处理多条SQL语句
     * 调用前需通过getTableEngine判断表引擎是否支持事务
     *
     * @param array $arraySql
     * @return Boolean
     */
    public function execTransaction($arraySql)
    {
        $retval = 1;
        $this->beginTransaction();
        foreach ($arraySql as $strSql) {
            if ($this->execSql($strSql) == 0) $retval = 0;
        }
        if ($retval == 0) {
            $this->rollback();
            return false;
        } else {
            $this->commit();
            return true;
        }
    }
 
    /**
     * checkFields 检查指定字段是否在指定数据表中存在
     *
     * @param String $table
     * @param array $arrayField
     */
    private function checkFields($table, $arrayFields)
    {
        $fields = $this->getFields($table);
        foreach ($arrayFields as $key => $value) {
            if (!in_array($key, $fields)) {
                $this->outputError("Unknown column `$key` in field list.");
            }
        }
    }
   
    /**
     * getFields 获取指定数据表中的全部字段名
     *
     * @param String $table 表名
     * @return array
     */
    private function getFields($table)
    {
        $fields = array();
        $recordset = $this->dbh->query("SHOW COLUMNS FROM $table");
        $this->getPDOError();
        $recordset->setFetchMode(PDO::FETCH_ASSOC);
        $result = $recordset->fetchAll();
        foreach ($result as $rows) {
            $fields[] = $rows['Field'];
        }
        return $fields;
    }
   
    /**
     * getPDOError 捕获PDO错误信息
     */
    private function getPDOError()
    {
        if ($this->dbh->errorCode() != '00000') {
            $arrayError = $this->dbh->errorInfo();
            $this->outputError($arrayError[2]);
        }
    }
   
    /**
     * debug
     *
     * @param mixed $debuginfo
     */
    private function debug($debuginfo)
    {
        var_dump($debuginfo);
        exit();
    }
   
    /**
     * 输出错误信息
     *
     * @param String $strErrMsg
     */
    private function outputError($strErrMsg)
    {
        throw new Exception('MySQL Error: '.$strErrMsg);
    }
   
    /**
     * destruct 关闭数据库连接
     */
    public function destruct()
    {
        $this->dbh = null;
    }
}
?>
 

调用方法:

PHP

<?php
require 'MyPDO.class.php';
$db = MyPDO::getInstance('localhost', 'root', '123456', 'test', 'utf8');
 
//do something...
 
$db->destruct();
?>

由于PHP函数的返回类型确定不变,但是作为弱语言的PHP对返回类型没有语法验证,现在我们来用自己的方法解决PHP函数如何增加强制类型返回。

在开发过程中,函数的返回值类型应该是确定不变的,但PHP是弱类型的语言,

所以PHP是没有此类语法验证的,正因为如此,造成了很多坑坑。

比如下面的代码:

<?php

function getArticles(...){

$arrData = array();

if($exp1){

return $arrData;

}else if($exp2){

return 1;

}else{

return false;

}

}

$arrData =getArticles(...);

foreach($arrData as $record){

//do something.

....

}

?>

函数getArticles根据不同的条件返回不同类型的值,有bool、int、还有数组,正常情况这类函数是希望返回数组,然后拿数组去做一些其他操作,

可因为函数返回值类型不固定,调用时就很可能产生各种预想不到的坑,

因此我就想,既然不能规范,那直接强制好了。

函数/方法返回值可以强制类型,如 图

PHP函数如何增加强制类型返回实例

支持四种强制类型限制:int、array、bool、object,当返回值与函数声明中的类型不匹配时,抛出warning,本来想抛出error,但是觉得

太狠了,只能算是个异常,不能算错误,所以就用warning好了。

PHP本身是不支持 int function 这样的语法的,所以要支持,就先要搞定语法解析器,关于语法解析器,可以移步这里>>>查看

详情,这里就不讲了,

先修改语法扫描 Zend/zend_language_scanner.l文件

增加如下代码:

<ST_IN_SCRIPTING>"int" {

return T_FUNCTION_RETURN_INT;

}

<ST_IN_SCRIPTING>"bool" {

return T_FUNCTION_RETURN_OBJECT;

}

<ST_IN_SCRIPTING>"object" {

return T_FUNCTION_RETURN_OBJECT;

}

<ST_IN_SCRIPTING>"resource" {

return T_FUNCTION_RETURN_RESOURCE;

}

意思很简单,扫描器扫描到到关键字 int、bool、object、resource、array时返回相应的T_FUNCTION_* ,这是一个token,

scanner根据不同的token做不同的处理,token要先在Zend/zend_language_parser.y文件中定义

增加如下代码

..........

%token T_FUNCTION_RETURN_INT

%token T_FUNCTION_RETURN_BOOL

%token T_FUNCTION_RETURN_STRING

%token T_FUNCTION_RETURN_OBJECT

%token T_FUNCTION_RETURN_RESOURCE

然后增加token处理逻辑:

function:

T_FUNCTION { $$.u.opline_num = CG(zend_lineno);$$.u.EA.var  = 0; }

|   T_FUNCTION_RETURN_INT T_FUNCTION {

$$.u.opline_num = CG(zend_lineno);

$$.u.EA.var = IS_LONG;

}

|   T_FUNCTION_RETURN_BOOL T_FUNCTION {

$$.u.opline_num = CG(zend_lineno);

$$.u.EA.var = IS_BOOL;

}

|   T_FUNCTION_RETURN_STRING T_FUNCTION {

$$.u.opline_num = CG(zend_lineno);

$$.u.EA.var = IS_STRING;

}

|   T_FUNCTION_RETURN_OBJECT T_FUNCTION {

$$.u.opline_num = CG(zend_lineno);

$$.u.EA.var = IS_OBJECT;

}

|   T_FUNCTION_RETURN_RESOURCE T_FUNCTION {

$$.u.opline_num = CG(zend_lineno);

$$.u.EA.var = IS_RESOURCE;

}

|   T_ARRAY T_FUNCTION {

$$.u.opline_num = CG(zend_lineno);

$$.u.EA.var = IS_ARRAY;

}

$$.u.EA.var 存储的是 函数返回类型,最后要拿他来跟返回值类型做匹配,

这样语法解释器就可以处理我们新的php语法了。

这还不够,还需要修改函数声明定义的处理逻辑

Zend/zend_compile.c ::zend_do_begin_function_declaration

......

zend_op_array op_array;

char *name = function_name->u.constant.value.str.val;

int name_len = function_name->u.constant.value.str.len;

int function_type  = function_token->u.EA.var; //保存函数类型,在语法解释器中增加的: $$.u.EA.var = IS_LONG;

int function_begin_line = function_token->u.opline_num;

......

op_array.function_name = name;

op_array.fn_type = function_type; //将类型保存到op_array中,

op_array.return_reference = return_reference;

op_array.fn_flags |= fn_flags;

op_array.pass_rest_by_reference = 0;

..........

PHP是先解析PHP语法生成相应的opcode,将需要的环境、参数信息保存到execute_data全局变量中,最后在通过execute函数逐条执行opcode,

所以要做处理就要把函数的类型保存到opcode中:op_array.fn_type = function_type;

op_array是没有fn_type的,要修改op_array的结构,增加zend_uint fn_type;

(关于opcode你可以想象一下 从c转为汇编,我博客中也有相关文章,可以参考一下)

最后要修改opcode的毁掉函数,函数的返回 return 会生成token T_RETURN,T_RETURN会根据返回的类型调用不同的calback函数:

ZEND_RETURN_SPEC_CONST_HANDLER

ZEND_RETURN_SPEC_TMP_HANDLER

ZEND_RETURN_SPEC_VAR_HANDLER

它有三个callback,如果返回值是一个 const类型的数据,则 ZEND_RETURN_SPEC_CONST_HANDLER
返回值是临时数据,如 : return 1,则ZEND_RETURN_SPEC_TMP_HANDLER
返回值是一个变量,如 : return $a,则ZEND_RETURN_SPEC_VAR_HANDLER

所以要在这三个callback函数中增加处理逻辑:

在callback函数return之前增加如下代码

if((EG(active_op_array)->fn_type > 0) && Z_TYPE_P(retval_ptr) != EG(active_op_array)->fn_type){

php_error_docref0(NULL TSRMLS_DC,E_WARNING, "function name %s return a wrong type.", EG(active_op_array)->function_name );

}

fn_type 去跟 返回值的类型作比较,如果没有匹配到,就会抛出这个warning。

我已经打了补丁,目前只支持php5.3版本,有需要的可以拿去玩一玩。

不清楚为什么官方不支持此语法,我觉得还是挺有必要的。

下载补丁:php-syntax.patch

续:

后来有找鸟哥(惠新宸:http://weibo.com/laruence) 聊过,

下面是他的回答:

“这个话题, 基本也是邮件组的月经贴了…. 1. 因为PHP是若类型, 很多类型可以互相转换, 那么到底要不要隐式转换, 你的实现是不转换, 这样的局限太大, 如果转换又涉及到各种转换规则. 2. 也不是不支持, 不过你的这个实现肯定是不够的(各种自定类,和继承类). 3. 以后如果要做jit, 可能会考虑支持.”

如此看来,这个问题官方也是比较纠结的,确实是我的思路是不强制转换,只需要抛出警告就行了,让开发人员自己决定是否转换,是不是更好?



facebook的hack语言,也支持强制类型转换。不过改动太多的话,PHP升级维护是不是会比较差一些。。

[!--infotagslink--]

相关文章

  • php语言实现redis的客户端

    php语言实现redis的客户端与服务端有一些区别了因为前面介绍过服务端了这里我们来介绍客户端吧,希望文章对各位有帮助。 为了更好的了解redis协议,我们用php来实现...2016-11-25
  • jQuery+jRange实现滑动选取数值范围特效

    有时我们在页面上需要选择数值范围,如购物时选取价格区间,购买主机时自主选取CPU,内存大小配置等,使用直观的滑块条直接选取想要的数值大小即可,无需手动输入数值,操作简单又方便。HTML首先载入jQuery库文件以及jRange相关...2015-03-15
  • 如何获取网站icon有哪些可行的方法

    获取网站icon,常用最简单的方法就是通过website/favicon.ico来获取,不过由于很多网站都是在页面里面设置favicon,所以此方法很多情况都不可用。 更好的办法是通过google提供的服务来实现:http://www.google.com/s2/favi...2014-06-07
  • JS实现的简洁纵向滑动菜单(滑动门)效果

    本文实例讲述了JS实现的简洁纵向滑动菜单(滑动门)效果。分享给大家供大家参考,具体如下:这是一款纵向布局的CSS+JavaScript滑动门代码,相当简洁的手法来实现,如果对颜色不满意,你可以试着自己修改CSS代码,这个滑动门将每一...2015-10-21
  • jQuery+slidereveal实现的面板滑动侧边展出效果

    我们借助一款jQuery插件:slidereveal.js,可以使用它控制面板左右侧滑出与隐藏等效果,项目地址:https://github.com/nnattawat/slideReveal。如何使用首先在页面中加载jquery库文件和slidereveal.js插件。复制代码 代码如...2015-03-15
  • PHP+jQuery翻板抽奖功能实现

    翻板抽奖的实现流程:前端页面提供6个方块,用数字1-6依次表示6个不同的方块,当抽奖者点击6个方块中的某一块时,方块翻转到背面,显示抽奖中奖信息。看似简单的一个操作过程,却包含着WEB技术的很多知识面,所以本文的读者应该熟...2015-10-21
  • SQLMAP结合Meterpreter实现注入渗透返回shell

    sqlmap 是一个自动SQL 射入工具。它是可胜任执行一个广泛的数据库管理系统后端指印, 检索遥远的DBMS 数据库等,下面我们来看一个学习例子。 自己搭建一个PHP+MYSQ...2016-11-25
  • mac下Apache + MySql + PHP搭建网站开发环境

    首先为什不自己分别搭建Apache,PHP和MySql的环境呢?这样自己可以了解更多知识,说起来也更酷。可也许因为我懒吧,我是那种“既然有现成的,用就是了”的人。君子生非异也,善假于物也。两千年前的荀子就教导我们,要善于利用工具...2014-06-07
  • PHP实现今天是星期几的几种写法

    复制代码 代码如下: // 第一种写法 $da = date("w"); if( $da == "1" ){ echo "今天是星期一"; }else if( $da == "2" ){ echo "今天是星期二"; }else if( $da == "3" ){ echo "今天是星期三"; }else if( $da == "4"...2013-10-04
  • php实现网站留言板功能

    我要实现的就是下图的这种样式,可参考下面这两个网站的留言板,他们的实现原理都是一样的畅言留言板样式:网易跟帖样式:原理 需要在评论表添加两个主要字段 id 和 pid ,其他字段随意添加,比如文章id、回复时间、回复内容、...2015-11-08
  • 原生js实现fadein 和 fadeout淡入淡出效果

    js里面设置DOM节点透明度的函数属性:filter= "alpha(opacity=" + value+ ")"(兼容ie)和opacity=value/100(兼容FF和GG)。 先来看看设置透明度的兼容性代码: 复制代码 代码如下: function setOpacity(ele, opacity) { if (...2014-06-07
  • 网站广告怎么投放最好?首屏广告投放类型优化和广告位布局优化的案例

    网站广告怎么投放最好?一个网站中广告位置最好的是哪几个地方呢,许多的朋友都不知道如何让自己的网站广告收效最好了,今天我们就一起来看看吧。 在说到联盟优化前,...2016-10-10
  • Android中用HttpClient实现Http请求通信

    本文我们需要解决的问题是如何实现Http请求来实现通信,解决Android 2.3 版本以后无法使用Http请求问题,下面请看正文。 Android开发中使用HttpClient来开发Http程序...2016-09-20
  • mysql存储过程实现split示例

    复制代码 代码如下:call PROCEDURE_split('分享,代码,片段',',');select * from splittable;复制代码 代码如下:drop PROCEDURE if exists procedure_split;CREATE PROCEDURE `procedure_split`( inputstring varc...2014-05-31
  • 个人站长做网站应该考虑的一些问题

    个人网站建设应该考虑哪些问题呢?这个问题我们先在这里不说,下文会一一列出来,希望这些建义能帮助到各位同学哦。 我相信VIP成员里面有很多站长,每个人几乎都拥有一个...2016-10-10
  • 分享利用论坛签名提升网站权重

    分享一篇利用论坛签名提升网站权重的方法,在推广中论坛签名也是一种不错的外链推荐的方法,但现在权重越来越低了,有需要的朋友可以看看。 话说有一天在站长网上面看...2016-10-10
  • 网站排名提升后稳定排名方法

    一、靠前排名成搜索关注的对象   从搜索引擎的角度考虑一下,就不难理解为什么搜索引擎对排名在首页的网站那么慎重,甚至对新进排名在首页的一些网站进行为期一个多月的...2016-10-10
  • PHP+Mysql+Ajax+JS实现省市区三级联动

    基本思想就是:在JS动态创建select控件的option,通过Ajax获取在PHP从SQL数据库获取的省市区信息,代码有点长,但很多都是类似的,例如JS中省、市、区获取方法类似,PHP中通过参数不同执行不同的select语句。index.html代码:复制...2014-05-31
  • JS实现程序暂停与继续功能代码解读

    下面代码用JS实现了程序的暂停与继续 复制代码 代码如下: <script type="text/javascript"> /*Javascript中暂停功能的实现 Javascript本身没有暂停功能(sleep不能使用)同时 vbscript也不能使用doEvents,故编写此函数实...2013-10-13