php提取网页正文内容的例子
Html2Article-php实现的提取网页正文部分,最近研究百度结果页的资讯采集,其中关键环节就是从采集回的页面中提取出文章。
因为难点在于如何去识别并保留网页中的文章部分,而且删除其它无用的信息,并且要做到通用化,不能像火车头那样根据目标站来制定采集规则,因为搜索引擎结果中有各种的网页。
抓回一个页面的数据,如何匹配出正文部分,郑晓在下班路上想了个思路是:
1. 提取出body标签部分–>剔除所有链接–>剔除所有script、注释–>剔除所有空白标签(包括标签内不含中文的)–>获取结果。
2. 直接匹配出非链接的、 符合在div、p、h标签中的中文部分???
还是会有不少其它多余信息啊,比如底部信息等。。 如何搞?不知道大家有木有什么思路或建议?
这个类是从网上找到的一个php实现的提取网页正文部分的算法,郑晓在本地也测试了下,准确率非常高。
代码如下 | 复制代码 |
<?php class Readability { // DOM 解析类目前只支持 UTF-8 编码 // 当判定失败时显示的内容 // DOM 解析类(PHP5 已内置) // 需要解析的源代码 // 章节的父元素列表 // 需要删除的标签 private $junkTags = Array("style", "form", "iframe", "script", "button", "input", "textarea", // 需要删除的属性
// DOM 解析类只能处理 UTF-8 格式的字符 // 预处理 HTML 标签,剔除冗余的标签等 // 生成 DOM 解析类 foreach ($this->DOM->childNodes as $item) { // insert proper
// Replace all doubled-up <BR> tags with <P> tags, and remove fonts. // @see https://github.com/feelinglucky/php-readability/issues/7 return trim($string);
/** $i = 0; return $RootNode; /** // Study all the paragraphs and find the chunk that has the best score. // Look for a special classname // Look for a special ID // Add a point for the paragraph found // 保存父元素的判定得分 // 保存章节的父元素,以便下次快速获取 $topBox = null; if ($contentScore && $contentScore > $orgContentScore) {
if ($titleNodes->length return null;
if ($images->length && $leadImage = $images->item(0)) { return null;
// 获取页面标题 // 获取页面主内容 // 删除不需要的标签 // 删除不需要的属性 $content = mb_convert_encoding($Target->saveHTML(), Readability::DOM_DEFAULT_CHARSET, "HTML-ENTITIES"); // 多个数据,以数组的形式返回 function __destruct() { } |
使用起来也非常简单,实例化时传入网页的html源码和相应的编码,然后直接调用其getContent方法即可返回提取到的正文部分,提取出的文章中可能还会含有少部分链接,可以自己后期再修改
先看文件列表:
代码如下 | 复制代码 |
$dir=’ass’;
$dp = dir($dir); while ($file = $dp ->read()){ $filename=$dir.’/’.$file; if($file!=’.'&&$file!=’..’){ $key=filectime($filename)*1000+rand(100,999); $files[strval($key)]=$filename; } } echo ‘<pre>’; print_r($files); ksort($files); print_r($files); $keys = range(1,count($files)); $arr=array_combine($keys,$files); print_r($arr); echo ‘</pre>’; |
打印结果:
代码如下 | 复制代码 |
Array ( [1] => 第十五课.ass [2] => 第二十一课.ass [3] => 第二十课.ass [4] => 第九课.ass [5] => 第二十六课.ass [6] => 第四课.ass [7] => 第十七课.ass [8] => 第二十二课.ass [9] => 第七课.ass [10] => 第三课.ass [11] => 第十八课.ass ) |
需求是这样的:
找到数组中所有可能的指定长度的组合,要求没有重复。
方法一:
代码如下 | 复制代码 |
function getCombinationToString($arr,$m){ $temp_list2 = getCombinationToString($arr, $m); var_dump($t); |
执行时间:238ms。
方法二:
代码如下 | 复制代码 |
function getCombinAryByNum( $arr, $num,$t=array()) { $arr = array(1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18); var_dump($ss); |
执行时间:710ms。
微信支付接口现在也慢慢的像支付宝一个可以利用api接口来实现第三方网站或应用进行支付了,下文整理了一个php微信支付接口开发程序并且己测试,有兴趣的朋友可进入参考。必要条件:
appid //公众号后台开发者中心获得(和邮件内的一样) mchid//邮件内获得 key//商户后台自己设置 appsecret //公众号开发者中心获得
两个证书文件,邮件内获得 apiclient_cert.pem apiclient_key.pem
注意事项:
公众号后台微信支付-》开发配置-》新增测试目录和测试个人微信号。
开发者中心-》网页授权获取用户基本信息-》修改成你的测试域名。否则会出现redirect_uri 参数错误
——————————后续待完善——————-
微信支付就绪页面后台自行了三次操作:
1.获取openid
//使用jsapi接口
代码如下 | 复制代码 |
$jsApi = new JsApi_pub(); //=========步骤1:网页授权获取用户openid============ //通过code获得openid if (!isset($_GET['code'])) { //触发微信返回code码 $url = $jsApi->createOauthUrlForCode(WxPayConf_pub::JS_API_CALL_URL); //echo $url; Header("Location: $url"); }else { //获取code码,以获取openid $code = $_GET['code']; $jsApi->setCode($code); $openid = $jsApi->getOpenid(); } |
刚开始的时候第一步也遇到问题,没饭获得openid这个和部分服务器有关,demo内用的是curl获取的方式。奇怪我的服务器curl一直无法获取到。后来改成file_get_contents可以正常获取了。可这并不是解决之道。因为后面还需要用到更多的curl操作。看到开发文档里面有一个地方写证书操作需要libcurl 7.20.1以上版本,然后我就一直在整服务器想把linux的php curl版本提高。最后面我是换到了另外一台windows服务器就好了。先暂时这样吧,下次需要用的时候再调试。
第二步:获取与支付订单号id
代码如下 | 复制代码 |
$unifiedOrder = new UnifiedOrder_pub(); //var_dump($unifiedOrder); //设置统一支付接口参数 //设置必填参数 //appid已填,商户无需重复填写 //mch_id已填,商户无需重复填写 //noncestr已填,商户无需重复填写 //spbill_create_ip已填,商户无需重复填写 //sign已填,商户无需重复填写 $unifiedOrder->setParameter("openid","$openid");//商品描述 $unifiedOrder->setParameter("body","贡献一分钱");//商品描述 //自定义订单号,此处仅作举例 $timeStamp = time(); $out_trade_no = WxPayConf_pub::APPID."$timeStamp"; $unifiedOrder->setParameter("out_trade_no","$out_trade_no");//商户订单号 $unifiedOrder->setParameter("total_fee","1");//总金额 $unifiedOrder->setParameter("notify_url",WxPayConf_pub::NOTIFY_URL);//通知地址 $unifiedOrder->setParameter("trade_type","JSAPI");//交易类型 //非必填参数,商户可根据实际情况选填 //$unifiedOrder->setParameter("sub_mch_id","XXXX");//子商户号 //$unifiedOrder->setParameter("device_info","XXXX");//设备号 //$unifiedOrder->setParameter("attach","XXXX");//附加数据 //$unifiedOrder->setParameter("time_start","XXXX");//交易起始时间 //$unifiedOrder->setParameter("time_expire","XXXX");//交易结束时间 //$unifiedOrder->setParameter("goods_tag","XXXX");//商品标记 //$unifiedOrder->setParameter("openid","XXXX");//用户标识 //$unifiedOrder->setParameter("product_id","XXXX");//商品ID $prepay_id = $unifiedOrder->getPrepayId(); //echo 'prepay_id:'; var_dump($prepay_id); |
这一步也遇到非常多的问题。
首先微信支付测试比较困难,只有在微信内才可以测试。我就用手机刷来刷去。其次使用var_dump调试也不好使额。打印一些 xml格式的文件只显示字符长度,不显示内容。于是用log的形式写在服务器上调试,log代码:
代码如下 | 复制代码 |
// 打印log function log_d($word) { $log_name="./logd.log";//log文件路径 $fp = fopen($log_name,"a"); flock($fp, LOCK_EX) ; fwrite($fp,"执行日期:".strftime("%Y-%m-%d-%H:%M:%S",time())."n".$word."nn"); flock($fp, LOCK_UN); fclose($fp); } |
在demo里面的 WxPayPubHelper.php 里面 用 $this->log_d(xxx);调用。
刚开始的时候由于给我的mchid和 appid不匹配一直报错。。是他们给错我账号了。刚开始我也不懂乱试。这一步的调试在 getPrepayId()内 var_dump($this->result); 就能看到错误代码。
第三步:生成支付前端 js代码就绪到网页上:
代码如下 | 复制代码 |
$jsApi->setPrepayId($prepay_id); $jsApiParameters = $jsApi->getParameters(); ———————-点击前往支付————————- |
这部分又遇到了问题:
android返回“System:Access_denied”,ios返回”access_control:not_allowed”
搜了很多百度。其实早就看到了这个东西一直没注意!
发起授权请求的页面必须是在授权目录下的页面,而不能是存在与子目录中。否则会返回错误
支付文件我放在了/域名/pay/demo/
刚开始的时候我一直是到/域名/pay/结尾以为就可以了。支持子目录,结果是不行的!。
—————————最后看下图—————
—————–流程中的xmljs——————–
待提交生成与支付订单id:
代码如下 | 复制代码 |
<xml> <openid><![CDATA[ou9dHt0L8qFLI1foP-kj5x1mDWsM]]></openid> <body><![CDATA[贡献一下]]></body> <out_trade_no><![CDATA[wx88888888888888881414411779]]></out_trade_no> <total_fee>1</total_fee> <notify_url><![CDATA[http://shanmao.me/wxpay/notify_url.php]]></notify_url> <trade_type><![CDATA[JSAPI]]></trade_type> <appid><![CDATA[wx8888888888888888]]></appid> <mch_id>10012345</mch_id> <spbill_create_ip><![CDATA[61.50.221.43]]></spbill_create_ip> <nonce_str><![CDATA[60uf9sh6nmppr9azveb2bn7arhy79izk]]></nonce_str> <sign><![CDATA[2D8A96553672D56BB2908CE4B0A23D0F]]></sign> </xml> 提交后返回正确,其中包含了perpay_id: <xml> <return_code><![CDATA[SUCCESS]]></return_code> <return_msg><![CDATA[OK]]></return_msg> <appid><![CDATA[wx8888888888888888]]></appid> <mch_id><![CDATA[10012345]]></mch_id> <nonce_str><![CDATA[Be8YX7gjCdtCT7cr]]></nonce_str> <sign><![CDATA[885B6D84635AE6C020EF753A00C8EEDB]]></sign> <result_code><![CDATA[SUCCESS]]></result_code> <prepay_id><![CDATA[wx201410272009395522657a690389285100]]></prepay_id> <trade_type><![CDATA[JSAPI]]></trade_type> </xml> 生成支付用的js : { "appId": "wx8888888888888888", "timeStamp": "1414411784", "nonceStr": "gbwr71b5no6q6ne18c8up1u7l7he2y75", "package": "prepay_id=wx201410272009395522657a690389285100", "signType": "MD5", "paySign": "9C6747193720F851EB876299D59F6C7D" } 支付成功后返回的通知xml: <xml><appid><![CDATA[wx8888888888]]></appid> <bank_type><![CDATA[CCB_DEBIT]]></bank_type> <fee_type><![CDATA[CNY]]></fee_type> <is_subscribe><![CDATA[Y]]></is_subscribe> <mch_id><![CDATA[1011111]]></mch_id> <nonce_str><![CDATA[38gt0ffgsvfsdfsdfbt1981duv63p7]]></nonce_str> <openid><![CDATA[o4p3SjfdsfdsfdsdCE5Y2XHw4]]></openid> <out_trade_no><![CDATA[wx4b56d1fsdfdsf416643247]]></out_trade_no> <result_code><![CDATA[SUCCESS]]></result_code> <return_code><![CDATA[SUCCESS]]></return_code> <sign><![CDATA[356EfsdfdsfsdsfE69509EDA344]]></sign> <sub_mch_id><![CDATA[10018826]]></sub_mch_id> <time_end><![CDATA[20141122160122]]></time_end> <total_fee>1</total_fee> <trade_type><![CDATA[JSAPI]]></trade_type> <transaction_id><![CDATA[100715001020fsdfsd1220006123174]]></transaction_id> </xml> |
这其中的数据我随意了的,大家就参考下格式吧。注意大小写敏感。 在php中GET和POST请求发送有很多方法,一直都没有仔细的去总结过,今天看到一站长分享的GET和POST请求发送几种方法下面整理一下。
无论是畅言还是多说,我都需要从远程抓取文章的评论数,然后存入本地数据库。对于多说,请求的格式如下:
代码如下 | 复制代码 |
// 获取评论次数,参数是文章ID |
对于远程请求,有很多种方法。今天,LZ就搜罗了六种,供大家参考。
1、用file_get_contents 以get方式获取内容:
代码如下 | 复制代码 |
<?php $url='http://www.111cn.net/'; $html = file_get_contents($url); echo $html; ?> |
2、用fopen打开url,用get方式获取
代码如下 | 复制代码 |
$fp = fopen($url, 'r'); stream_get_meta_data($fp); while(!feof($fp)) { $result .= fgets($fp, 1024); } echo "url body: $result"; fclose($fp); |
3、用file_get_contents 以post方式获取内容:
代码如下 | 复制代码 |
$data = array ('foo' => 'bar'); $data = http_build_query($data); $opts = array ( 'http' => array ( 'method' => 'POST', 'header'=> "Content-type: application/x-www-form-urlencodedrn" . 'Content-Length: ' . strlen($data) . 'rn', 'content' => $data ) ); $context = stream_context_create($opts); $html = file_get_contents('http://localhost/e/admin/test.html', false, $context); echo $html; |
4、用fsockopen函数打开url,以get方式获取完整的数据,包括header和body,fsockopen需要 PHP.ini 中 allow_url_fopen 选项开启
代码如下 | 复制代码 |
function get_url ($url,$cookie=false) |
5、用fsockopen函数打开url,以POST方式获取完整的数据,包括header和body
代码如下 | 复制代码 |
function HTTP_Post($URL,$data,$cookie, $referrer='') { // parsing the given URL $URL_Info=parse_url($URL); // Building referrer if($referrer=='') // if not given use this script as referrer $referrer='111'; // making string from $data foreach($data as $key=>$value) $values[]='$key='.urlencode($value); $data_string=implode('&',$values); // Find out which port is needed – if not given use standard (=80) if(!isset($URL_Info['port'])) $URL_Info['port']=80; // building POST-request: $request.="POST ".$URL_Info['path']." HTTP/1.1n"; $request.="Host: ".$URL_Info['host']."n"; $request.="Referer: $referern"; $request.="Content-type: application/x-www-form-urlencodedn"; $request.='Content-length: '.strlen($data_string)."n"; $request.='Connection: closen'; $request.='Cookie: $cookien'; $request.='n'; $request.=$data_string.'n'; $fp = fsockopen($URL_Info['host'],$URL_Info['port']); fputs($fp, $request); while(!feof($fp)) { $result .= fgets($fp, 1024); } fclose($fp); return $result; } |
6、使用curl库,使用curl库之前,可能需要查看一下php.ini是否已经打开了curl扩展
代码如下 | 复制代码 |
$ch = curl_init(); |
相关文章
- 当来访者浏览器语言是中文就进入中文版面,国外的用户默认浏览器不是中文的就跳转英文页面。 <?php $lan = substr( $HTTP_ACCEPT_LANGUAGE,0,5); if ($lan == "zh-cn") print("<meta http-equiv='refresh' c...2015-11-08
- 腾讯视频怎么放到自己的网页上?这个问题是一个基本的问题,要把腾讯视频放到自己的网页有许多的办法,当然一般情况就是直接使用它们的网页代码了,如果你要下载资源再放到...2016-09-20
- 这篇文章主要介绍了基于JavaScript实现网页倒计时自动跳转代码 的相关资料,需要的朋友可以参考下...2015-12-29
PowerShell读取文件内容、替换文件内容、读取限定行的例子
这篇文章主要介绍了PowerShell读取文件内容、替换文件内容、读取限定行的例子,本文使用3个例子来说明实现这3个需求的操作技巧,需要的朋友可以参考下...2020-06-30网页头部声明lang=”zh-cn”、lang=“zh”、lang=“zh-cmn-Hans”区别
我们现在使用的软件都会自动在前面加一个申明了,那么在网页头部声明lang=”zh-cn”、lang=“zh”、lang=“zh-cmn-Hans”区别是什么呢?下面我们就一起来看看吧. 单...2016-09-20- 这篇文章主要介绍了C#实现Winform中打开网页页面的方法,涉及WinForm中WebBrowser的相关使用技巧,具有一定参考借鉴价值,需要的朋友可以参考下...2020-06-25
- 本文主要介绍了jQuery中取消后续执行内容的实例,代码通俗易懂。需要的朋友来看下吧...2016-12-02
python 利用jieba.analyse进行 关键词提取
这篇文章主要介绍了python 利用jieba.analyse进行关键词提取的方法,帮助大家更好的利用python,感兴趣的朋友可以了解下...2020-12-18- 今天小编就为大家分享一篇opencv3/C++轮廓的提取与筛选方式,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧...2020-04-25
- 在做ajax无刷新时,我想很多朋友都会知道js innerHTML来更改 div 或table里面的值哦. JavaScript的innerHTML 永远不知道你可以改变的内容,一个HTML元素?也许你要...2016-09-20
- 这篇文章主要介绍了Go语言通过http抓取网页的方法,实例分析了Go语言通过http操作页面的技巧,需要的朋友可以参考下...2020-05-05
- 这篇文章主要介绍了vue如何在用户要关闭当前网页时弹出提示的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧...2020-06-01
JS清除文本框内容离开在恢复及鼠标离开文本框时触发js的方法
多网站的需要填写的文本框在默认状态下都会给出一个默认的提示语言,当鼠标点击此文本框的时候能够将里面的默认文本清除,当删除输入的文本且焦点离开文本框的时候再将默认的文本写入文本框...2016-01-14- 本文主要一步一步介绍利用C#抓取页面数据的过程,抓取HTML,获取标题、描述、图片等信息,并去除HTML,希望对大家有所帮助。...2020-06-25
- 本篇文章为大家介绍了PHP利用ffmpeg提取视频中音频与视频画面的相关资料,很有参考价值,一起来看一看吧。 前言FFmpeg的名称来自MPEG视频编码标准,前面的“FF”代表...2017-07-06
- 这篇文章主要介绍了Python提取视频中图片的示例,分别按帧和按秒提取,帮助大家利用python处理视频,获取素材,感兴趣的朋友可以了解下...2020-10-23
- 本例子不是读取Excel或生成新的Excel,而是读取现有的Excel文件,然后修改Excel中的数据,就像修改mysql中数据一样的哦。 代码如下 ...2016-11-25
- 这篇文章主要介绍了c语言通过opencv实现轮廓处理与切割,具有一定借鉴价值,需要的朋友可以参考下...2020-04-25
- 现在专业性的网站越来越多,许多网友们都在网上建立起了自己的小家。不过辛辛苦苦制作的网页被人拿去改头换面却是件非常痛心的事,所以大家都想保护自己独创的...2016-09-20
- 本文主要讲了安卓7.1.1系统更新的主要内容,有兴趣的朋友快来看一看吧! 虽然你的Android设备可能还都没吃上棉花糖,但谷歌可是已经发布了最新的Android 7.1.1,如果是N...2016-12-15