php 正则表达式 取标题,关键词,内容代码
//获取标题
$inarr = array();
preg_match("/<title>(.*)</title>/isU",$body,$inarr);
if(isset($inarr[1]))
{
$redatas['title'] = $inarr[1];
}
//获取关键词
$inarr = array();
preg_match("/<meta[s]+name=['"]keywords['"] content=['"](.*)['"]/isU",$body,$inarr);
if(isset($inarr[1]))
{
$redatas['keywords'] = cn_substr(html2text($inarr[1]),30);
}
//获取摘要
$inarr = array();
preg_match("/<meta[s]+name=['"]description['"] content=['"](.*)['"]/isU",$body,$inarr);
if(isset($inarr[1]))
{
$redatas['description'] = cn_substr(html2text($inarr[1]),$cfg_auot_description);
}
//获取内容
if($s!='' && $e!='')
{
$redatas['body'] = GetHtmlAreaA($s,$e,$body);
if($redatas['body']!='' && $redatas['description']=='')
{
$redatas['description'] = cn_substr(html2text($redatas['body']),$GLOBALS['cfg_auot_description']);
}
}
}
return $redatas;
<?php
// require dirname(__FILE__) . '/MooPHP/MooPHP.php';
define('GMAG', 0xE6359A60);
//note 获取和处理可能要取得的变量
//$site = MooGetGPC('site', 'string');
$host ='';
$style = isset($_GET['style'])?$_GET['style']:1;
$host = $_SERVER['HTTP_HOST'];
$site = str_replace('http://', '', $host);
if($site) {
$pr = getPR($site);
switch( $style )
{
case 3:
echo 'document.write("<a href=http://tool.111cn.net/pr/pr.php title=中国WEB第一站 target=_blank><img src=http://tool.111cn.net/pr/primg/a'.$pr.'.png border=0 /></a>");';
break;
case 2:
echo 'document.write("<a href=http://tool.111cn.net/pr/pr.php title=中国WEB第一站 target=_blank><img src=http://tool.111cn.net/pr/primg/b'.$pr.'.png border=0 /></a>");';
break;
case 1:
echo 'document.write("<a href=http://tool.111cn.net/pr/pr.php title=中国WEB第一站 target=_blank><img src=http://tool.111cn.net/pr/primg/c'.$pr.'.png border=0 /></a>");';
break;
default:
echo 'document.write("<a href=http://tool.111cn.net/pr/pr.php title=中国WEB第一站 target=_blank><img src=http://tool.111cn.net/pr/primg/a'.$pr.'.png border=0 /></a>");';
break;
}
}
else
{
echo '有问题';
}
// include MooTemplate("pr_index");
//note 处理获得pr值的函数
// url get method macro.
define('G_PR_GET_TYPE_FILE', 1); // use fopen() function
define('G_PR_GET_TYPE_SOCKET', 2); // use standard fsocketopen function
// main function to be called
function getPR($_url,$gettype=G_PR_GET_TYPE_SOCKET){
$url = 'info:'.$_url;
$ch = GCH(strord($url));
$ch = NewGCH($ch);
$url=str_replace("_","%5F",'info:'.urlencode($_url));
$googlePRUrl =
"http://64.233.161.104/search?client=navclient-auto&ch=6"
.$ch."&ie=UTF-8&oe=UTF-8&features=Rank&q=".$url;
$pr_str = retrieveURLContent($googlePRUrl,$gettype);
return intval(substr($pr_str,strrpos($pr_str, ":")+1));
}
//unsigned shift right
function zeroFill($a, $b){
$z = hexdec('8'.implode('',array_fill(0,PHP_INT_SIZE*2-1,'0')));
if ($z & $a){
$a = ($a>>1);
$a &= (~$z);
$a |= hexdec('4'.implode('',array_fill(0,PHP_INT_SIZE*2-1,'0')));
$a = ($a>>($b-1));
}
else{
$a = ($a>>$b);
}
return $a;
}
// discard bits beyonds 32 bit.
function trunkbitForce32bit($n){
if(PHP_INT_SIZE <= 4){
settype($n,'float');
if ( $n < 0 ) $n += 4294967296;
return $n;
}
else{
$clearbit = '';
for($i=0;$i<PHP_INT_SIZE-4;$i++){
$clearbit .= '00';
}
for($i=0;$i<4;$i++){
$clearbit .= 'ff';
}
return ($n & hexdec($clearbit));
}
}
function bigxor($m,$n){
//if(function_exists('gmp_init')){
// return floatval(gmp_strval(gmp_xor($m,$n)));
//}
//else{
return $m ^ $n;
//}
}
function mix($a,$b,$c){
$a = trunkbitForce32bit($a);
$b = trunkbitForce32bit($b);
$c = trunkbitForce32bit($c);
$a -= $b; $a = trunkbitForce32bit($a);
$a -= $c; $a = trunkbitForce32bit($a);
$a = bigxor($a,(zeroFill($c,13))); $a = trunkbitForce32bit($a);
$b -= $c; $b = trunkbitForce32bit($b);
$b -= $a; $b = trunkbitForce32bit($b);
$b = bigxor($b,trunkbitForce32bit($a<<8)); $b = trunkbitForce32bit($b);
$c -= $a; $c = trunkbitForce32bit($c);
$c -= $b; $c = trunkbitForce32bit($c);
$c = bigxor($c,(zeroFill($b,13))); $c = trunkbitForce32bit($c);
$a -= $b;$a = trunkbitForce32bit($a);
$a -= $c;$a = trunkbitForce32bit($a);
$a = bigxor($a,(zeroFill($c,12)));$a = trunkbitForce32bit($a);
$b -= $c;$b = trunkbitForce32bit($b);
$b -= $a;$b = trunkbitForce32bit($b);
$b = bigxor($b,trunkbitForce32bit($a<<16));
$c -= $a; $c = trunkbitForce32bit($c);
$c -= $b; $c = trunkbitForce32bit($c);
$c = bigxor($c,(zeroFill($b,5))); $c = trunkbitForce32bit($c);
$a -= $b;$a = trunkbitForce32bit($a);
$a -= $c;$a = trunkbitForce32bit($a);
$a = bigxor($a,(zeroFill($c,3)));$a = trunkbitForce32bit($a);
$b -= $c;$b = trunkbitForce32bit($b);
$b -= $a;$b = trunkbitForce32bit($b);
$b = bigxor($b,trunkbitForce32bit($a<<10));
$c -= $a; $c = trunkbitForce32bit($c);
$c -= $b; $c = trunkbitForce32bit($c);
$c = bigxor($c,(zeroFill($b,15))); $c = trunkbitForce32bit($c);
return array($a,$b,$c);
}
function NewGCH($ch){
$ch = ( trunkbitForce32bit( ( $ch / 7 ) << 2 ) |
( ( myfmod( $ch,13 ) ) & 7 ) );
$prbuf = array();
$prbuf[0] = $ch;
for( $i = 1; $i < 20; $i++ )
{
$prbuf[$i] = $prbuf[$i-1] - 9;
}
$ch = GCH( c32to8bit( $prbuf ) );
return $ch;
}
function myfmod($x,$y){
$i = floor( $x / $y );
return ( $x - $i * $y );
}
function c32to8bit($arr32){
$arr8 = array();
for( $i = 0; $i < count($arr32); $i++ ) {
for( $bitOrder = $i * 4;
$bitOrder <= $i * 4 + 3; $bitOrder++ ) {
$arr8[$bitOrder] = $arr32[$i] & 255;
$arr32[$i] = zeroFill( $arr32[$i], 8 );
}
}
return $arr8;
}
function GCH($url, $length=null){
if(is_null($length)) {
$length = sizeof($url);
}
$init = 0xE6359A60;
$a = 0x9E3779B9;
$b = 0x9E3779B9;
$c = 0xE6359A60;
$k = 0;
$len = $length;
$mixo = array();
while( $len >= 12 ){
$a += ($url[$k+0] +trunkbitForce32bit($url[$k+1]<<8)
+trunkbitForce32bit($url[$k+2]<<16)
+trunkbitForce32bit($url[$k+3]<<24));
$b += ($url[$k+4] +trunkbitForce32bit($url[$k+5]<<8)
+trunkbitForce32bit($url[$k+6]<<16)
+trunkbitForce32bit($url[$k+7]<<24));
$c += ($url[$k+8] +trunkbitForce32bit($url[$k+9]<<8)
+trunkbitForce32bit($url[$k+10]<<16)
+trunkbitForce32bit($url[$k+11]<<24));
$mixo = mix($a,$b,$c);
$a = $mixo[0]; $b = $mixo[1]; $c = $mixo[2];
$k += 12;
$len -= 12;
}
$c += $length;
switch( $len ) {
case 11:
$c += trunkbitForce32bit($url[$k+10]<<24);
case 10:
$c+=trunkbitForce32bit($url[$k+9]<<16);
case 9 :
$c+=trunkbitForce32bit($url[$k+8]<<8);
case 8 :
$b+=trunkbitForce32bit($url[$k+7]<<24);
case 7 :
$b+=trunkbitForce32bit($url[$k+6]<<16);
case 6 :
$b+=trunkbitForce32bit($url[$k+5]<<8);
case 5 :
$b+=trunkbitForce32bit($url[$k+4]);
case 4 :
$a+=trunkbitForce32bit($url[$k+3]<<24);
case 3 :
$a+=trunkbitForce32bit($url[$k+2]<<16);
case 2 :
$a+=trunkbitForce32bit($url[$k+1]<<8);
case 1 :
$a+=trunkbitForce32bit($url[$k+0]);
}
$mixo = mix( $a, $b, $c );
$mixo[2] = trunkbitForce32bit($mixo[2]);
if( $mixo[2] < 0 ){
return (
hexdec('1'.
implode('',
array_fill(0,PHP_INT_SIZE*2,'0')))
+ $mixo[2] );
}
else{
return $mixo[2];
}
}
// converts a string into an array of integers
// containing the numeric value of the char
function strord($string){
for($i=0;$i<strlen($string);$i++){
$result[$i] = ord($string{$i});
}
return $result;
}
function retrieveURLContent($url,$gettype){
switch($gettype){
case G_PR_GET_TYPE_FILE:
return retrieveURLContentByFile($url);
break;
default:
return retrieveURLContentBySocket($url);
break;
}
}
function retrieveURLContentByFile($url){
$fd = @fopen($url,"r");
if(!$fd){
return false;
}
$result = "";
while($buffer = fgets($fd, 4096)) {
$result .= $buffer;
}
fclose($fd);
return $result;
}
function retrieveURLContentBySocket($url,
$host="",
$port=80,
$timeout=30){
if($host == ""){
if(!($pos = strpos($url,'://'))){
return false;
}
$host = substr( $url,
$pos+3,
strpos($url,'/',$pos+3) - $pos - 3);
$uri = substr($url,strpos($url,'/',$pos+3));
}
else{
$uri = $url;
}
$request = "GET ".$uri." HTTP/1.0rn"
."Host: ".$host."rn"
."Accept: */*rn"
."User-Agent: ZealGetrn"
."rn";
$sHnd = @fsockopen ($host, $port, $errno, $errstr, $timeout);
if(!$sHnd){
return false;
}
@fputs ($sHnd, $request);
// Get source
$result = "";
while (!feof($sHnd)){
$result .= fgets($sHnd,4096);
}
fclose($sHnd);
$headerend = strpos($result,"rnrn");
if (is_bool($headerend))
{
return $result;
}
else{
return substr($result,$headerend+4);
}
}
站长推荐:
http://tool.111cn.net/pr/pr.php可以查询你网站的pr值并且还可以调用pr在你网站显示哦。
下面讲的是用php生成静态html页面方法哦,方法有几种,各位朋友可以根据自己的实际情况来实现。第一种:利用模板。目前PHP的模板可以说是很多了,有功能强大的smarty,还有简单易用的smarttemplate等。它们每一种模板,都有一个获取输出内容的函数。我们生成静态页面的方法,就是利用了这个函数。用这个方法的优点是,代码比较清晰,可读性好。
这里我用smarty做例子,说明如何生成静态页
require('smarty/Smarty.class.php');
$t = new Smarty;
$t->assign("title","Hello World!");
$content = $t->fetch("templates/index.htm");
//这里的 fetch() 就是获取输出内容的函数,现在$content变量里面,就是要显示的内容了
$fp = fopen("archives/2005/05/19/0001.html", "w");
fwrite($fp, $content);
fclose($fp);
?>
第二种方法:利用ob系列的函数。这里用到的函数主要是 ob_start(), ob_end_flush(), ob_get_content(),其中ob_start()是打开浏览器缓冲区的意思,打开缓冲后,所有来自PHP程序的非文件头信息均不会发送,而是保存在内部缓冲区,直到你使用了ob_end_flush().而这里最重要的一个函数,就是ob_get_contents(),这个函数的作用是获取缓冲区的内容,相当于上面的那个fetch(),道理一样的。代码:
ob_start();
echo "Hello World!";
$content = ob_get_contents();//取得php页面输出的全部内容
$fp = fopen("archives/2005/05/19/0001.html", "w");
fwrite($fp, $content);
fclose($fp);
?>
我选用的第2种方法 也就是用ob系列的函数
我刚开始看这个的时候有点不太明白 后来才知道ob是output buffering的意思 也就是输出缓存
当你准备输出的时候 所有的数据都保存在ob里面 服务器解析完php以后 把所有要输出到客户端的html代码都存放在ob里面 如果我们要输出html静态页面 只要把缓存取出来写入一个html页面即可
所以原理其实是很简单的
这里用到了几个函数 由于我初学php 很多函数我还不了解 所以这里也说明一下 希望可以帮助大家
ob_start():开始“捕捉”缓存 也就是从这里开始 打开浏览器的缓存
ob_end_flush():关闭浏览器缓存
ob_get_content():读取缓存内容
fopen("文件路径","打开模式")打开文件 97xxoo这个函数的打开模式有好几种 下面介绍几种主要的模式:
'r' 只读方式打开,将文件指针指向文件头。??
'r+' 读写方式打开,将文件指针指向文件头。??
'w' 写入方式打开,将文件指针指向文件头并将文件大小截为零。如果文件不存在则尝试创建之。??
'w+' 读写方式打开,将文件指针指向文件头并将文件大小截为零。如果文件不存在则尝试创建之。??
fwrite("文件名称","写入内容") 写入文件
fclose() 关闭文件
由于我要转换的html文件非常多 可能有几百个 所以这里不能静态指定fopen的路径 大家可以设置一个路径变量 里面可以保存用户传来的id等信息 方便进行html文件命名 下面是我结合上次php读取xml数据的一个简单例子 程序代码
ob_start();????????????//打开浏览器缓存
?>
//下面是读取xml数据
$parser = xml_parser_create(); //创建一个parser编辑器
xml_set_element_handler($parser, "startElement", "endElement");//设立标签触发时的相应函数 这里分别为startElement和endElenment
xml_set_character_data_handler($parser, "characterData");//设立数据读取时的相应函数
$xml_file="1.xml";//指定所97gan要读取的xml文件,可以是url
$filehandler = fopen($xml_file, "r");//打开文件
while ($data = fread($filehandler, 4096))
{
xml_parse($parser, $data, feof($filehandler));
}//每次取出4096个字节进行处理
fclose($filehandler);
xml_parser_free($parser);//关闭和释放parser解析器
$name=false;
$position=false;
function startElement($parser_instance, $element_name, $attrs) //起始标签事件的函数
{
global $name,$position;??
if($element_name=="NAME")
{
$name=true;
$position=false;
echo "名字:";
}
if($element_name=="POSITION")
{$name=false;
$position=true;
echo "职位:";
}
}
function characterData($parser_instance, $xml_data) //读取数据时的函数
//此教程来源于97xxoo教程网(www.97xxoo.org)
查看完整的教程请点:http://www.97xxoo.org/article/1/2008/20081123423.shtml
{
??global $name,$position;
??if($position)
echo $xml_data."
";
if($name)
echo $xml_data."
";
}
function endElement($parser_instance, $element_name) //结束标签事件的函数
{
global $name,$position;
$name=false;
$position=false;
}
?>
//xml数据读取完毕
$htmlname=$id.".html";??????????????????????????//$id可以自己定义 这里代表用户传来的id
$htmlpath="archives/".$htmlname;?????? //设置路径变量
$content = ob_get_contents();??????????????//取得php页面输出的全部内容
$fp = fopen($htmlpath, "w");
fwrite($fp, $content);
fclose($fp);
?>
$TheUrl="http://www.google.cn/search?q=+site:".$q."&num=20&complete=1&hl=zh-CN&lr=&newwindow=1&as_qdr=".$t."&start=".$p."&sa=N";
$TheThie=GetPage($TheUrl);
}
$TheBody=GetContent($TheThie,"<div id=res class=med>","<div id=bsf style");
$TheBody=iconv( "UTF-8", "gb2312//IGNORE" , $TheBody);
$TheBody=str_replace("<!--z--><p><i>","<!--z--><!--<p><i>",$TheBody);
$TheBody=str_replace('<br clear="all"/>','<br clear="all"/>',$TheBody);
$TheBody=preg_replace('<a href="/search?num=20(.+?)amp;as_qdr=(.+?)&q=site:(.+?)&start=(.+?)&sa=N">','a href=?q=$3&t=$2&p=$4> <!--z--',$TheBody);
$TheBody=str_replace("该网站可能含有恶意软件,有可能会危害您的电脑。","",$TheBody);
$TheBody=str_replace("/interstitial?url=","",$TheBody);
$TheBody=str_replace("- <nobr>","",$TheBody);
$TheBody=str_replace("类似网页","",$TheBody);
$total=GetContent($TheThie,"</b></div><p>","</b> - <b>");
$total=iconv( "UTF-8", "gb2312//IGNORE" , $total);
$total=GetContent($total,"有 <b>","</b> 项");
$total=str_replace("有 <b>","",$total);
$total=str_replace(",","",$total);
$total=intval($total);
function GetPagebreakDM($totalPage,$nowPage,$aid)
{
global $cfg_rewrite;
if($totalPage==1)
{
return "";
}
$PageList = "<li><a>共".$totalPage."页: </a></li>";
$nPage = $nowPage-1;
$lPage = $nowPage+1;
if($nowPage==1)
{
$PageList.="<li><a href='#'>上一页</a></li>";
}
else
{
if($nPage==1)
{
$PageList.="<li><a href='view.php?aid=$aid'>上一页</a></li>";
if($cfg_rewrite == 'Y')
{
$PageList = preg_replace("/.php?aid=(d+)/i",'-\1-1.html',$PageList);
}
}
else
{
$PageList.="<li><a href='view.php?aid=$aid&pageno=$nPage'>上一页</a></li>";
if($cfg_rewrite == 'Y')
{
$PageList = str_replace(".php?aid=","-",$PageList);
$PageList = preg_replace("/&pageno=(d+)/i",'-\1.html',$PageList);
}
}
}
for($i=1;$i<=$totalPage;$i++)
{
if($i==1)
{
if($nowPage!=1)
{
$PageList.="<li><a href='view.php?aid=$aid'>1</a></li>";
if($cfg_rewrite == 'Y')
{
$PageList = preg_replace("/.php?aid=(d+)/i",'-\1-1.html',$PageList);
}
}
else
{
$PageList.="<li class="thisclass"><a>1</a></li>";
}
}
else
{
$n = $i;
if($nowPage!=$i)
{
$PageList.="<li><a href='view.php?aid=$aid&pageno=$i'>".$n."</a></li>";
if($cfg_rewrite == 'Y')
{
$PageList = str_replace(".php?aid=","-",$PageList);
$PageList = preg_replace("/&pageno=(d+)/i",'-\1.html',$PageList);
}
}
else
{
$PageList.="<li class="thisclass"><a href='#'>{$n}</a></li>";
}
}
}
if($lPage <= $totalPage)
{
$PageList.="<li><a href='view.php?aid=$aid&pageno=$lPage'>下一页</a></li>";
if($cfg_rewrite == 'Y')
{
$PageList = str_replace(".php?aid=","-",$PageList);
$PageList = preg_replace("/&pageno=(d+)/i",'-\1.html',$PageList);
}
}
else
{
$PageList.= "<li><a href='#'>下一页</a></li>";
}
return $PageList;
}
相关文章
- 取双引号内的内容我们如果一个字符串中只有一个可以使用explode来获得,但如果有多个需要使用正则表达式来提取了,具体的例子如下。 写程序的时候总结一点经验,如何只...2016-11-25
- 今天遇到一个正则匹配的问题,忽然翻到有捕获组的概念,手册上也是一略而过,百度时无意翻到C#和Java中有对正则捕获组的特殊用法,搜索关键词有PHP时竟然没有相关内容,自己试了一下,发现在PHP中也是可行的,于是总结一下,分享的同...2015-11-08
- 正则表达式是一门非常有用的并且进行模糊判断的一个功能了,我们下面来看通过正则来验证输入汉字、英语、数字,具体如下。 收藏了正则表达式。可以验证只能输入数...2016-11-25
- 这篇文章主要介绍了java正则表达式判断前端参数修改表中另一个字段的值,需要的朋友可以参考下...2021-05-07
- 常用的日期时间正则表达式 下面收藏了大量的日期时间正则匹配函数,包括分钟,时间与秒都能达到。 正则表达式 (?n:^(?=d)((?<day>31(?!(.0?[2469]|11))|30(?!.0?2)|29(...2016-11-25
- 网址规则是可寻的,所以我们可以使用正则表达式来提取字符串中的url地址了,下面一起来看看小编整理的几个PHP正则表达式匹配验证提取网址URL实例. 匹配网址 URL 的...2016-11-25
- 这篇文章主要介绍了正则表达式中两个反斜杠的匹配规则,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下...2021-05-07
- 这篇文章给大家详细介绍了JS中使用正则表达式g模式和非g模式的区别,非常不错,具有参考借鉴价值,需要的朋友参考下吧...2017-04-03
- 这篇文章主要介绍了C#正则表达式使用方法,大家参考使用...2020-06-25
- c#正则表达式,用于字符串处理、表单验证等场合,实用高效。现将一些常用的表达式收集于此,以备不时之需。...2020-06-25
- 我们这个做法是把搜索结果出来,与搜索关键词相同的替换成高亮的字, 我们会用到str_replace(你找的关键字,你找的关键字,$str); 就这么容易了,好了下面我们来看一...2016-11-25
- 关键词高亮在php中实现相对很简单,他只需要获取利用提取过来的关键词进行分词然后再利用str_replace()函数来实现替换就可以原理相对很简单。 项目结构: 开始搜索:...2016-11-25
- 本文主要介绍了JavaScript利用正则表达式替换字符串中内容的具体实现方法,并做了简要注释,便于理解。具有一定的参考价值,需要的朋友可以看下...2017-01-09
- 这篇文章主要介绍了python正则表达式常用函数及使用方法,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下...2021-05-07
- 在本篇文章里小编给大家整理了关于C#中类成员的定义的修饰关键词知识点内容,有需要的朋友们可以参考下。...2020-06-25
- 这篇文章给大家介绍了Idea使用正则表达式批量替换字符串的方法,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友参考下吧...2021-07-21
- 今天遇到一个正则匹配的问题,忽然翻到有捕获组的概念,手册上也是一略而过,百度时无意翻到C#和Java中有对正则捕获组的特殊用法,搜索关键词有PHP时竟然没有相关内容,自己试了一下,发现在PHP中也是可行的,于是总结一下,分享的同...2015-11-08
- 正则表达式的作用用来描述字符串的特征。本文重点给大家介绍C# 中使用正则表达式匹配字符的含义,非常不错,具有一定的参考借鉴价值,需要的朋友参考下吧...2020-06-25
- 这篇文章主要给大家介绍了关于利用Python验证的50个常见正则表达式的相关资料,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧...2021-03-11
- 这篇文章主要介绍了C#运算符和表达式,这是自学C#编程的第五篇,希望对大家的学习有所帮助。...2020-06-25