php file_get_contents数据采集与常用见问题解决
先来看问题
file_get_contents不能获取带端口的网址
例如:
代码如下 | 复制代码 |
file_get_contents('http://localhost:12345'); |
没有任何获取。
解决方法是 :关闭selinux
1 永久方法 – 需要重启服务器
修改/etc/selinux/config文件中设置SELINUX=disabled ,然后重启服务器。
2 临时方法 – 设置系统参数
使用命令setenforce 0
附:
setenforce 1 设置SELinux 成为enforcing模式
setenforce 0 设置SELinux 成为permissive模式
file_get_contents超时
代码如下 | 复制代码 |
function _file_get_contents($url) } |
好了上面的问题得到解决之后我们可以开始采集了。
代码如下 | 复制代码 |
<?php //全国,判断条件是$REQUEST_URI是否含有html if (!strpos($_SERVER["REQUEST_URI"],".html")) { $page="http://qq.ip138.com/weather/"; $html = file_get_contents($page,'r'); $pattern="/<B>全国主要城市、县当天和未来五天天气趋势预报在线查询</B>(.*?)<center style="padding:3px">/si"; //正则匹配之间的html preg_match($pattern,$html,$pg); echo ""; //正则替换远程地址为本地地址 $p=preg_replace('//weather/(w+)/index.htm/', 'tq.php/$1.html', $pg[1]); echo $p; } //省,判断条件是$REQUEST_URI是否含有? else if(!strpos($_SERVER["REQUEST_URI"],"?")){ //yoyo推荐的使用分割获得数据,这里是获得省份名称 $province=explode("/",$_SERVER["REQUEST_URI"]); $province=explode(".",$province[count($province)-1]); $province=$province[0]; //被注释掉的是我自己写出来的正则,感觉写的不好,但效果等同上面 //preg_match('/[^/]+[.(html)]$/',$_SERVER["REQUEST_URI"],$pro); //$province=preg_replace('/.html/','',$pro[0]); $page="http://qq.ip138.com/weather/".$province."/index.htm"; //获取html数据之前先尝试打开页面,防止恶意输入地址导致出错 if (!@fopen($page, "r")) { die("对不起,该地址不存在!<a href=javascript:history.back(1)>点击这里返回</a>"); exit(0); } $html = file_get_contents($page,'r'); $pattern="/五天天气趋势预报</B>(.*?)请输入输入市/si"; preg_match($pattern,$html,$pg); echo ""; //正则替换,获取省份,城市 $p=preg_replace('//weather/(w+)/(w+).htm/', '$2.html?pro=$1', $pg[1]); echo $p; } else { //市,通过get传递省份 $pro=$_REQUEST['pro']; $city=explode("/",$_SERVER["REQUEST_URI"]); $city=explode(".",$city[count($city)-1]); $city=$city[0]; //preg_match('/[^/]+[.(html)]+[?]/',$_SERVER["REQUEST_URI"],$cit); //$city=preg_replace('/.html?/','',$cit[0]); $page="http://qq.ip138.com/weather/".$pro."/".$city.".htm"; if (!@fopen($page, "r")) { die("对不起,该地址不存在!<a href=javascript:history.back(1)>点击这里返回</a>"); exit(0); } $html = file_get_contents($page,'r'); $pattern="/五天天气趋势预报</B>(.*?)请输入输入市/si"; preg_match($pattern,$html,$pg); echo ""; //获取真实的图片地址 $p=preg_replace('//image//', 'http://qq.ip138.com/image/', $pg[1]); echo $p; } ?> |
如果上面办法无法采集到数据我们可以使用来处理
代码如下 | 复制代码 |
<?php $url = "http://www.111cn.net "; $ch = curl_init(); $timeout = 5; curl_setopt($ch, CURLOPT_URL, $url); curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1); curl_setopt($ch, CURLOPT_CONNECTTIMEOUT, $timeout); //在需要用户检测的网页里需要增加下面两行 //curl_setopt($ch, CURLOPT_HTTPAUTH, CURLAUTH_ANY); //curl_setopt($ch, CURLOPT_USERPWD, US_NAME.":".US_PWD); $contents = curl_exec($ch); curl_close($ch); echo $contents; ?> |
Session是什么
Session是指有始有终的一系列动作或信息,比如去看电影从进入影院到走出影院的整个过程可以称为一个Session。Cookie将数据存储在客户端计算机上,而Session将不定量的变量存储在服务器端。
每一个用户链接网站服务器后便会产生一个Session,所以首先要告诉服务器使用Session功能来存储数据。启用Session功能的方式有两种:
1、使用session_start()函数启动会话,其结构形式如下:
session_start()
函数不能带参数,其返回值为布尔型。
2、在php.ini中设置参数 session.auto_start,将此参数设为1,即当有连接到服务器后Session功能将自动启用。
启动Session后,在使用Session变量之前首先要注册变量,之后才能使用,反之不使用某个变量时就要取消注册。Session_register(变量名)可以注册一个Session变量;Session_unregister(变量名)可以取消注册一个Session变量,例如:
代码如下 | 复制代码 |
session_start(); /* 启动session变量 */ |
调用session变量
php session使用方法:用函数$_SESSION[]可以创建一个函数变量,其格式如下:
代码如下 | 复制代码 |
$_SESSION['$string']=$str; |
参数$string是要定义的变量名,$str是变量值。在调用时使用$_SESSION[$string]的格式。
实例:
代码如下 | 复制代码 |
<?php |
session的使用
本站前面介绍了session的一些概念以及基本操作,这里通过实例介绍php session使用的方法。
实例代码:
代码如下 | 复制代码 |
<?php |
session.php代码:
代码如下 | 复制代码 |
<?php session_start(); echo "用户名是:" .$_COOKIE['name'] ."<br>"; echo "密码是:" .$_SESSION['password'] ."<br>"; echo "访问时间是:" .date('Y m d H:i:s', $_SESSION['time']) ."<br>"; ?> |
获取session_id的值
每一个session都有会被指定一个特定的id,用session_id来标识。我们可以通过session_id()函数查看当前session_id的值,其结构形式如下:
session_id()
实例:
代码如下 | 复制代码 |
<?php |
cookie与session的区别
session和cookie都是重要的会话管理应用,在许多的php开发项目都会用到。它们的作用是能够给不同的用户创建不同的值,从而让不同的用户返回的结果都不相同。
那么session cookie区别在哪里呢?
cookie是利用客户端来创建,当用户用浏览器打开网站时就会给用户创建一个cookie,这个过程是由用户的电脑执行的,网站的服务器只是发送一些指令。因此如果用户禁止了cookie功能,则无法利用cookie来实现相关功能。
session则是利用服务端来创建,整个过程都由服务器来执行,用户无权干预。
在运用时,如果你希望节约服务器的资源,可以选用cookie来进行会话管理;如果你希望所有的浏览者都能使用会话管理,则应该选用session。
静态页面中看上去好你是不能直接调用php文件了,但是有可以使用js调用方式来调用php文件,当然还可以使用ajax 调用php文件哦,下面我来给大家介绍举一个简单的例子来说明:
如在页面a.html中用下面这句调用,可以将action=test的参数传递到b.php。
Javascript代码
代码如下 | 复制代码 |
<script type="text/javascript" src="b.php?action=test"></script> |
在b.php中有这样一段PHP代码:
PHP代码
代码如下 | 复制代码 |
<? $action=$_GET['action']; |
当执行a.html文件时,就会调用b.php文件,并将b.php文件的输出作为JS语句来执行,内容为JS传递的参数action的值,也就是在PHP文件中接受过来的action的值.
jquery的load函数是请求另一个文件并加载到当前DOM里的调用
1、加载一个php文件,该php文件不含传递参数
代码如下 | 复制代码 |
$("#myID").load("test.php"); |
2、加载一个php文件,该php文件含有一个传递参数
代码如下 | 复制代码 |
$("#myID").load("test.php",{"name" : "Adam"}); |
3. 加载一个php文件,该php文件含有多个传递参数。注:参数间用逗号分隔
代码如下 | 复制代码 |
$("#myID").load("test.php",{"name" : "Adam" ,"site":www.111cn.net}); //导入的php文件含有一个传递参数,类似于:test.php?name=Adam&site=www.111cn.net |
4. 加载一个php文件,该php文件以数组作为传递参数
代码如下 | 复制代码 |
$("#myID").load("test.php",{‘myinfo[]‘, ["Adam", www.111cn.net}); |
在php遍历数组有三个函数foreach、each、list & each下面我们看它们是如何遍历多维数组的。
先看一个遍历二维数组
代码如下 | 复制代码 |
<?php |
下面看遍历三维数组
例1
代码如下 | 复制代码 |
function arr_fun($arr){ |
例2
代码如下 | 复制代码 |
<?php 输出结果 Array |
利用list与each遍历二维数组
代码如下 | 复制代码 |
<?php while (list($key, $value) = each($sports)) { |
在php中来判断字符串是否为中文,就会沿袭这个思路:
代码如下 | 复制代码 |
<?php $str = "php编程"; if (preg_match("/^[u4e00-u9fa5]+$/",$str)) { print("该字符串全部是中文"); } else { print("该字符串不全部是中文"); } ?> |
不过,很快就会发现,php并不支持这样的表达,报错:
Warning: preg_match() [function.preg-match]: Compilation failed: PCRE does not support L, l, N, U,
or u at offset 3 in test.php on line 3
刚开始从google上查了很多次,想从php正则表达式对于十六进制数据的
表达方式上进行突破,发现在php中,是用x表示十六进制数据的。于是,
变换成如下的代码:
代码如下 | 复制代码 |
$str = "php编程"; if (preg_match("/^[x4e00-x9fa5]+$/",$str)) { print("该字符串全部是中文"); } else { print("该字符串不全部是中文"); } |
貌似不报错了,判断的结果也正确,不过把$str换成“编程”两字,结果却还是显示“该字符串不全部是中文”,看
来这样的判断还是不够准确。
如果要精准匹配中文,即匹配纯中文字符,或匹配中文字符加上全角标点,则需要根据不同编码环境使用不同方法。
下面以两种常用的编码(gb2312,utf-8)
下面给两个例子:
代码如下 | 复制代码 |
(1) ANSI编程环境下: $strtest = “yyg中文字符yyg”; $pregstr = "/([".chr(0xb0)."-".chr(0xf7)."][".chr(0xa1)."-".chr(0xfe)."])+/i"; if(preg_match($pregstr,$strtest,$matchArray)){ echo $matchArray[0]; } //output:中文字符 (2) Utf-8编程环境下: $strtest = “yyg中文字符yyg”; $pregstr = "/[x{4e00}-x{9fa5}]+/u"; if(preg_match($pregstr,$strtest,$matchArray)){ echo $matchArray[0]; } //output:中文字符 |
相关文章
php 中file_get_contents超时问题的解决方法
file_get_contents超时我知道最多的原因就是你机器访问远程机器过慢,导致php脚本超时了,但也有其它很多原因,下面我来总结file_get_contents超时问题的解决方法总结。...2016-11-25php file_get_contents 设置代理抓取页面示例
file_get_contents函数在php中可以直接打开本地文件也可以直接抓取远程服务器文件,如果简单的采集我们可以使用file_get_contents直接来操作,如果有防采集我们可能需要...2016-11-25- 这篇文章主要介绍了C# 10个常用特性,文中示例代码非常详细,帮助大家更好的理解和学习,感兴趣的朋友可以了解下...2020-07-09
php报错file_get_contents(): php_network_getaddresses问题
本文章来为各位介绍一篇关于file_get_contents(): php_network_getaddresses: getaddrinfo failed: Name or service not known...错误解决办法。 昨天,服务器的DN...2016-11-25- file_get_contents的超时处理话说,从PHP5开始,file_get_content已经支持context了(手册上写着:5.0.0 Added the context support. ),也就是说,从5.0开始,file_get_contents其实也可以POST数据。今天说的这篇是讲超时的,确实在...2013-10-04
file_get_contents()获取https出现这个错误Unable to find the wrapper “https”
下面我们来看一篇关于file_get_contents()获取https出现这个错误Unable to find the wrapper “https”问题的解决办法. file_get_contents()获取https出现这个错...2016-11-25- 在使用file_put_contents时会碰到并发性问题了,对于这个问题我们有多种解决方案了,其实锁是小编比较喜欢的解决办法了,当然也有其它办法,具体如下。 解决 办法一,fil...2016-11-25
php提示Warning: file_get_contents(): couldn’t resolve
在使用file_get_contents函数获取远程文件时提示Warning: file_get_contents(): couldn’t resolve错误了,这个我们可以看出是dns的问题,解决办法也简单。 今天在...2016-11-25- 本文章来给各位同学介绍file_get_contents不能获取带端口的网址解决办法,有需要了解的同学可参考。 先们来了解file_get_contents() 函数,官方介绍说它是把整个...2016-11-25
php中file_get_contents和curl_get_contents介绍
php中file_get_contents和curl_get_contents介绍 有需要的朋友可参考一下。 分享一个实际在用的函数: file_get_contents() 函数是用于将文件的内容读入到一个字符...2016-11-25- 这篇文章介绍了php中常用的数组与函数,非常具有价值,有兴趣的同学可以参考一下 本文实例总结了php常用数组函数。分享给大家供大家参考,具体如下: 1. array array_mer...2016-12-31
- PHP编程常用技巧四则: 1.配置PHP文件目录 作为服务器端解释执行的脚本语言,PHP程序放置在某个服务器可以访问的目录下,一般可以通过修改Apache的httpd.conj...2016-11-25
- 本文章来收藏了大量的关于在css中hack的用法及在不同浏览器下hack语法写法,有需要了解的朋友可参考一下。 区别不同浏览器的CSS hack写法: 区别IE6与FF: b...2017-07-06
centos下file_put_contents()无法写入文件的原因及解决方法
下面小编就为大家带来一篇centos下file_put_contents()无法写入文件的原因及解决方法。小编觉得挺不错的,现在就分享给大家,也给大家做个参考。一起跟随小编过来看看吧...2017-04-03- 这篇文章主要给大家介绍了关于C#开发中经常用的加密解密方法的相关资料,文中通过示例代码介绍的非常详细,对大家学习或者使用C#具有一定的参考学习价值,需要的朋友们下面来一起学习学习吧...2020-06-25
从零开始的html教程之CSS篇(3):常用的字体与文本属性
一聚教程网 从零开始的html教程之CSS篇(2),介绍了css中常用的文字文本属性。这系列教程讲解CSS叠层样式表的知识,希望大家喜欢! 一、css常用的字体属性 1.字体的设置...2017-01-22- 本文详细总结了Pycharm的常用快捷键,下文介绍使用方法和场景, 并不需要记忆这些快捷键, 你只需要知道有这些快捷键, 再需要用的时候查看一下, 用的多了自然也就记住了,需要的朋友可以参考下...2021-05-13
- <?php array_values() //返回数组中所有元素 array_walk() //使用自定义函数遍历数组都一个单元 arsort(); //保留数组下标于值的关系进行倒序排列 asort() //保留...2016-11-25
- PHP的功能描述 ABS装置( )返回绝对值的第3号 acos ( )返回arccosine的第3号 acosh ( )返回逆双曲余弦的4号 阿辛( )返回反正弦的第3号 asinh ( )返回逆双曲正弦的4号...2016-11-25
- <html> <head> <title>test</title> <meta http-equiv="Content-Type" content="text/html; charset=utf-8" /> <script type="text/javascript" src="http://ajax...2016-11-25