当前位置:  编程技术>php
本页文章导读:
    ▪php file_get_contents函数抓取页面信息的代码      采用php file_get_contents函数抓取页面数据,这里为大家举个例子。 例如,访问55bbs论坛,抓取首页中所有h3标记内的元素。   代码示例: <?php $url="http://bbs.55bbs.com"; $contents=@file_get_contents($url).........
    ▪php file_get_contents函数的使用问题      使用file_get_contents抓取sohu blog时,出现乱码问题,但是抓取新浪blog时没有问题。 解决方法: 由于获取的页面头部有Content-Encoding: gzip,说明页面内容经过了GZIP压缩,需要先解压。然后才能正.........
    ▪PHP-CGI 进程 CPU 100% 与 file_get_contents 函数的关系      转载请注明原文链接:http://blog.s135.com/file_get_contents/] 有时候,运行 Nginx、PHP-CGI(php-fpm) Web服务的 Linux 服务器,突然系统负载上升,使用 top 命令查看,很多 php-cgi 进程 CPU 使用率接近100%。后.........

[1]php file_get_contents函数抓取页面信息的代码
    来源: 互联网  发布时间: 2013-12-24

采用php file_get_contents函数抓取页面数据,这里为大家举个例子。

例如,访问55bbs论坛,抓取首页中所有h3标记内的元素。
 

代码示例:
<?php
$url="http://bbs.55bbs.com";
$contents=@file_get_contents($url);
//preg_match_all("/<p right forumcount\">(.*?)<\/p>/is",$contents,$content);
preg_match_all("/<h3>(.*?)<\/h3>/is",$contents,$content);
print_r($content[0]);
?>

对于较为复杂点的页面抓取,可以考虑采用curl的方法,具体可以参考如下的文章:
PHP中用CURL伪造IP来源的方法
php使用curl判断远程文件是否存在的代码
php使用curl伪造IP来源的代码
php模拟登录qq邮箱(curl命令详解)
php curl 学习总结
curl命令模拟表单上传文件

另外,有关php file_get_contents函数的用法,可以参考如下的文章:
php file_get_contents函数代理获取远程页面的代码
php file_get_contents函数的使用问题
PHP-CGI 进程 CPU 100% 与 file_get_contents 函数的关系
php使用socket、curl、file_get_contents方法POST数据的实例
http://www.w3school.com.cn/php/func_filesystem_file_get_contents.asp


    
[2]php file_get_contents函数的使用问题
    来源: 互联网  发布时间: 2013-12-24

使用file_get_contents抓取sohu blog时,出现乱码问题,但是抓取新浪blog时没有问题。

解决方法:
由于获取的页面头部有Content-Encoding: gzip,说明页面内容经过了GZIP压缩,需要先解压。然后才能正确的输出内容。
PHP file_get_contents函数,好像不支持GZIP压缩,此时大家可以试试CURL,是可以处理GZIP压缩过的页面的。

附头信息示例:
 

代码示例:
   array(11) {
      [0]=>
      string(15) "HTTP/1.1 200 OK"
      [1]=>
      string(35) "Content-Type: text/html;charset=gbk"
      [2]=>
      string(17) "Connection: close"
      [3]=>
      string(13) "Server: nginx"
      [4]=>
      string(35) "Date: Fri, 29 Oct 2010 00:36:51 GMT"
      [5]=>
      string(26) "Vary: Host,Accept-Encoding"
      [6]=>
      string(14) "Pragma: Public"
      [7]=>
      string(26) "Cache-Control: max-age=300"
      [8]=>
      string(38) "Expires: Fri, 29 Oct 2010 00:41:53 GMT"
      [9]=>
      string(22) "Content-Encoding: gzip"
      [10]=>
      string(14) "FSS-Cache: HIT"
    }

    
[3]PHP-CGI 进程 CPU 100% 与 file_get_contents 函数的关系
    来源: 互联网  发布时间: 2013-12-24

转载请注明原文链接:http://blog.s135.com/file_get_contents/]

有时候,运行 Nginx、PHP-CGI(php-fpm) Web服务的 Linux 服务器,突然系统负载上升,使用 top 命令查看,很多 php-cgi 进程 CPU 使用率接近100%。后来,我通过跟踪发现,这类情况的出现,跟 PHP 的 file_get_contents() 函数有着密切的关系。

大、中型网站中,基于 HTTP 协议的 API 接口调用,是家常便饭。PHP 程序员们喜欢使用简单便捷的 file_get_contents("http://example.com/") 函数,来获取一个 URL 的返回内容,但是,如果 http://example.com/ 这个网站响应缓慢,file_get_contents() 就会一直卡在那儿,不会超时。

  我们知道,在 php.ini 中,有一个参数 max_execution_time 可以设置 PHP 脚本的最大执行时间,但是,在 php-cgi(php-fpm) 中,该参数不会起效。真正能够控制 PHP 脚本最大执行时间的是 php-fpm.conf 配置文件中的以下参数:
 

代码示例:
    The timeout (in seconds) for serving a single request after which the worker process will be terminated 
    Should be used when 'max_execution_time' ini option does not stop script execution for some reason 
    '0s' means 'off' 
    <value name="request_terminate_timeout">0s</value> 

  默认值为 0 秒,也就是说,PHP 脚本会一直执行下去。这样,当所有的 php-cgi 进程都卡在 file_get_contents() 函数时,这台 Nginx+PHP 的 WebServer 已经无法再处理新的 PHP 请求了,Nginx 将给用户返回“502 Bad Gateway”。修改该参数,设置一个 PHP 脚本最大执行时间是必要的,但是,治标不治本。例如改成 <value name="request_terminate_timeout">30s</value>,如果发生 file_get_contents() 获取网页内容较慢的情况,这就意味着 150 个 php-cgi 进程,每秒钟只能处理 5 个请求,WebServer 同样很难避免“502 Bad Gateway”。

  要做到彻底解决,只能让 PHP 程序员们改掉直接使用 file_get_contents("http://example.com/") 的习惯,而是稍微修改一下,加个超时时间,用以下方式来实现 HTTP GET 请求。要是觉得麻烦,可以自行将以下代码封装成一个函数。
 

代码示例:
    <?php 
    $ctx = stream_context_create(array( 
       'http' => array( 
           'timeout' => 1 //设置一个超时时间,单位为秒 
           ) 
       ) 
    ); 
    file_get_contents("http://example.com/", 0, $ctx); 
    ?> 

 

  当然,导致 php-cgi 进程 CPU 100% 的原因不只有这一种,那么,怎么确定是 file_get_contents() 函数导致的呢?

  首先,使用 top 命令查看 CPU 使用率较高的 php-cgi 进程。
 

代码示例:

top - 10:34:18 up 724 days, 21:01,  3 users,  load average: 17.86, 11.16, 7.69
Tasks: 561 total,  15 running, 546 sleeping,   0 stopped,   0 zombie
Cpu(s):  5.9%us,  4.2%sy,  0.0%ni, 89.4%id,  0.2%wa,  0.0%hi,  0.2%si,  0.0%st
Mem:   8100996k total,  4320108k used,  3780888k free,   772572k buffers
Swap:  8193108k total,    50776k used,  8142332k free,   412088k cached

  PID USER      PR  NI  VIRT  RES  SHR S %CPU %MEM    TIME+  COMMAND                                                                                                             
10747 www       18   0  360m  22m  12m R 100.6 0.3    0:02.60 php-cgi                                                                                                             
10709 www       16   0  359m  28m  17m R 96.8  0.4    0:11.34 php-cgi                                                                                                             
10745 www       18   0  360m  24m  14m R 94.8  0.3    0:39.51 php-cgi                                                                                                             
10707 www       18   0  360m  25m  14m S 77.4  0.3    0:33.48 php-cgi                                                                                                             
10782 www       20   0  360m  26m  15m R 75.5  0.3    0:10.93 php-cgi                                                                                                             
10708 www       25   0  360m  22m  12m R 69.7  0.3    0:45.16 php-cgi                                                                                                             
10683 www       25   0  362m  28m  15m R 54.2  0.4    0:32.65 php-cgi                                                                                                             
10711 www       25   0  360m  25m  15m R 52.2  0.3    0:44.25 php-cgi                                                                                                             
10688 www       25   0  359m  25m  15m R 38.7  0.3    0:10.44 php-cgi                                                                                                             
10719 www       25   0  360m  26m  16m R  7.7  0.3    0:40.59 php-cgi

  找其中一个 CPU 100% 的 php-cgi 进程的 PID,用以下命令跟踪一下:
strace -p 10747

如果屏幕显示:
 

代码示例:
select(7, [6], [6], [], {15, 0})        = 1 (out [6], left {15, 0})
poll([{fd=6, events=POLLIN}], 1, 0)     = 0 (Timeout)
select(7, [6], [6], [], {15, 0})        = 1 (out [6], left {15, 0})
poll([{fd=6, events=POLLIN}], 1, 0)     = 0 (Timeout)
select(7, [6], [6], [], {15, 0})        = 1 (out [6], left {15, 0})
poll([{fd=6, events=POLLIN}], 1, 0)     = 0 (Timeout)
select(7, [6], [6], [], {15, 0})        = 1 (out [6], left {15, 0})
poll([{fd=6, events=POLLIN}], 1, 0)     = 0 (Timeout)
select(7, [6], [6], [], {15, 0})        = 1 (out [6], left {15, 0})
poll([{fd=6, events=POLLIN}], 1, 0)     = 0 (Timeout)
select(7, [6], [6], [], {15, 0})        = 1 (out [6], left {15, 0})
poll([{fd=6, events=POLLIN}], 1, 0)     = 0 (Timeout)
select(7, [6], [6], [], {15, 0})        = 1 (out [6], left {15, 0})
poll([{fd=6, events=POLLIN}], 1, 0)     = 0 (Timeout)
select(7, [6], [6], [], {15, 0})        = 1 (out [6], left {15, 0})
poll([{fd=6, events=POLLIN}], 1, 0)     = 0 (Timeout)
select(7, [6], [6], [], {15, 0})        = 1 (out [6], left {15, 0})
poll([{fd=6, events=POLLIN}], 1, 0)     = 0 (Timeout)
select(7, [6], [6], [], {15, 0})        = 1 (out [6], left {15, 0})
poll([{fd=6, events=POLLIN}], 1, 0)     = 0 (Timeout)

那么,就可以确定是 file_get_contents() 导致的问题了。

您可能感兴趣的文章:
php获取CPU使用情况的代码
php中使用proc/loadavg监控CPU的平均负载
php记录服务器负载、内存、cpu状态的代码
php页面缓存的例子(减经cpu与mysql负担)
php获取cpu与内存使用情况的代码一例
php获取linux服务器CPU、内存、硬盘使用率的实现代码
php获取计算机唯一标识信息(cpu,网卡,MAC地址)的代码
php程序随机记录mysql rand()造成CPU 100%的解决方法
php获取CPU使用信息


    
最新技术文章:
▪PHP函数microtime()时间戳的定义与用法
▪PHP单一入口之apache配置内容
▪PHP数组排序方法总结(收藏)
▪php数组排序方法大全(脚本学堂整理奉献)
▪php数组排序的几个函数(附实例)
▪php二维数组排序(实例)
▪php根据键值对二维数组排序的小例子
▪php验证码(附截图)
▪php数组长度的获取方法(三个实例)
▪php获取数组长度的方法举例
▪判断php数组维度(php数组长度)的方法
▪php获取图片的exif信息的示例代码
▪PHP 数组key长度对性能的影响实例分析
▪php函数指定默认值的方法示例
▪php提交表单到当前页面、提交表单后页面重定...
▪php根据键值对二维数组排序的小例子 iis7站长之家
▪php获得数组长度(元素个数)的方法
▪php日期函数的简单示例代码
▪php数学函数的简单示例代码
▪php字符串函数的简单示例代码
▪php文件下载代码(多浏览器兼容、支持中文文...
▪php实现文件下载、支持中文文件名的示例代码...
▪php文件下载(防止中文文件名乱码)的示例代码
▪解决PHP文件下载时中文文件名乱码的问题
▪php数组去重(一维、二维数组去重)的简单示例
▪php小数点后取两位的三种实现方法
▪php Redis 队列服务的简单示例
▪PHP导出excel时数字变为科学计数的解决方法
▪PHP数组根据值获取Key的简单示例
▪php数组去重的函数代码示例
 


站内导航:


特别声明:169IT网站部分信息来自互联网,如果侵犯您的权利,请及时告知,本站将立即删除!

©2012-2021,,E-mail:www_#163.com(请将#改为@)

浙ICP备11055608号-3