本节内容:
phpQuery采集网页内容
什么是phpQuery?
phpQuery是一个基于PHP的服务端开源项目,它可以让PHP开发人员轻松处理DOM文档内容,比如获取某新闻网站的头条信息。
它采用了jQuery的思想,可以像使用jQuery一样处理页面内容,获取页面信息。
例1,采集头条
采集的首页内容。
代码:
include 'phpQuery/phpQuery.php';
phpQuery::newDocumentFile('http://www.');
echo pq(".blkTop h1:eq(0)")->html();
简单的三行代码,就可以获取头条内容。
首先,在程序中包含phpQuery.php核心程序,然后,调用读取目标网页,最后输出对应标签下的内容。
pq()是一个功能强大的方法,跟jQuery的$()如出一辙,jQuery的选择器基本上都能使用在phpQuery上,只要把“.”变成“->”。如上例中,pq(“.blkTop h1:eq(0)”)抓取了页面class属性为blkTop的DIV元素,并找到该DIV内部的第一个h1标签,然后用html()方法获取h1标签里的内容(带html标签),也就是我们要获取的头条信息,如果使用text()方法,则只获取头条的文本内容。当然要使用好phpQuery,关键是要找对文档中对应内容的节点。
例2,采集文章列表
获取helloweba.com网站的blog列表。
代码:
include 'phpQuery/phpQuery.php';
phpQuery::newDocumentFile('http://www.');
$artlist = pq(".blog_li");
foreach($artlist as $li){
echo pq($li)->find('h2')->html()."";
}
通过循环列表中的DIV,找出文章标题并输出。
例3,解析XML文档
test.xml文档:
<root>
<contact>
<name>张三</name>
<age>22</age>
</contact>
<contact>
<name>王五</name>
<age>18</age>
</contact>
</root>
获取名字为张三的联系人的年龄。
代码:
include 'phpQuery/phpQuery.php';
phpQuery::newDocumentFile('test.xml');
echo pq('contact > age:eq(0)');
结果输出:22
像jQuery一样,精准查找文档节点,输出节点下的内容,解析一个XML文档就是这么简单。
现在,无需采集网站内容而使用那些头疼的正则算法、内容替换等繁琐的代码了,phpQuery可以轻松搞定。
附,phpquery项目官网地址:http://code.google.com/p/phpquery/
本节内容:
php生成sitemap.xml地图
代码:
<?php
/**
* 网站地图更新控制器 sitemap
* @author Garbin
* @usage none
* @site www.
*/
class SitemapApp extends FrontendApp
{
function __construct()
{
$this->SitemapApp();
}
function SitemapApp()
{
parent::__construct();
$this->_google_sitemmap_file = ROOT_PATH . '/data/google_sitemmap.xml';
}
function index()
{
if (!Conf::get('sitemap_enabled'))
{
return;
}
$from = empty($_GET['from']) ? 'google' : trim($_GET['from']);
switch ($from)
{
case 'google':
$this->_output_google_sitemap();
break;
}
}
/**
* 输出Google sitemap
*
* @author Garbin
* @return void
*/
function _output_google_sitemap()
{
header("Content-type: application/xml");
echo $this->_get_google_sitemap();
}
/**
* 获取Google sitemap
*
* @author Garbin
* @return string
*/
function _get_google_sitemap()
{
$sitemap = "";
if ($this->_google_sitemap_expired())
{
/* 已过期,重新生成 */
/* 获取有更新的项目 */
$updated_items = $this->_get_updated_items($this->_get_google_sitemap_lastupdate());
/* 重建sitemap */
$sitemap = $this->_build_google_sitemap($updated_items);
/* 写入文件 */
$this->_write_google_sitemap($sitemap);
}
else
{
/* 直接返回旧的sitemap */
$sitemap = file_get_contents($this->_google_sitemmap_file);
}
return $sitemap;
}
/**
* 判断Google sitemap是否过期
*
* @author Garbin
* @return boolean
*/
function _google_sitemap_expired()
{
if (!is_file($this->_google_sitemmap_file))
{
return true;
}
$frequency = Conf::get('sitemap_frequency') * 3600;
$filemtime = $this->_get_google_sitemap_lastupdate();
return (time() >= $filemtime + $frequency);
}
/**
* 获取上次更新日期
*
* @author Garbin
* @return int
*/
function _get_google_sitemap_lastupdate()
{
return is_file($this->_google_sitemmap_file) ? filemtime($this->_google_sitemmap_file) : 0;
}
/**
* 获取已更新的项目
*
* @author Garbin
* @return array
*/
function _get_updated_items($timeline = 0)
{
$timeline && $timeline -= date('Z');
$limit = 5000;
$result = array();
/* 更新的店铺 */
$model_store =& m('store');
$updated_store = $model_store->find(array(
'fields' => 'store_id, add_time',
'conditions' => "add_time >= {$timeline} AND state=" . STORE_OPEN,
'limit' => "0, {$limit}",
));
if (!empty($updated_store))
{
foreach ($updated_store as $_store_id => $_v)
{
$result[] = array(
'url' => SITE_URL . '/index.php?app=store&id=' . $_store_id,
'lastmod' => date("Y-m-d", $_v['add_time']),
'changefreq'=> 'daily',
'priority' => '1',
);
}
}
/* 更新的文章 */
$model_article =& m('article');
$updated_article = $model_article->find(array(
'fields' => 'article_id, add_time',
'conditions'=> "add_time >= {$timeline} AND if_show=1",
'limit' => "0, {$limit}",
));
if (!empty($updated_article))
{
foreach ($updated_article as $_article_id => $_v)
{
$result[] = array(
'url' => SITE_URL . '/index.php?app=article&act=view&article_id=' . $_article_id,
'lastmod' => date("Y-m-d", $_v['add_time']),
'changefreq'=> 'daily',
'priority' => '0.8',
);
}
}
/* 更新的商品 */
$model_goods =& m('goods');
$updated_goods = $model_goods->find(array(
'fields' => 'goods_id, last_update',
'conditions' => "last_update >= {$timeline} AND if_show=1 AND closed=0",
'limit' => "0, {$limit}",
));
if (!empty($updated_goods))
{
foreach ($updated_goods as $_goods_id => $_v)
{
$result[] = array(
'url' => SITE_URL . '/index.php?app=goods&id=' . $_goods_id,
'lastmod' => date("Y-m-d", $_v['last_update']),
'changefreq'=> 'daily',
'priority' => '0.8',
);
}
}
return $result;
}
/**
* 生成Google sitemap
*
* @author Garbin
* @param array $items
* @return string
*/
function _build_google_sitemap($items)
{
$sitemap = "<?xml version=\"1.0\" encoding=\"UTF-8\"?>\r\n<urlset xmlns=\"http://www.sitemaps.org/schemas/sitemap/0.9\">\r\n";
$sitemap .= " <url>\r\n <loc>" . htmlentities(SITE_URL, ENT_QUOTES) . "</loc>\r\n <lastmod>" . date('Y-m-d', gmtime()) . "</lastmod>\r\n <changefreq>always</changefreq>\r\n <priority>1</priority>\r\n </url>";
if (!empty($items))
{
foreach ($items as $item)
{
$sitemap .= "\r\n <url>\r\n <loc>" . htmlentities($item['url'], ENT_QUOTES) . "</loc>\r\n <lastmod>{$item['lastmod']}</lastmod>\r\n <changefreq>{$item['changefreq']}</changefreq>\r\n <priority>{$item['priority']}</priority>\r\n </url>";
}
}
$sitemap .= "\r\n</urlset>";
return $sitemap;
}
/**
* 写入Google sitemap文件
*
* @author Garbin
* @param string $sitemap
* @return void
*/
function _write_google_sitemap($sitemap)
{
file_put_contents($this->_google_sitemmap_file, $sitemap);
}
}
?>
本节内容:
php构造函数
什么是构造函数?
PHP官网中关于构造函数的定义:
构造函数是类中的一个特殊函数,当使用 new 操作符创建一个类的实例时,构造函数将会自动调用。当函数与类同名时,这个函数将成为构造函数。如果一个类没有构造函数,则调用基类的构造函数,如果有的话,则调用自己的构造函数
例子,a.php一个class a类:
class a{
function __construct(){
echo 'class a';
}
}
b.php有个class b类继承a类:
<?php
include 'a.php';
class b extends a{
function __construct(){
echo '666666';
//parent::__construct();
}
function index(){
echo 'index';
}
}
$test=new b();
b类有自己的构造函数,那么实例化b类时,自动运行构造函数,此时默认不运行父类的构造函数,如果同时要运行父类构造函数,要声明parent::__construct();
例如:
include 'a.php';
class b extends a{
function index(){
echo 'index';
}
}
$test=new b();
此时b类没有自己的构造函数,那么将默认执行父类的构造函数。
就是这些了,更多有关php 构造函数的内容,请参考:
php 构造函数实例 定义类级别以控制类的行为
php 非递归树形数组构造函数
php面向对象编程之构造方法的例子