php 过滤器实现代码-PHP对字符串的递增运算分析-PHP原理之异常机制深入分析

当前位置: 编程技术>php

本页文章导读:

▪php 过滤器实现代码在以前，一个用户通过网络主要是获取信息。而如今的网络刚更注重与用户的交互，用户不再仅仅是网站的浏览者，也是网站内容的制造者。由以前单纯的“读”向“写”以及“共同创作”.........

▪PHP对字符串的递增运算分析有同学问了一个问题: 代码如下: <?php for($i = 'A'; $i <= 'Z'; $i++) { echo $i; } 输出是啥? 输出是: ABCDEFGHIJKLMNOPQRSTUVWXYZAAABACADAEAFAGAHAIAJAKALAMANAOAPAQARAS……. 为啥? 其实很简单, PHP的手册中也有说.........

▪PHP原理之异常机制深入分析 PHP的异常机制的原理是什么? 在PHP每一个可独立执行的op array最后的ZEND_HANDLE_EXCEPTION是用来干什么呢? 让我们从一个问题说起, 上周的时候, blue5tar提了一个问题:”对于下面的代码, onError明明.........

[1]php 过滤器实现代码

来源: 互联网发布时间: 2013-11-30

在以前，一个用户通过网络主要是获取信息。而如今的网络刚更注重与用户的交互，用户不再仅仅是网站的浏览者，也是网站内容的制造者。由以前单纯的“读”向“写”以及“共同创作”发展，由被动接收信息向主动分行信息发展。而随之而来的安全问题也成了web开发者不可忽视的问题，验证第三方来源的数据成了每个web程序必不可少的功能。

在以前，PHP需要验证数据，一般都是程序员自己通过正则表达式实现，而从PHP从5.2开始把原本的PCEL中的filter函数移到了内置库中，并做了不少强化，可以用这些函数实现对数据的过滤和验证。

数据来源及验证类型
PHP中的数据来源包含两部分，其一是外部变量（如POST、GET、COOKIE等），还有一种是页面内部产生的数据。PHP针对这两种数据类型分别定义了ilter_input_**和filter_var_**系列函数。而依据验证方法的不一样又可以分为Validating和Sanitizing两种。Validating用于验证数据，返回一个布尔值。Sanitizing则按规则过滤一些特定的字符，返回的是处理后的字符串。

简单用法
比如验证一个字符串是否是一个整数，在以往我们可以通过正则表达式或是is_numeric函数实现：

代码如下:

$str = '51ab';
preg_match('/^[0-9]*$/', $str);
is_numeric($str);

新的验证函数可以用以下方式：

$str = '51ab';
echo filter_var($str, FILTER_VALIDATE_INT) ? 'is valid' : 'is not valid';FILTER_VALIDATE_INT是PHP定义的一个过滤器，用于验证$str是否为一个整数。实际上这就是一个数值常量，通过echo FILTER_VALIDATE_INT;发现值为257。所以我们也可以用：

$str = '51ab';
echo filter_var($str, 257) ? 'is valid' : 'is not valid';PHP中定义了大量常用的过滤器，我们可以通过filter_list()获得所有支持的过滤器名称（用字符串表示），然后再用filter_id(string)获取其数值：

print_r(filter_list()); // 所有支持的过滤器名称。
echo '=========';
echo filter_id('int'); // 'int' 是filter_list返回的一个过滤器名称。以上将输入出类似以下内容：

array(0=>int',1=>'boolean',2=>'float',3=>'validate_regexp')
==========
257Sanitizing过滤器
上面这个是验证数据格式是否正确，有时候过滤掉无关的内容也是挺重要的。SANITIZE过滤提供了这种功能，比如过滤掉一个email中多余的字符：

$email = '<script>alert("test");</sript>xxx@caixw.com';
echo $email; // 直接输出，将会执行script脚本。
echo filter_var($email, FILTER_SANITIZE_EMAIL); // 会过滤掉<和>输出scriptalerttestscriptxxx@caixw.com选项和标志
filter_var的功能还不止于此，还可以指定第三个参数，附加一些特殊的选项，比如一个规定了最大值的整数：

代码如下:

$options = array(
'options'=>array('max_range'=>50),
'flags'=>FILTER_FLAG_ALLOW_OCTAL,
);
$str = '51';
echo filter_var($str, FILTER_VALIDATE_INT, $options) ? 'is valid' : 'is not valid';

上面将返回is not valid。因为max_range规定其最大值只能为50。而FILTER_FLAG_ALLOW_OCTAL则允许验证的数据是一个八进制的，也即是0开头的。

$options参数是一个数组，包含两个元素：options和flags。若是只有flags元素，则也可以直接传递而不用数组。

验证外部数据
除了PHP脚本自己产生的数据，来自用户提交的数据占大部分。当然我们也可以直接用filter_var进行过滤：

代码如下:

if(isset($_GET['age']))
{
echo filter_var($_GET['age'], FILTER_VALIDATE_INT) ? 'is valid' : 'is not valid';
}

但是PHP中还专门提供了几个函数用于验证外部来源的数据：

代码如下:

if(filter_has_var(INPUT_GET, 'age'))
{
echo filter_input(INPUT_GET, 'age', FILTER_VALIDATE_INT) ? 'is valid' : 'is not valid';
}

相较于filter_var，filter_input多了一个参数(第一个参数)用于指定数据的来源。而filter_has_var()而用来判断是否存在指定的数据。

一次过滤多个数据
PHP还提供了filter_var_array和filter_input_array函数用于一次性验证多个数据。

这是来自php.net上的一个实例，用于说明filter_var_array()怎么使用。

代码如下:

$data = array(
'product_id' => 'libgd<script>',
'component' => '10',
'versions' => '2.0.33',
'testscalar' => array('2', '23', '10', '12'),
'testarray' => '2',
);

$args = array(
'product_id' => FILTER_SANITIZE_ENCODED,
'component' => array('filter' => FILTER_VALIDATE_INT,
'flags' => FILTER_FORCE_ARRAY,
'options' => array('min_range' => 1, 'max_range' => 10)
),
'versions' => FILTER_SANITIZE_ENCODED,
'doesnotexist' => FILTER_VALIDATE_INT,
'testscalar' => array(
'filter' => FILTER_VALIDATE_INT,
'flags' => FILTER_REQUIRE_SCALAR,
),
'testarray' => array(
'filter' => FILTER_VALIDATE_INT,
'flags' => FILTER_FORCE_ARRAY,
)
);
$myinputs = filter_var_array($data, $args);

自定义过滤器
可以通过传递一个特殊的过滤器FILTER_CALLBACK来指定一个自定义的过滤器，下面这个过滤器将把所有邮箱地址的＠转换成＃。

代码如下:

function fun($value)
{
return strtr($value,'@','#');
}
$var = filter_var('abc@caixw.com', FILTER_CALLBACK, array('options' => 'fun'));
echo $var;

其它 ID
(过滤器常量) 名称
(filter_list()函数返回的名称) 可用选项标志位描述 Validating FILTER_VALIDATE_BOOLEAN "boolean" FILTER_NULL_ON_FAILURE 当难的数据为"1","true","on","yes"时返回true，否则返回false。当设置了FILTER_NULL_ON_FAILURE标志位，则仅在值是"0","false","off","no", 和""是返回false，其它非true值返回null。 FILTER_VALIDATE_EMAIL "validate_email" 验证邮箱 FILTER_VALIDATE_FLOAT "float" decimal FILTER_FLAG_ALLOW_THOUSAND 验证浮点数 FILTER_VALIDATE_INT "int" min_range, max_range FILTER_FLAG_ALLOW_OCTAL, FILTER_FLAG_ALLOW_HEX 验证一个指定范围内的整数值 FILTER_VALIDATE_IP "validate_ip" FILTER_FLAG_IPV4, FILTER_FLAG_IPV6, FILTER_FLAG_NO_PRIV_RANGE, FILTER_FLAG_NO_RES_RANGE 验证IP地址 FILTER_VALIDATE_REGEXP "validate_regexp" regexp 验证一个正则表达式 FILTER_VALIDATE_URL "validate_url" FILTER_FLAG_PATH_REQUIRED, FILTER_FLAG_QUERY_REQUIRED 验证一个URL Sanitizing FILTER_SANITIZE_EMAIL "email" 移除除英文字符，数字以及!#$%&'*+-/=?^_`{|}~@.[]之外的字符。 FILTER_SANITIZE_ENCODED "encoded" FILTER_FLAG_STRIP_LOW, FILTER_FLAG_STRIP_HIGH, FILTER_FLAG_ENCODE_LOW, FILTER_FLAG_ENCODE_HIGH URL编码字符串，去除或编码指定字符串。 FILTER_SANITIZE_MAGIC_QUOTES "magic_quotes" 应用 addslashes()函数 FILTER_SANITIZE_NUMBER_FLOAT "number_float" FILTER_FLAG_ALLOW_FRACTION, FILTER_FLAG_ALLOW_THOUSAND, FILTER_FLAG_ALLOW_SCIENTIFIC 移除除数字，+-以及.,eE以外的字符 FILTER_SANITIZE_NUMBER_INT "number_int" 移除除数字以及+-以外的字符 FILTER_SANITIZE_SPECIAL_CHARS "special_chars" FILTER_FLAG_STRIP_LOW, FILTER_FLAG_STRIP_HIGH, FILTER_FLAG_ENCODE_HIGH HTML转义字符，'"&><以及 ASCII 值小于 32 的字符。以及其它指定的字符。 FILTER_SANITIZE_STRING "string" FILTER_FLAG_NO_ENCODE_QUOTES, FILTER_FLAG_STRIP_LOW, FILTER_FLAG_STRIP_HIGH, FILTER_FLAG_ENCODE_LOW, FILTER_FLAG_ENCODE_HIGH, FILTER_FLAG_ENCODE_AMP 去除标签，或是去除或编码指定的字符。 FILTER_SANITIZE_STRIPPED "stripped" Alias of "string" filter. FILTER_SANITIZE_URL "url" 删除所有字符除字母、数字以及$-_.+!*'(),{}|\\^~[]`<>#%";/?:@&= FILTER_UNSAFE_RAW "unsafe_raw" FILTER_FLAG_STRIP_LOW, FILTER_FLAG_STRIP_HIGH, FILTER_FLAG_ENCODE_LOW, FILTER_FLAG_ENCODE_HIGH, FILTER_FLAG_ENCODE_AMP 不做任何改变，或是按标志位去除或是编码指定字母。 FILTER_CALLBACK "callback" FILTER_FLAG_STRIP_LOW, FILTER_FLAG_STRIP_HIGH, FILTER_FLAG_ENCODE_LOW, FILTER_FLAG_ENCODE_HIGH, FILTER_FLAG_ENCODE_AMP 自定义过滤器标志位 ID 可用的过滤器描述 FILTER_FLAG_STRIP_LOW FILTER_SANITIZE_ENCODED, FILTER_SANITIZE_SPECIAL_CHARS, FILTER_SANITIZE_STRING, FILTER_UNSAFE_RAW 去除ASCII小于32的字符。 FILTER_FLAG_STRIP_HIGH FILTER_SANITIZE_ENCODED, FILTER_SANITIZE_SPECIAL_CHARS, FILTER_SANITIZE_STRING, FILTER_UNSAFE_RAW 去除ASCII在于127的字符。 FILTER_FLAG_ALLOW_FRACTION FILTER_SANITIZE_NUMBER_FLOAT 允许小数点分隔符(.) FILTER_FLAG_ALLOW_THOUSAND FILTER_SANITIZE_NUMBER_FLOAT, FILTER_VALIDATE_FLOAT 允许千位分隔符(,) FILTER_FLAG_ALLOW_SCIENTIFIC FILTER_SANITIZE_NUMBER_FLOAT 允许科学计数法(e或E)。 FILTER_FLAG_NO_ENCODE_QUOTES FILTER_SANITIZE_STRING 不编码引号（单引号和双引号）。 FILTER_FLAG_ENCODE_LOW FILTER_SANITIZE_ENCODED, FILTER_SANITIZE_STRING, FILTER_SANITIZE_RAW 编码ASCII小于32的字符。 FILTER_FLAG_ENCODE_HIGH FILTER_SANITIZE_ENCODED, FILTER_SANITIZE_SPECIAL_CHARS, FILTER_SANITIZE_STRING, FILTER_SANITIZE_RAW 编码ASCII大于127的字母。 FILTER_FLAG_ENCODE_AMP FILTER_SANITIZE_STRING, FILTER_SANITIZE_RAW 编码&符号。 FILTER_NULL_ON_FAILURE FILTER_VALIDATE_BOOLEAN 返回null当验证数据不是以下字符串时（yes,no,1,0,true,false,on,off）。 FILTER_FLAG_ALLOW_OCTAL FILTER_VALIDATE_INT 允许八进制数值（0开头）。 FILTER_FLAG_ALLOW_HEX FILTER_VALIDATE_INT 允许16进制数值。（0X或是0x开头）。 FILTER_FLAG_IPV4 FILTER_VALIDATE_IP IP4格式字符串。 FILTER_FLAG_IPV6 FILTER_VALIDATE_IP IP6格式字符串。 FILTER_FLAG_NO_PRIV_RANGE FILTER_VALIDATE_IP RFC指定的私域IP。IP4如下范围10.0.0.0/8, 172.16.0.0/12, 192.168.0.0/16。或是IP6以下开头的域: FD或FC FILTER_FLAG_NO_RES_RANGE FILTER_VALIDATE_IP 要求值不在保留的 IP 范围内。IPv4 ranges:0.0.0.0/8, 169.254.0.0/16,192.0.2.0/24 and 224.0.0.0/4。不能应用于IP6。 FILTER_FLAG_PATH_REQUIRED FILTER_VALIDATE_URL 要求URL包含路径部分。 FILTER_FLAG_QUERY_REQUIRED FILTER_VALIDATE_URL 要求URL查询字符串。

[2]PHP对字符串的递增运算分析

来源: 互联网发布时间: 2013-11-30

有同学问了一个问题:

代码如下:

<?php
for($i = 'A'; $i <= 'Z'; $i++) {
echo $i;
}

输出是啥?

输出是:

ABCDEFGHIJKLMNOPQRSTUVWXYZAAABACADAEAFAGAHAIAJAKALAMANAOAPAQARAS…….

为啥?

其实很简单, PHP的手册中也有说明, 只不过恐怕很多人不会一章一节的把手册仔细阅读一遍:

PHP follows Perl's convention when dealing with arithmetic operations on character variables and not C's. For example, in Perl ‘Z'+1 turns into ‘AA', while in C ‘Z'+1 turns into ‘[‘ ( ord(‘Z') == 90, ord(‘[‘) == 91 ). Note that character variables can be incremented but not decremented and even so only plain ASCII characters (a-z and A-Z) are supported.

在处理字符变量的算数运算时，PHP 沿袭了 Perl 的习惯，而非 C 的。例如，在 Perl 中 ‘Z'+1 将得到 ‘AA'，而在 C 中，'Z'+1 将得到 ‘[‘（ord(‘Z') == 90，ord(‘[‘) == 91）。注意字符变量只能递增，不能递减，并且只支持纯字母（a-z 和 A-Z）。

也就是说, 如果:

代码如下:

$name = "laruence";
++$name; //将会是"laruencf"

而:

代码如下:

$name = "laruence";
--$name; //没有影响, 还是"laruence"

所以, 这个问题的原因就是当$i = Z的时候, ++$i成了AA, 而字符串比较的话,
AA,BB,XX一直到YZ都是小于等于Z的… so..

[3]PHP原理之异常机制深入分析

来源: 互联网发布时间: 2013-11-30

PHP的异常机制的原理是什么?

在PHP每一个可独立执行的op array最后的ZEND_HANDLE_EXCEPTION是用来干什么呢?

让我们从一个问题说起, 上周的时候, blue5tar提了一个问题:”对于下面的代码, onError明明执行了, 但是onException却没有执行, 为什么?”.

代码如下:

<?php
function onError($errCode, $errMesg, $errFile, $errLine) {
echo "Error Occurred\n";
throw new Exception($errMesg);
}

function onException($e) {
echo $e->getMessage();
}

set_error_handler("onError");

set_exception_handler("onException");

/* 我从不会以我的名字命名文件, 所以这个文件不存在 */
require("laruence.php");

运行结果:

代码如下:

Error Occurred
PHP Fatal error: main(): Failed opening required 'laruence.php

首先, 我们要知道, Require在包含一个找不到的问题的时候, 会前后抛出俩个错误,

代码如下:

1. WARNING : 在PHP试图打开这个文件的时候抛出.
2. E_COMPILE_ERROR : 从PHP打开文件的函数返回失败以后抛出

而我们知道, set_error_handler是不能捕获E_COMPILE_ERROR错误的:

The following error types cannot be handled with a user defined function: E_ERROR, E_PARSE, E_CORE_ERROR, E_CORE_WARNING, E_COMPILE_ERROR, E_COMPILE_WARNING, and most of E_STRICT raised in the file where set_error_handler() is called.

所以, 在onError中, 只能捕获到第一个WARNING错误, 而在onError中抛出的异常, 为什么没有被默认exception_handler捕获呢?

这就要说说PHP的异常机制了.

了解opcode(深入理解PHP原理之Opcodes的同学都知道, 在PHP5.3以前, 每一个可独立运行的op array(文件, 函数, 方法)的最后一条opcode都是ZEND_HANDLE_EXCEPTION, 而这个opcode是做什么用的呢?

原来在PHP中, 当有异常被throw的时候, 会跳到每一个op array的最后一行, 来执行这条ZEND_HANDLE_EXCEPTION, 伪码如下:

代码如下:

void on_throw_exception(zval *exception TSRMLS_DC) {
1. 判断是否已经有异常抛出
2. 记录exception
3. 记录下一条要执行的op line的序号
4. 下一条要执行的op line序号 = 当前op array的最后一条
}

恩, 就和改写ip寄存器一样, 改写下一条要执行的op line的序号, 就改变了程序的流向, 这样, 就会进入到了ZEND_HANDLE_EXCEPTION的处理逻辑中.

而在ZEND_HANDLE_EXCEPTION中, 会判断这个异常是否在try catch中,

代码如下:

如果是则把下一条要执行的op line, 置为第一个catch的op line, 并继续执行.
如果不是则销毁一些不需要的变量, 和opline, 然后直接结束执行过程

有的同学要问了:”那set_exception_handler设置的异常默认处理函数(user_exception_handler)什么时候起作用呢?”

恩, 是在执行完成退出执行LOOP以后才判断是否有默认异常处理函数, 如果有才调用:

代码如下:

//执行
zend_execute(EG(active_op_array) TSRMLS_CC);
if (EG(exception)) {
if (EG(user_exception_handler)) {
调用用户定义的默认异常处理函数
} else {
未捕获的异常
}
} else {
没有异常
}
destroy_op_array(EG(active_op_array) TSRMLS_CC);
efree(EG(active_op_array));

PHP异常流程
而PHP在遇到Fatal Error的时候, 会直接zend_bailout, 而zend_bailout会导致程序流程直接跳过上面代码段, 也可以理解为直接exit了(longjmp), 这就导致了user_exception_handler没有机会发生作用.

了解到这些, 我想文章开头的问题的为什么? 也就很清晰了吧?

最后, 关于ZEND_HANDLE_EXCEPTION, 也许有同学会有疑问: 如果是这样, 那为什么每一个可独立执行的op array最后都有这个ZEND_HANDLE_EXCEPTION呢? 最简单的, 如果一个函数中不会throw, 那么这个opcode 是明显不需要的啊? 嘿嘿, 你很聪明, PHP 5.3开始, 已经按照你的想法调整了.. 只有在throw时刻, 才会动态的生成ZEND_HANDLE_EXCEPTION opline.

PHP5 changelog:

Changed exception handling. Now each op_array doesn't contain ZEND_HANDLE_EXCEPTION opcode in the end. (Dmitry)