PHP中文分词自动获取关键词...-php类中Static方法效率测试代码...-PHP伪造referer的实例代码

当前位置: 编程技术>php

本页文章导读:

▪PHP中文分词自动获取关键词的方法以下示例使用了大家熟知的scws与phpanalysis，供大家学习参考。代码如下: <?php header("Content-Type:text/html; charset=utf-8"); define('APP_ROOT', str_replace()('\\', '/', dirname(__FILE__))); $test = '这里是一段.........

▪php类中Static方法效率测试代码有时需要做一些执行效率上的测试，今天做了一个static效率的测试。类的定义如下：代码如下: class test { public static function a(){} public function b(){} } $obj = new test; 比较以下几种情况 test:.........

▪PHP伪造referer的实例代码有时需要伪造referer实例代码，主要用于一些突破防盗链。这里就直接给出完整的程序吧，具体的应用可以自己修改。我这里给出的例子是很简单的，其实可以从这个例子中发展出很多的应用.........

[1]PHP中文分词自动获取关键词的方法

来源: 互联网发布时间: 2013-12-24

以下示例使用了大家熟知的scws与phpanalysis，供大家学习参考。

代码如下:

<?php
header("Content-Type:text/html; charset=utf-8");
define('APP_ROOT', str_replace()('\\', '/', dirname(__FILE__)));
$test = '这里是一段中文测试代码!';
function get_tags_arr($title)
{
require(APP_ROOT.'/pscws4.class.php');
$pscws = new PSCWS4();
$pscws->set_dict(APP_ROOT.'/scws/dict.utf8.xdb');
$pscws->set_rule(APP_ROOT.'/scws/rules.utf8.ini');
$pscws->set_ignore(true);
$pscws->send_text($title);
$words = $pscws->get_tops(5);
$tags = array();
foreach ($words as $val) {
$tags[] = $val['word'];
}
$pscws->close();
return $tags;
}
print_r(get_tags_arr($test));
//------------------------
function get_keywords_str($content){
require(APP_ROOT.'/phpanalysis.class.php');
PhpAnalysis::$loadInit = false;
$pa = new PhpAnalysis('utf-8', 'utf-8', false);
$pa->LoadDict();
$pa->SetSource($content);
$pa->StartAnalysis( false );
$tags = $pa->GetFinallyResult();
return $tags;
}
print(get_keywords_str($test));

相关下载地址

SCWS – 简易中文分词系统
SCWS 在概念上并无创新成分，采用的是自行采集的词频词典，并辅以一定程度上的专有名称、人名、地名、数字年代等规则集，经小范围测试大概准确率在 90% ~ 95% 之间，已能基本满足一些中小型搜索引擎、关键字提取等场合运用。 SCWS 采用纯 C 代码开发，以 Unix-Like OS 为主要平台环境，提供共享函数库，方便植入各种现有软件系统。此外它支持 GBK，UTF-8，BIG5 等汉字编码，切词效率高。

系统平台：Windows/Unix
开发语言：C
使用方式：PHP扩展

演示网址：http://www.ftphp.com/scws/demo.php
开源官网：http://www.ftphp.com/scws/

备注：作为PHP扩展，容易与现有的基于PHP架构的Web系统继续集成，是其一大优势。

PhpanAlysis - PHP无组件分词系统

PhpanAlysis分词系统是基于字符串匹配的分词方法，这种方法又叫做机械分词方法，它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行配，若在词典中找到某个字符串，则匹配成功（识别出一个词）。按照扫描方向的不同，串匹配分词方法可以分为正向匹配和逆向匹配；按照不同长度优先匹配的情况，可以分为最大（最长）匹配和最小（最短）匹配；按照是否与词性标注过程相结合，又可以分为单纯分词方法和分词与标注相结合的一体化方法。
系统平台：PHP环境
开发语言：PHP
使用方式：HTTP服务

演示网址：http://www.itgrass.com/phpanalysis/
开源官网：http://www.itgrass.com/phpanalysis/

备注：实现简单，容易使用，能做一些简单应用，但大数据量的计算效率不如前几种。

试用了几个系统，基本分词功能都没什么问题，只是在个别一些词的划分上存在一些差异；对于词性的确定，系统间有所不同。

[2]php类中Static方法效率测试代码

来源: 互联网发布时间: 2013-12-24

有时需要做一些执行效率上的测试，今天做了一个static效率的测试。
类的定义如下：

代码如下:

class test
{
public static function a(){}
public function b(){}
}
$obj = new test;

比较以下几种情况
test::a();
$obj->a();
$obj->b();

测试代码：

代码如下:

<?php
$obj = new test;
$test_times = 100;
$times = 10000;
$effi1 = array();
$effi2 = array();

while ($test_times-- > 0)
{
$time1 = microtime(true);
for($i=0; $i<$times; $i++)
{
test::a();
}
$time2 = microtime(true);
for($i=0; $i<$times; $i++)
{
$obj->a();
}
$time3 = microtime(true);
for($i=0; $i<$times; $i++)
{
$obj->b();
}
$time4 = microtime(true);
$effi1[] = ($time3 - $time2) / ($time2 - $time1);
$effi2[] = ($time4 - $time3) / ($time3 - $time2);
}
echo avg($effi1),"\n",avg($effi2);

最后的avg是自定义的计算平均数的一个函数：

代码如下:

<?php
function avg($arr)
{
$result = 0;
foreach ($arr as $val)
{
$result += $val;
}
$result /= count($arr);
return $result;
}

程序输出结果：
PHP 5.2.14
view sourceprint?1 0.76490628848091
2 1.0699484376399
view sourceprint?1 PHP 5.3
view sourceprint?1 0.56919482299058<BR>1.1016495598611

重复执行N(N>10)次，都与这个结果相差不大，说明：
1、直接通过类名访问静态方法的效率是通过实例访问静态方法的76%，甚至用PHP5.3时只有56%
2、通过实例访问静态方法的效率是访问非静态成员方法效率的106，在5.3版本变成110%
3、假设PHP从5.2升级到5.3时通过类名访问静态方法的效率没有降低，那么通过实例访问函数的效率至少提高了35%。我没看过PHP源码，有研究过PHP源码的朋友希望能告诉我这个假设是否成立 (我想应该是成立的)。

说明：以上测试基于windows 7和php.exe，5.2.14使用了apache2.2测试结果没有区别，考虑到php.exe和通过web访问所执行的PHP核心是一样的，所以5.3懒得改服务器配置了，结果应该一样。

[3]PHP伪造referer的实例代码

来源: 互联网发布时间: 2013-12-24

有时需要伪造referer实例代码，主要用于一些突破防盗链。这里就直接给出完整的程序吧，具体的应用可以自己修改。
我这里给出的例子是很简单的，其实可以从这个例子中发展出很多的应用。比如隐藏真实的URL地址……嘿嘿，具体的就自己分析去吧
这里新建一个文件file.php。后面的参数就是需要伪造referfer的目标地址吧。如:file.php/http://www.xxx.xxx/xxx.mp3

代码如下:

<?
$url=str_replace()('/file.php/','',$_SERVER["REQUEST_URI"]);//得出需要转换的网址。这里我就偷懒，不做安全检测了，需要的自己加上去
$downfile=str_replace(" ","%20",$url);//替换空格之类，可以根据实际情况进行替换
$downfile=str_replace("http://","",$downfile);//去掉http://
$urlarr=explode()("/",$downfile);//以"/"分解出域名
$domain=$urlarr[0];//域名
$getfile=str_replace($urlarr[0],'',$downfile);//得出header中的GET部分
$content = @fsockopen("$domain", 80, $errno, $errstr, 12);//连接目标主机
if (!$content){//链接不上就提示错误
die("对不起，无法连接上 $domain 。");
}
fputs($content, "GET $getfile HTTP/1.0\r\n");
fputs($content, "Host: $domain\r\n");
fputs($content, "Referer: $domain\r\n");//伪造部分
fputs($content, "User-Agent: Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)\r\n\r\n");

while (!feof($content)) {
$tp.=fgets($content, 128);
if (strstr($tp,"200 OK")){ //这里要说明一下。header的第一行一般是请求文件的状态。具体请参照HTTP 1.1状态代码及其含义 hi.baidu.com/110911/blog/item/21f20d2475af812ed50742c5.html这里是正常的文件请求状态，只需直接转向就可以。其他状态的继续执行程序

header("Location:$url");
die();
}
}

//302 转向，大部分的防盗链系统都是先判断referfer，对了的话再转向真实的地址。下面就是获取真实的地址。
$arr=explode("\n",$tp);
$arr1=explode("Location: ",$tp);//分解出Location后面的真时地址
$arr2=explode("\n",$arr1[1]);
header('Content-Type:application/force-download');//强制下载
header("location:".$arr2[0]);//转向目标地址
die();
?>

注：这段程序只能针对使用referer来判断是否盗链的防盗链系统，使用其他特殊方法防盗链的，这个估计就不适用了。