数据挖掘及其重要性
- API: 应用程序编程接口
- CDATA: 字符数据
- DOM: 文档对象模式
- FTP: 文件传输协议
- HTML: 超文本标记语言
- HTTP: 超文本传输协议
- REST: 具象状态传输
- URL: 统一资源定位符
- W3C: 万维网联盟
- XML: 可扩展标记语言
Wikipedia 对 “数据挖掘” 的定义是 “数据挖掘是采用统计学方法和人工智能方法,结合数据库管理,从大型数据集提取模式的过程”。这是一个非常深入的定义,可能超出了大多数人的典型用例。很少有人使用人工智能;通常,数据挖掘只是搜索并汇集大型数据集,以查找有用的信息。
Internet 在飞速发展,并提供了海量信息,因此,能够收集大量数据并使数据变得有意义非常重要。收集个人无法读完的大型数据集并将它们提炼为有用的数据是一个很重要的目标。这种类型的数据挖掘是本文的焦点,本文将专门介绍如何收集和解析这种数据。
回页首
数据挖掘的实际应用
数据挖掘有很多实际应用。您可能假设这样一个场景:您想搜索一个网站,查找其中提供的信息(比如电影或音乐会的出席记录)。您可能需要检索更严肃的信息,比如投票者记录,并获得有用数据。或者,更常见的情况是,您可能需要检查社交网络数据,试图解析该数据,了解某种趋势,比如您的公司被提及的频率,以及这种提及是正面的还是负面的。
回页首
挖掘网站之前的注意事项
题目:
1、跳水比赛,8个评委打分,运动员的成绩是8个成绩去掉一个最高分和去掉一个最低分。剩下6个分数的平均分就是最后得分。使用一维数组实现打分功能。
2、并且把最高分和最低分的评委找出来。
解决方案:
第一个页面:
<html>
<head>
<meta http-equiv="Content-Type" content="text/html;charset=utf-8" >
</head>
<body>
<h1>请裁判输入分数</h1>
<form action="/blog_article/result02.html" method="post">
裁判1<input type="text" name ="one"><br/>
裁判2<input type="text" name ="two"><br/>
裁判3<input type="text" name ="three"><br/>
裁判4<input type="text" name ="four"><br/>
裁判5<input type="text" name ="five"><br/>
裁判6<input type="text" name ="six"><br/>
裁判7<input type="text" name ="seven"><br/>
裁判8<input type="text" name ="eight"><br/>
<input type="submit" value = "提交">
</form>
</body>
</html>
第二个页面:
<?php
//接收数据
$p1=$_REQUEST['one'];
$p2=$_REQUEST['two'];
$p3=$_REQUEST['three'];
$p4=$_REQUEST['four'];
$p5=$_REQUEST['five'];
$p6=$_REQUEST['six'];
$p7=$_REQUEST['seven'];
$p8=$_REQUEST['eight'];
//把每个人输入的值 放入到数组中
$arr = array($p1,$p2,$p3,$p4,$p5,$p6,$p7,$p8);
//print_r($arr);
//取出最大和最小的值
$p_max=max($arr);
$p_min=min($arr);
//print_r($arr);
//echo $p_max,$p_min;
//echo "<br />";
//定义变量计算总分
$total=0;
for($i=0;$i<count($arr);$i++){
//echo $arr[$i]."<br />";
$total+=$arr[$i];
}
//echo $total."<br/>";
//减去最高最低分,最后得分
//平均分
//round函数 保留小数位||这是四舍五入法保留3位小数
$last=($total-max($arr)-min($arr))/(count($arr)-2);
//$last=($total-max($arr)-min($arr));
echo '除去最高分和最低分的最后得分为:'.round($last,3)."<br/>";
//找出最大值和最小值对映的key (即评委编号) :array_search函数.
$max_k=array_search(max($arr),$arr);
$min_k=array_search(min($arr),$arr);
echo '最高分是第'.($max_k+1).'评委打'.max($arr).'分<br />';
echo '最低分是第'.($min_k+1).'评委打'.min($arr).'分<br />';
?>
本文链接
转自:http://www.ibm.com/developerworks/cn/opensource/os-debug/index.html
简介
有许多 PHP 调试技术可以在编码的时候节约大量时间。一个有效却很基本的调试技术就是打开错误报告。另一个略微高级一点的技术包括使用 print 语句,通过显示在屏幕上实际出现的内容,有助于精确地找出更难发现的 bug。PHPEclipse 是一个 Eclipse 插件,能够强调常见的语法错误,可以与调试器结合起来用于设置断点。
设置
要学习本文描述的概念,需要 PHP、Web 服务器和 Eclipse。调试器扩展支持的 PHP 版本是 V5.0.3。
我们需要一个 Web 服务器来解析用 PHP 创建的页面并把它们显示到浏览器。本文中使用的是 Apache2。但是,任何 Web 服务器都可以满足要求。
要利用本文中介绍的一些调试技术,需要安装 Eclipse V3.1.1 和插件 PHPEclipse V1.1.8。由于 Eclipse 要求 Java™ 技术,所以还要下载它。
还需要 PHP 的调试器扩展模块。安装它略有些麻烦。请仔细跟随安装调试器扩展的操作说明。现在,先在 php.ini 文件中注释掉那些要求装入和配置 PHP 扩展的行。在需要使用调试器的时候,再取消注释。
请参阅 参考资料 获得下载信息。现在介绍出错消息。
出错消息
出错消息是作为开发人员的第一道防线。谁都不想在一台没有配置成显示出错消息的服务器上用 PHP 开发代码。但是,请记住,当代码调试完成,准备运行的时候,应当确保关闭了错误报告,因为不希望站点的访问者看到出错消息,因为这会给他们提供足够的信息 来利用站点的弱点并黑掉站点。
也可以用出错消息为自己服务,因为它们会显示抛出或生成错误的正确代码行。这样,调试就变成在浏览器上查看生成的错误所显示的行号,并在代码中检查 这一行。稍后,将会看到 PHPEclipse 插件通过即时地给语法错误加下划线并在保存文件时用红色 “x” 标注语法错误,可在开发和调试过程中提供极大的帮助。
先来看如何在 php.ini 文件中开启错误报告并设置错误报告的级别。然后将学习如何在 Apache 的配置文件中覆盖这些设置。
PHP 的错误报告
php.ini 文件中有许多配置设置。您应当已经设置好自己的 php.ini 文件并把它放在合适的目录中,就像在 Linux 上安装 PHP 和 Apache 2 的文档说明中所示的那样(请参阅 参考资料)。在调试 PHP 应用程序时,应当知道两个配置变量。下面是这两个变量及其默认值:
display_errors = Offerror_reporting = E_ALL
通过在 php.ini 文件中搜索它们,可以发现这两个变量当前的默认值。display_errors 变量的目的很明显 —— 它告诉 PHP 是否显示错误。默认值是 Off。但是,要让开发过程更加轻松,请把这个值设为 On:
display_errors = On
error_reporting 变量的默认值是 E_ALL。这个设置会显示从不良编码实践到无害提示到出错的所有信息。E_ALL 对于开发过程来说有点太细,因为它在屏幕上为一些小事(例如变量未初始化)也显示提示,会搞糟浏览器的输出。我只想看到错误和不良编码实践,但是不想看到无害的提示。所以,请用以下值代替 error_reporting 的默认值:
error_reporting = E_ALL & ~E_NOTICE
重新启动 Apache,就全部设置好了。接下来,将学习如何在 Apache 上做同样的事。
服务器上的错误报告
依赖于 Apache 正在做的工作,在 PHP 中打开错误报告可能没法工作,因为在计算机上可能有多个 PHP 版本。有时很难区分 Apache 正在使用哪个 PHP 版本,因为 Apache 只能查看一个 php.ini 文件。不知道 Apache 正在使用哪个 php.ini 文件配置自己是一个安全问题。但是,有一种方法可以在 Apache 中配置 PHP 变量,从而保证设置了正确的出错级别。
而且,最好知道如何在服务器端设置这些配置变量,以否决或抢占 php.ini 文件,从而提供更高级别的安全性。
在配置 Apache 时,应该已经接触过 <apache2-install-dir>/conf/httpd.conf 中 http.conf 文件中的基本配置。
要做在 php.ini 文件中已经做过的事,请把下列各行添加到 httpd.conf,覆盖任何 php.ini 文件:
php_flag display_errors onphp_value error_reporting 2039
这会覆盖在 php.ini 文件中为 display_errors 已经设置的标志,以及 error_reporting 的值。值 2039 代表 E_ALL & ~E_NOTICE。如果愿意采用 E_ALL,请把值设为 2047。同样,还是要重启 Apache。
接下来,要在服务器上测试错误报告。
测试错误报告
如果启动了错误报告,会节约许多时间。PHP 中的错误会指向代码中的错误。请创建一个简单的 PHP 文件 test.php,并像清单 1 所示一样定义它。
清单 1. 一个生成错误的简单 PHP
print("The next line generates an error.<br>");
printaline("PLEASE?");
print("This will not be displayed due to the above error.");
?>
第一个 print() 语句会向 Web 浏览器显示它的内容。但是第二个语句会生成错误并在 Web 页面上显示。这造成最后一个 print() 语句不起作用,如图 1 所示。
图 1. 生成错误
现在开启了错误报告!接下来,用 print 语句帮助调试应用程序。
介绍 print 语句
因为应用程序中的功能性 bug 不会产生错误,所以在所有调试策略中,关于如何正确地放置和使用 print 或 die 语句来调试 PHP 应用程序的知识是一种很好的资产。可以用 print 语句在代码中缩小对问题语句的定位,这些语句在语法上没有错误,也不是 bug,但是从代码的功能上看是 bug。这些是最难发现和调试的 bug,因为它们不会抛出错误。惟一知道的就是在浏览器上显示的内容不是想要的内容,或者想要保存在数据库中的内容根本没有保存。
假设正在处理通过 GET 请求发送过来的表单数据,想向浏览器显示信息,但是出于某种原因,数据没有正确地提交,或者不能正确地从 GET 请求中读出。要调试这类问题,重要的是用 print() 或 die() 语句知道变量的值是什么。
die() 语句会中止程序执行,并在 Web 浏览器上显示文本。如果不想注释掉代码,而且只想显示到出错之前的信息和出错信息,不想显示后面的信息,那么 die() 语句特别有用。
让我们在 PHP 中用 print 语句来测试这个概念
使用 print 语句进行调试
在我作程序员的那些时候,当我在 Linux® 上开发应用程序时,没有方便的 GUI 可以告诉我 bug 在哪,我迅速地发现我在程序中放的 print 语句越多,我在应用程序中把 bug 的范围缩小到一行的机会越大。请创建另一个 PHP 文件 test2.php,并像清单 2 所示的那样定义它。
清单 2. 显示通过 GET 提交的所有变量
$j = "";
print("Lets retrieve all the variables submitted to this ");
print("script via a GET request:<br>");
foreach($_GET as $key => $i){
print("$key=$j<br>");
}
if($_GET['Submit'] == "Send GET Request")
$j = "done!<br>";
?>
<form method="GET">
Name: <input name="name"><br>
Email: <input name="email" size="25"><br>
<input name="Submit" type="submit" value="Send GET Request">
</form>