软件版本:
Tomcat 7.0.40
Mysql: 5.1
Host: CentOS 6.3 64bit
使用JDBCRealm (Tomcat 会使用所给的JDBC Connecter 自己去连MySQL 数据库并进行用户验证):
1) 下载MySQL-JDBC connector 如mysql-connector-java-5.1.24-bin.jar放到$CATALINA_HOME/lib目录下;
2) 连上MySQL 创建数据库(比如数据库名字叫DBName),在此库里面创建2个表(users表和roles表),表结构如下:
CREATE TABLE `roles` (
`Id` int(11) NOT NULL AUTO_INCREMENT,
`Role` varchar(50) DEFAULT NULL,
`Username` varchar(50) DEFAULT NULL,
PRIMARY KEY (`Id`)
) ;
CREATE TABLE `users` (
`Id` int(11) NOT NULL AUTO_INCREMENT,
`Username` varchar(50) NOT NULL DEFAULT '',
`Password` varchar(50) DEFAULT '',
`Email` varchar(255) DEFAULT NULL,
PRIMARY KEY (`Id`)
) ;
INSERT INTO `users` VALUES (1,'root','password',NULL);
INSERT INTO `roles` VALUES (1,'rootgrp','root');
表示root用户在rootgrp组里。
3)配置Tomcat $CATALINA_HOME/conf/server.xml
比如在Engine Section下增加:
<Realm className="org.apache.catalina.realm.JDBCRealm"
driverName="com.mysql.jdbc.Driver"
factory="org.apache.tomcat.jdbc.pool.DataSourceFactory" <!-- 使用Tomcat 新的ConnectionPool-->
connectionURL="jdbc:mysql://localhost:3306/DBName?user=root&password=password"
userTable="users"
userNameCol="username"
userCredCol="password"
userRoleTable="roles"
roleNameCol="role"/>
注意: Tomcat7默认的server.xml里面在Engine里面也有一段Realm配置代码,如下面所示, 此处需要注释掉它,否则会出问题。
<!-- <Realm className="org.apache.catalina.realm.LockOutRealm"> -->
<!--
<Realm className="org.apache.catalina.realm.UserDatabaseRealm"
resourceName="UserDatabase"/>
</Realm>
-->
4)在你应用包的WEB-INF/web.xml里增加如下,做资源访问限制,否则上面配置不起作用,如果想让访问整个site都起作用,在webapps/ROOT/WEB-INF/web.xml里增加以下内容。
<web-app .........>
..................
<security-constraint>
<web-resource-collection>
<web-resource-name>web pages</web-resource-name>
<url-pattern>/*</url-pattern> <!-- 限制整个节点 只有rootgrp的人才能访问-->
</web-resource-collection>
<auth-constraint>
<role-name>rootgrp</role-name>
</auth-constraint>
</security-constraint>
<login-config>
<auth-method>BASIC</auth-method>
<realm-name>Tomcat Application</realm-name>
</login-config>
<security-role>
<description>
The role that is required to access the pages of this website
</description>
<role-name>rootgrp</role-name>
</security-role>
.............
</web-app>
重启即可。
如果想用DataSourceRealm去做访问控制认证,重复以上步骤,但唯一需要改动的是将第3)步替换为下面的3A)步骤,
3A)在$CATALINA_HOME/conf/server.xml文件中,在<GlobalNamingResources>一节下增加一个DataSource资源如下:
<GlobalNamingResources>
<Resource name="jdbc/DBName" auth="Container"
type="javax.sql.DataSource"
factory="org.apache.tomcat.jdbc.pool.DataSourceFactory" <!-- 使用Tomcat 新的ConnectionPool-->
maxActive="100" maxIdle="30" maxWait="10000"
username="root" password="password"
driverClassName="com.mysql.jdbc.Driver"
url="jdbc:mysql://localhost:3306/DBName" />
</GlobalNamingResources>
然后再在此server.xml里面的如<Engine>Section下面增加以下内容
<Realm className="org.apache.catalina.realm.DataSourceRealm"
dataSourceName="jdbc/DBName"
userTable="users"
userNameCol="Username"
userCredCol="Password"
userRoleTable="roles"
roleNameCol="Role"/>
同样的,需要把Server.xml里面默认的那个Realm给注释掉。
重启Tomcat即可。
#Oracle的连接字符串,其中包含了URL,SID,和PORT
URL=jdbc:oracle:thin:@132.232.19.79:10521:szdw
#使用的用户名
USERNAME=szdw
#使用的密码
PASSWORD=szdw
#需要从Oracle中导入的表名
TableNAME=proc_resource_admin
#需要从Oracle中导入的表中的字段名
COLUMNS=AREA_ID,TEAM_NAME
#将Oracle中的数据导入到HDFS后的存放路径
HADFPATH=/home/hadoop/data/proc_resource_admin
#执行导入逻辑。将Oracle中的数据导入到HDFS中
sqoop import --append --connect $URL --username $USERNAME --password $PASSWORD --target-dir $HAFSPATH --num-mappers 1 --table $TABLENAME --COLUMNS $columns --fields-terminated-by '\t';
执行这个脚本之后,导入程序就完成了。
接下来,用户可以自己创建外部表,将外部表的路径和HDFS中存放Oracle数据的路径对应上即可。
注意:这个程序导入到HDFS中的数据是文本格式,所以在创建Hive外部表的时候,不需要指定文件的格式为RCFile,而使用默认的TextFile即可。数据间的分隔符为'\t'。如果多次导入同一个表中的数据,数据以append的形式插入到HDFS目录中。
并行导入假设有这样这个sqoop命令,需要将Oracle中的数据导入到HDFS中:
sqoop import --append --connect $URL --username $USERNAME --password $PASSWORD --target-dir $HDFSPATH --m 1 --table $TABLENAME --columns $columns --fields-terminated-by '\t' --where "data_desc='2011-02-26'";
请注意,在这个命令中,有一个参数“-m”,代表的含义是使用多少个并行,这个参数的值是1,说明没有开启并行功能。
现在,我们可以将“-m”参数的值调大,使用并行导入的功能,如下面这个命令:
sqoop import --append --connect $URL --username $USERNAME --password $PASSWORD --target-dir $HDFSPATH --m 4 --table $TABLENAME --columns $columns --fields-terminated-by '\t' --where "data_desc='2011-02-26'";
一般来说,Sqoop就会开启4个进程,同时进行数据的导入操作。
但是,如果从Oracle中导入的表没有主键,那么会出现如下的错误提示:
ERROR tool.ImportTool: Error during import: No primary key could be found for table creater_user.popt_cas_redirect_his. Please specify one with --split-by or perform a sequential import with '-m 1'.
在这种情况下,为了更好的使用Sqoop的并行导入功能,我们就需要从原理上理解Sqoop并行导入的实现机制。
如果需要并行导入的Oracle表的主键是id,并行的数量是4,那么Sqoop首先会执行如下一个查询:
select max(id) as max, select min(id) as min from table [where 如果指定了where子句];
通过这个查询,获取到需要拆分字段(id)的最大值和最小值,假设分别是1和1000。
然后,Sqoop会根据需要并行导入的数量,进行拆分查询,比如上面的这个例子,并行导入将拆分为如下4条SQL同时执行:
select * from table where 0 <= id < 250;
select * from table where 250 <= id < 500;
select * from table where 500 <= id < 750;
select * from table where 750 <= id < 1000;
注意,这个拆分的字段需要是整数。
从上面的例子可以看出,如果需要导入的表没有主键,我们应该如何手动选取一个合适的拆分字段,以及选择合适的并行数。
再举一个实际的例子来说明:
我们要从Oracle中导入creater_user.popt_cas_redirect_his。
这个表没有主键,所以我们需要手动选取一个合适的拆分字段。
首先看看这个表都有哪些字段:
然后,我假设ds_name字段是一个可以选取的拆分字段,然后执行下面的sql去验证我的想法:
select min(ds_name), max(ds_name) from creater_user.popt_cas_redirect_his where data_desc='2011-02-26'
发现结果不理想,min和max的值都是相等的。所以这个字段不合适作为拆分字段。
再测试一下另一个字段:CLIENTIP
select min(CLIENTIP), max(CLIENTIP) from creater_user.popt_cas_redirect_his where data_desc='2011-02-26'
这个结果还是不错的。所以我们使用CLIENTIP字段作为拆分字段。
所以,我们使用如下命令并行导入:
sqoop import --append --connect $URL --username $USERNAME --password $PASSWORD --target-dir $HDFSPATH --m 12 --split-by CLIENTIP --table $TABLENAME --columns $columns --fields-terminated-by '\t' --where "data_desc='2011-02-26'";
这次执行这个命令,可以看到,消耗的时间为:20mins, 35sec,导入了33,222,896条数据。
另外,如果觉得这种拆分不能很好满足我们的需求,可以同时执行多个Sqoop命令,然后在where的参数后面指定拆分的规则。如:
sqoop import --append --connect $URL --username $USERNAME --password $PASSWORD --target-dir $HDFSPATH --m 1 --table $oTABLENAME --columns $columns --fields-terminated-by '\t' --where "data_desc='2011-02-26' logtime<10:00:00"
liuken@liuken-MS-7798:~$ python manage.py runserver
python: can't open file 'manage.py': [Errno 2] No such file or directoryliuken@liuken-MS-7798:~$ cd /usr/local/bin
liuken@liuken-MS-7798:/usr/local/bin$ python manage.py runserver
python: can't open file 'manage.py': [Errno 2] No such file or directory
liuken@liuken-MS-7798:/usr/local/bin$ ls
cftp django-admin.py manhole tap2deb tkconch
ckeygen lore pyhtmlizer tap2rpm trial
conch mailmail scrapy tapconvert twistd
liuken@liuken-MS-7798:/usr/local/bin$ cd ..
liuken@liuken-MS-7798:/usr/local$ cd ..
liuken@liuken-MS-7798:/usr$ cd ..
liuken@liuken-MS-7798:/$ cd home
liuken@liuken-MS-7798:/home$ cd liuken
liuken@liuken-MS-7798:~$ cd djcode
liuken@liuken-MS-7798:~/djcode$ cd mysite
liuken@liuken-MS-7798:~/djcode/mysite$ python manage.py runserver
Validating models...
0 errors found
July 31, 2013 - 07:04:05
Django version 1.5.1, using settings 'mysite.settings'
Development server is running at http://127.0.0.1:8000/
Quit the server with CONTROL-C.
/usr/local/lib/python2.7/dist-packages/django/conf/urls/defaults.py:3: DeprecationWarning: django.conf.urls.defaults is deprecated; use django.conf.urls instead
DeprecationWarning)
[31/Jul/2013 07:04:21] "GET / HTTP/1.1" 404 2002
[31/Jul/2013 07:04:59] "GET /hello HTTP/1.1" 301 0
[31/Jul/2013 07:04:59] "GET /hello/ HTTP/1.1" 200 11
http://127.0.0.1:800
开发服务器的地址是 http://127.0.0.1:8000/ ,打开你的浏览器访问
http://127.0.0.1:8000/hello/ 。 你就可以看到输出结果了。 开发服务器将自动检测Python代码的更改来做必要的重新加载
输出结果:
Hello world
向做到这些,你必须:
你需要输入到views.py文件:
from django.http import HttpResponse def hello(request): return HttpResponse("Hello world")
urls.py 文件
from django.conf.urls.defaults import * from mysite.views import hello urlpatterns = patterns('', ('^hello/$', hello), )
我们做了两处修改。
-
首先,我们从模块 (在 Python 的 import 语法中, mysite/views.py 转译为 mysite.views ) 中引入了 hello 视图。 (这假设mysite/views.py在你的Python搜索路径上。关于搜索路径的解释,请参照下文。)
4
-
接下来,我们为urlpatterns加上一行:(‘^hello/$’, hello),这行被称作URLpattern,它是一个Python的元组。元组中第一个元素是模式匹配字符串(正则表达式);第二个元素是那个模式将使用的视图函数。
简单来说,我们只是告诉 Django,所有指向 URL /hello/ 的请求都应由 hello 这个视图函数来处理。