当前位置:  数据库>oracle

如何利用Oracle外部表导入文本文件的数据

    来源: 互联网  发布时间:2017-06-18

    本文导语: 同事最近在忙数据一致性比对工作,需要对不同文本文件中的数据进行比对,有的文件较大,记录较多,如果用普通的文本编辑器打开的话,很显然,会很卡,甚至打不开。 基于此,可将该文本文件的数据导入到数据库中,在...

同事最近在忙数据一致性比对工作,需要对不同文本文件中的数据进行比对,有的文件较大,记录较多,如果用普通的文本编辑器打开的话,很显然,会很卡,甚至打不开。

基于此,可将该文本文件的数据导入到数据库中,在集合的层面进行比对。

那么如何将文本文件的数据导入到数据库中呢?在这里,主要利用了Oracle的外部表特性。

Oracle外部表支持两种类型的驱动:一种是ORACLE_LOADER,外部表的数据必须来源于文件文件,另一种则是ORACLE_DATAPUMP,外部表的数据必须是二进制dump文件,该dump文件是先前将Oracle内部表的数据导入到外部表中填充的文件。很显然,Oracle希望将数据保留在数据库内部进行处理。

首先,我们来看一下该文本文件的大小及记录。

[oracle@node2 ~]$ du -sm P_20150626010000_2002371.0003479598 
274    P_20150626010000_2002371.0003479598
[oracle@node2 ~]$ wc -l P_20150626010000_2002371.0003479598 
2899265 P_20150626010000_2002371.0003479598

从上面的输出可以看出,该文件274M,有2899265条记录。

其次,构建创建外部表语句。

CREATE TABLE emp_load
   (subsid number(18),
    servnumber VARCHAR2(20 CHAR),
    subsprodid NUMBER(18),
    prodid VARCHAR2(32 CHAR),
    startdate date,
    enddate  date, 
    owner VARCHAR2(4 CHAR))
ORGANIZATION EXTERNAL
   (TYPE ORACLE_LOADER
    DEFAULT DIRECTORY tmp
    ACCESS PARAMETERS
      (RECORDS DELIMITED BY NEWLINE
        FIELDS TERMINATED BY "|"
             ( subsid      DECIMAL EXTERNAL,
               servnumber  CHAR(20),
               subsprodid  DECIMAL EXTERNAL,
               prodid  CHAR(32),
                startdate date "yyyymmddhh24miss",
               enddate date "yyyymmddhh24miss",
               owner   CHAR(4) 
              )
      )
    LOCATION ()
   );
 

注意,目录tmp必须存在,因为我是在scott用户下执行的,所以scott用户必须对该路径有读写权限。

第三、在scott用户下执行该建表语句。

第四、查看生成的外部表是否有问题

SQL> select count(*) from emp_load;

      COUNT(*)
------------------
       2899265

记录与wc-l查看的记录数吻合。

建表过程中没有报错并不一定意味着数据已经成功加载在外部表中。必须通过查询外部表来判定数据是否已成功加载,倘若有错误提示,可参看当前目录下生成的日志文件,具体在本例中,是EMP_LOAD_2000.bad和EMP_LOAD_2000.log。

当然,外部表中的数据只能查询,不能做DML操作,譬如,随机删除表中的一条数据

SQL> delete from emp_load where rownum=1;
delete from emp_load where rownum=1
            *
ERROR at line 1:
ORA-30657: operation not supported on external organized table

具体步骤如下:

SQL> create table test as select * from emp_load where 1=0;

Table created.

SQL> INSERT /*+ APPEND */ INTO test select * from emp_load;

2899265 rows created.

Elapsed: 00:01:00.29
SQL> select * from test where rownum select * from test where rownum show parameter memory

NAME                     TYPE     VALUE
------------------------------------ ----------- ------------------------------
hi_shared_memory_address         integer     0
memory_max_target             big integer 300M
memory_target                 big integer 300M
shared_memory_address             integer     0

后来,测试了一下传统路径插入所消耗的时间,为了和直接路径插入进行比较,剔除SQL解析,data buffer等因素的影响,清空了共享池和buffer cache,具体如下:

SQL> conn /as sysdba
Connected.
SQL> alter system flush shared_pool;

System altered.

SQL> alter system flush buffer_cache;

System altered.

SQL> conn scott/tiger
Connected.
SQL> set timing on
SQL> insert into test select * from emp_load;

2899265 rows created.

Elapsed: 00:01:05.36

用传统路径插入(即会产生redo日志),耗时1分5秒,相对于直接路径插入,两者效率相差不大,看来还是数据量较小,不能明显的体现直接路径插入速度上的优势。

在SQL*PLUS中,number字段的输出默认为10,这样会导致对于937116510102250300这样的数值,可能会显示为9.3712E+17,在这里,可通过set numwidth 18来显示完整的number字段的值。


    
 
 
 
本站(WWW.)旨在分享和传播互联网科技相关的资讯和技术,将尽最大努力为读者提供更好的信息聚合和浏览方式。
本站(WWW.)站内文章除注明原创外,均为转载、整理或搜集自网络。欢迎任何形式的转载,转载请注明出处。












  • 相关文章推荐
  • 利用java.net.URLConnection上传文件
  • 如何利用Bash脚本(利用awksedgrepwc等)来自动修改配置文件
  • 根目录 / 文件利用过高, 啥办法?
  • 文件系统的利用率 很高,不准
  • /tmp下文件利用 100%
  • 利用文件系统过滤驱动实现 类似还原卡功能 的原理是什么?
  • Linux Eclipse的Make文件利用
  • 请教关于利用java把文件打包的问题,希望能够得到简单的回答,在线等待结帖
  • YUV420利用x264转为.264文件后如何查看?
  • unix下如何利用core文件找到产生它的具体程序及产生错误的代码位置 iis7站长之家
  • 怎么利用ftp传输文件,我是小白
  • 利用多个转储文件导出大量Oracle数据
  • unix下如何利用core文件找到产生它的具体程序及产生错误的代码位置
  • 如何利用硬盘里的REDHAT9.0的ISO文件,在本地机器上进行安装?请详细说明步骤好吗?
  • linux下利用fwrite文件写入过程中突然断电的处理
  • linux下利用mput 多文件传输问题。
  • 如何利用read命令按行读取一个文件
  • 如何利用socket传文件(不同格式的)?高分求救!!---在线等待
  • 利用Makefile生成可执行文件的问题
  • 利用php下载xls文件(自己动手写的)
  • linux c下利用srand和rand函数生成随机字符串
  • 请问:Linux下用C编程计算CPU利用率和内存利用率?
  • linux下利用(cat,strings,head,sed)命令生成随机字符串
  • 在2003下利用vmware安装了linux,又利用host-only方式上了网,问题如下多谢指点!!!
  • Web前端开发如何利用css样式来控制Html中的h1/h2/h3标签不换行
  • 大虾 紧急求助!!!!如何求得当前机子的处理器利用率和内存利用率?
  • 如何利用libpcap和Python嗅探数据包
  • 求RADIUS的动态分配IP的问题(利用IPPOOL)
  • windows堆栈溢出利用的七种方式
  • iowait和cpu利用率的权衡问题
  • Qt中利用槽如何来传递参数


  • 站内导航:


    特别声明:169IT网站部分信息来自互联网,如果侵犯您的权利,请及时告知,本站将立即删除!

    ©2012-2021,,E-mail:www_#163.com(请将#改为@)

    浙ICP备11055608号-3