当前位置:  技术问答>java相关

结构化文档全文索引的使用方式,以DB2 TIE为例,讲解一下结构化文档的全文索引的使用方法,希望对我的另一个帖子起到抛砖引玉的作用。

    来源: 互联网  发布时间:2015-06-16

    本文导语:  我的另一个帖子: http://www.csdn.net/expert/topic/744/744146.xml?temp=.6563532 结构化文档(structured documents)包括HTML、XML等,对这些文档做全文索引时可以指定搜索模型(Search Model)。这样用户在进行全文检索时可以指定tag之间的...

我的另一个帖子:
http://www.csdn.net/expert/topic/744/744146.xml?temp=.6563532

结构化文档(structured documents)包括HTML、XML等,对这些文档做全文索引时可以指定搜索模型(Search Model)。这样用户在进行全文检索时可以指定tag之间的内容进行查询。举例如下:

对以下XML文档进行全文索引,索引规则定义对shipDate,price做ignore标记,name的priority + 1



    
        Alice Smith
        123 Maple Street
        Mill Hill
        CA
        90999
    
    
        Lawnmower Type ABC-x
        239.90
        2001-01-25
    
    
        Multifunction Rake ZYX
        69.90
        2001-01-24
    


1、搜索时不指定范围,则和通常的全文类似,但是tag是不会被检索到的。
2、搜索时指定范围shipAddressname,只有搜索Alice或Smith才能得到本XML(索引指定按字分词,Smi或lic这样的查询时不能返回本XML的)。同时,由于Name字段priority + 1,本文档的命中率会提升。
3、搜索时指定范围shipAddress,则Alice Smith 123 Maple Street CA 90999都可以被检索到。
4、搜索时指定item,Lawnmower Type ABC-x Multifunction Rake ZYX可以被检索到,而shipDate,price因为指定不进行索引,其中的内容不会被检索到。

以上是一个简述,各公司的全文产品会有所不同(而且可能没有这么好),但是基本性质类似。希望觉得本文有帮助的朋友访问http://www.csdn.net/expert/topic/744/744146.xml?temp=.6563532解决我的问题。

我不希望“程序员大本营”里面的朋友除了Coding不会再做别的了,这样不好!
本贴分数也给http://www.csdn.net/expert/topic/744/744146.xml?temp=.6563532中对我有启发的“专家”。

|
this is your company's product? pretty good.

don't think the "按字分词" is useful though. Normally for some specific words, people want to do 按字分词, for others, they don't. for example, I don't want to get "BOSS" when I search "OS", but I may want to get "RTOS".
Just want to say the 按字分词 is not dtd specific, you normally don't want to do 按字分词 for a specific tag, it often depends on the searched word.
Of course, Chinese character may be different.

By the way, “程序员大本营”! what do you expect?
Of course it'd be nice to know more architectural stuff. But people have their own specialization, you can't expect one knowing everything.
it's not easy to be a good architect, it's not easy to be a good developer either.

|
最近我个人也在做这个东西。准备自己建立关键字

|
其实就是......加上对中文自然语言的分析 

natural language analysis is a quite serious science. respect it bah. :)

|
he he. over sensitive. shy//
just feel many people are so easy to feel proud just because they know how to use ejb, they know how to call RMI. 
given the cpu chip, main board, monitor, keyboard, etc, any literate person can make computer himself according to the manuals, but that's quite different from things like developing cpu or making cpu anyway.



|
don't think fulltext search engine is a easy thing. 
it's easy for one to design his own toy language (maybe with nothing but print statement in it), but to design a full-fledged language like C++, Java is nontrivial.
so maybe the fact a student can make a fulltext engine cannot show fulltext engine is easy.

why fulltext is not popular? I think
1. no much demand.
2. not many good fulltext engine available. as we can see, ms's engine is not very good. don't say things like "ms's nothing". if big company like ms can not even make a good fulltext engine, not many others can do. technically, ms is not best, but definitely not worst.


    
 
 
 
本站(WWW.)旨在分享和传播互联网科技相关的资讯和技术,将尽最大努力为读者提供更好的信息聚合和浏览方式。
本站(WWW.)站内文章除注明原创外,均为转载、整理或搜集自网络。欢迎任何形式的转载,转载请注明出处。












  • 相关文章推荐


  • 站内导航:


    特别声明:169IT网站部分信息来自互联网,如果侵犯您的权利,请及时告知,本站将立即删除!

    ©2012-2021,,E-mail:www_#163.com(请将#改为@)

    浙ICP备11055608号-3