当前位置: 技术问答>java相关
项目归来,总结并散分!
来源: 互联网 发布时间:2015-07-07
本文导语: 终于从地狱回来了,对 http://www.csdn.net/Expert/TopicView1.asp?id=744146 和 http://www.csdn.net/Expert/TopicView1.asp?id=747999 进行总结: 一、全文搜索的优势: 1、搜索字符时速度远远超过RDB;这一点是共识,不用多说。 2、搜索的数...
终于从地狱回来了,对
http://www.csdn.net/Expert/TopicView1.asp?id=744146 和
http://www.csdn.net/Expert/TopicView1.asp?id=747999
进行总结:
一、全文搜索的优势:
1、搜索字符时速度远远超过RDB;这一点是共识,不用多说。
2、搜索的数量级比RDB高;全文检索对被搜索的文档容量的支持也是远远超出RDB的,一般上高上10^3
3、更符合查询需求;因为可以返回命中和Ranking,并且结果是按照Ranking排序的,这对用户来讲会更方便一些
4、更多的查询方法;可以支持各种查询,有些全文引擎还支持“自然语言查询”
5、更好的命中;因为可以定义词库,所以返回同义词等概念的命中
二、结构化文档全文搜索的优势:
1、支持的元数据复杂;因为XML文件本身的特性,使得XML文件非常适合于描述复杂的元数据。通过对这些XML文件建立全文索引会使系统中RDB的结构简单明了,而将大量的元数据信息放在XML中。
2、可以非常方面的变更元数据结构;比较RDB的结构一般在设计时就已经定的方式,XML文件的格式时可以随时改变的。只要搜索时知道新旧的格式就可以完成搜索。
3、可以简单的处理一些原本在RDB上不易实现的数据结构;因为XML是文件阿……
三、缺点:
1、更新复杂;针对被索引内容的每次修改都需要通知全文引擎,并要求引擎定期重新加载数据。
2、缺少运算机制;比较RDB的大于,小于等运算上的查询,全文引擎是无能为力的。
3、索引增长迅速;这是所有的全文检索都无可避免的,也就是说全文索引的大小会达到原始文档的0.7-1.5倍,全文是一种以资源求速度的解决方案。
4、没有业界标准,迁移困难;因为全文很容易实现,使得每个厂商有自己独立的产品,除非数据重新装载,否则难以迁移。
5、中国厂商在做什么?我找到的有用的全文资料,哪怕是中文的也都是国外厂商的。我们的本地厂商在做什么?
四、推荐:
我承认我是很喜欢IBM,很讨厌MS,因此我推荐产品如果都是IBM的大家也不要奇怪,谁没有自己喜欢的东西?这方面不要争论了。
大规模数据存储/检索:IBM Content Manager + IBM TSE + IBM CLS,特点:海量存储,被索引文档的增、删、改全文索引都会自动获得通知,开发量最小,价格偏高。
RDB系统:IBM DB2 + IBM TIE + IBM Datalink,特点:便宜一些,而且和数据库应用的整合会非常方便。
累死了,休息,休息一会儿……
http://www.csdn.net/Expert/TopicView1.asp?id=744146 和
http://www.csdn.net/Expert/TopicView1.asp?id=747999
进行总结:
一、全文搜索的优势:
1、搜索字符时速度远远超过RDB;这一点是共识,不用多说。
2、搜索的数量级比RDB高;全文检索对被搜索的文档容量的支持也是远远超出RDB的,一般上高上10^3
3、更符合查询需求;因为可以返回命中和Ranking,并且结果是按照Ranking排序的,这对用户来讲会更方便一些
4、更多的查询方法;可以支持各种查询,有些全文引擎还支持“自然语言查询”
5、更好的命中;因为可以定义词库,所以返回同义词等概念的命中
二、结构化文档全文搜索的优势:
1、支持的元数据复杂;因为XML文件本身的特性,使得XML文件非常适合于描述复杂的元数据。通过对这些XML文件建立全文索引会使系统中RDB的结构简单明了,而将大量的元数据信息放在XML中。
2、可以非常方面的变更元数据结构;比较RDB的结构一般在设计时就已经定的方式,XML文件的格式时可以随时改变的。只要搜索时知道新旧的格式就可以完成搜索。
3、可以简单的处理一些原本在RDB上不易实现的数据结构;因为XML是文件阿……
三、缺点:
1、更新复杂;针对被索引内容的每次修改都需要通知全文引擎,并要求引擎定期重新加载数据。
2、缺少运算机制;比较RDB的大于,小于等运算上的查询,全文引擎是无能为力的。
3、索引增长迅速;这是所有的全文检索都无可避免的,也就是说全文索引的大小会达到原始文档的0.7-1.5倍,全文是一种以资源求速度的解决方案。
4、没有业界标准,迁移困难;因为全文很容易实现,使得每个厂商有自己独立的产品,除非数据重新装载,否则难以迁移。
5、中国厂商在做什么?我找到的有用的全文资料,哪怕是中文的也都是国外厂商的。我们的本地厂商在做什么?
四、推荐:
我承认我是很喜欢IBM,很讨厌MS,因此我推荐产品如果都是IBM的大家也不要奇怪,谁没有自己喜欢的东西?这方面不要争论了。
大规模数据存储/检索:IBM Content Manager + IBM TSE + IBM CLS,特点:海量存储,被索引文档的增、删、改全文索引都会自动获得通知,开发量最小,价格偏高。
RDB系统:IBM DB2 + IBM TIE + IBM Datalink,特点:便宜一些,而且和数据库应用的整合会非常方便。
累死了,休息,休息一会儿……
|
怎么不用 Oracle的EAI??
|
探讨一下,非常好。有何体会??
|
^_^强!太苦了!也太酷了!学习中
|
什么大项目阿?
|
高手,能不能把你的经验说说?
|
说说经验吧!
|
想问一下先,你做的是那一方面的系统。图书馆、金融、新闻......
|
先祝贺你能从地狱回来.
你做的是什么项目?
有什么经验大家可以一起交流一下吗
你做的是什么项目?
有什么经验大家可以一起交流一下吗
|
好厉害,我也喜欢IBM,学习
|
要向你学习喽!
|
学习ing.......
|
不错,以后我也试试。
|
什么项目,来学学。
|
真羡慕啊﹐我什么时候才能做项目呢?我学java三个月了﹐可是还是觉得没有头绪﹐以后还要请教各位。请方便的留下QQ﹐谢谢!
|
呵呵,不要这样嘛;)
|
分在哪里呢?
|
把经验说说嘛,大家同享
|
祝贺你能从地狱回来.必有后福!
有什么经验可以给大家共享一下吗?
有什么经验可以给大家共享一下吗?
|
给大家说说你生活在地域时的感受吧
================================================================
================================================================
|
厉害,支持,UP!
您可能感兴趣的文章:
本站(WWW.)旨在分享和传播互联网科技相关的资讯和技术,将尽最大努力为读者提供更好的信息聚合和浏览方式。
本站(WWW.)站内文章除注明原创外,均为转载、整理或搜集自网络。欢迎任何形式的转载,转载请注明出处。
本站(WWW.)站内文章除注明原创外,均为转载、整理或搜集自网络。欢迎任何形式的转载,转载请注明出处。