当前位置:  软件>java软件

垂直搜索引擎 DDH

    来源:    发布时间:2015-01-21

    本文导语:  DDH垂直搜索引擎,开源授权协议LGPL, 是目前互联网中唯一可以商业运作的垂直搜索引擎系统,由JAVA语言开发,可以运行在大规模集群中的网络信息整合系统。DDH整合Nutch(开源搜索引擎系统),UCI(网页信息抽取系统)和SOLR(...

DDH垂直搜索引擎,开源授权协议LGPL, 是目前互联网中唯一可以商业运作的垂直搜索引擎系统,由JAVA语言开发,可以运行在大规模集群中的网络信息整合系统。DDH整合Nutch(开源搜索引擎系统),UCI(网页信息抽取系统)和SOLR(企业级搜索应用服务器)。无论从可扩展性,系统的性能方面还是稳定性方面,DDH垂直搜索引擎系统,都可以算的上顶级垂直搜索引擎系统之一。

DDH垂直搜索引擎系统是一个Java实现的垂直搜索引擎系统,是一套整合了Nutch/UCI/SOLR的网络信息整合系统。借助DDH你可以快速构建多领域的垂直搜索引擎系统。目前DDH整合了Nutch2.2.1+UCI1.0+SOLR4。需要运行在Linux平台下。

DDH对Nutch做的调整
1: 加入了爬虫控制。可以根据用户的需要控制爬虫的抓取地址和路径。
2: 加入了信息分类功能。Nutch只对网页进行抓取,DDH在此基础上进行了信息分类调整,这样才能适用于不同的垂直搜索引擎系统。只需要输入类别编码,就能对爬虫进行控制。URL自动识别,大幅度提高了爬取效率。
3: 加入了索引数据分类功能。Nutch只是对网页进行了文字提取处理,而垂直搜索系统需要在网页信息抽取的基础上,指定索引路径进行提交。而且不符合要求的网页不会提交给索引,大幅度提高了索引效率。


DDH加入了UCI网页信息抽取系统
UCI可以对网页信息进行精确抽取,而且不受目标网页代码的限制,特别适合垂直搜索引擎使用。
UCI网页信息抽取技术,是一种适用于亿级数量的智能网页信息抽取技术,主要适用于互联网信息整合和搜索引擎中网页信息的提取。

DDH对Solr的调整
对Solr的schema.xml的用户定义字段类型及字段的配置文件进行了重新配置,使得适合垂直搜索引擎的使用。并加入了中文分词功能。


    
 
 

您可能感兴趣的文章:

 
本站(WWW.)旨在分享和传播互联网科技相关的资讯和技术,将尽最大努力为读者提供更好的信息聚合和浏览方式。
本站(WWW.)站内文章除注明原创外,均为转载、整理或搜集自网络。欢迎任何形式的转载,转载请注明出处。












  • 相关文章推荐
  • 图片垂直居中之姊妹 DIV垂直居中
  • jQuery的垂直Slideshow
  • 基于bootstrap的垂直菜单 bootstrap-menu
  • 开源垂直社区 TalkPiece
  • jQuery垂直新闻滚动插件 vTicker
  • 如何让JScrollPane的垂直方向的滚动条时中位于最下方。
  • 用css实现图片垂直居中的使用技巧
  • firefox background-image垂直平铺问题的解决方法
  • 未知大小图片在容器的垂直和水平居中问题
  • 如何使用Matrix对bitmap的旋转与镜像水平垂直翻转
  • 未知大小图片在已知容器中的垂直和水平居中问题
  • 用Java如何在有菜单和按钮的情况下显示JPG图形文件(要求有垂直和水平的滚动条),而菜单和按钮仍可见????
  • 怎么更改redhat8.0的水平和垂直刷新率,我的已经反复更改了,可是过大,重起就出错,过小,闪的实在是厉害,调到什么情况下,效果最好?
  • css支持标准的图片垂直居中
  • android listview 水平滚动和垂直滚动的小例子
  • 使用revit api画垂直于风管的风管示例
  • 垂直爬虫 webmagic
  • CSS解决未知高度垂直居中的问题
  • jquery垂直公告滚动实现代码
  • 转载未知大小的图片在一个已知大小容器中的水平和垂直居中(二)


  • 站内导航:


    特别声明:169IT网站部分信息来自互联网,如果侵犯您的权利,请及时告知,本站将立即删除!

    ©2012-2021,,E-mail:www_#163.com(请将#改为@)

    浙ICP备11055608号-3