信息抽取组件 Minidx
本文导语: Minidx 这一组件是专门为开发人员准备的,利用Minidx Extract-Text Com组件,您可以轻松的从Word,Xls,Pdf……等200多种文件格式中读取文本内容。该组件本身用C++编写,以Com组件的形式调用,您可以 在一切可以调用Com组件的开发语言中调...
Minidx 这一组件是专门为开发人员准备的,利用Minidx Extract-Text Com组件,您可以轻松的从Word,Xls,Pdf……等200多种文件格式中读取文本内容。该组件本身用C++编写,以Com组件的形式调用,您可以 在一切可以调用Com组件的开发语言中调用这一组件,快速的抽取各种文本内容。
Minidx是一个文件管理系统。它具有:
*自带超高速全文搜索引擎,瞬间找到所需要的文件
*具有自己的存储系统,安全的管理重要文档
*可存储与管理TB级别的数据,数据量的大小对系统运行的效率影响甚微
*采用IFilter抽取文本,无须安装例如Office的应用程序即可阅读内容
*基于Unicode编码,可正常输入/显示多国语言
*高亮语法显示,方便地阅读多种文档
*检索结果高亮显示,方便查看
*模糊查询,自动识别同义词 例如要查询where时,输入whe也能得到结果
*自带Web服务器,可方便的在Internet/局域网共享所管理的文档
*独立的P2P功能,可自由选择启动服务端/客户端,或者同时启动
*可以根据创建时间,修改时间,访问时间,标题,存储路径,内容等各项属性分等级,分目录地实现精确查询
*可方便设定过滤字段
搜索引擎特性:
*整个引擎非常小,由2万多行C/C++代码实现
*标准C/C++编写,几乎可以运行在所有的系统
*无需太多内存,在较低的硬件环境下也可以运行而不影响效率
*方便的集成到各种系统,利用Minidx引擎,仅仅需要添加几行代码就可以让系统具有全文检索功能
*超高速检索,百万条记录也能在毫秒内返回结果
*字,词,句检索
*条件”与”,”或”查询,以及他们的组合查询
*采用UNICODE字符集,多国语言字符串混合查询
*精确查询,甚至一个标点符号也可以精确定位