内容抽取工具集合 Apache Tika__Tika_Parser_metadata_handler_Pdfbox__

169it科技资讯

当前位置: 软件>java软件

内容抽取工具集合 Apache Tika

来源: 发布时间：2015-02-18

本文导语: Tika是一个内容抽取的工具集合(a toolkit for text extracting)。它集成了POI, Pdfbox 并且为文本抽取工作提供了一个统一的界面。其次，Tika也提供了便利的扩展API，用来丰富其对第三方文件格式的支持。在当前的0.2-SNAPSHOT版本中， Tika...

内容抽取工具集合 Apache Tika[图片]

Tika是一个内容抽取的工具集合(a toolkit for text extracting)。它集成了POI, Pdfbox 并且为文本抽取工作提供了一个统一的界面。其次，Tika也提供了便利的扩展API，用来丰富其对第三方文件格式的支持。

在当前的0.2-SNAPSHOT版本中， Tika提供了对如下文件格式的支持:

PDF - 通过Pdfbox
MS-* - 通过POI
HTML - 使用nekohtml将不规范的html整理成为xhtml
OpenOffice 格式 - Tika提供
Archive - zip, tar, gzip, bzip等
RTF - Tika提供
Java class - Class解析由ASM完成
Image - 只支持图像的元数据抽取
XML

Tika的API十分便捷，核心是Parser interface，其中定义了一个parse方法：
public void parse(InputStream stream, ContentHandler handler, Metadata metadata)
用stream参数传递需要解析的文件流，文本内容会被传入handler，而元数据会更新至metadata。

可以使用Tika的ParserUtils工具来根据文件的mime-type来得到一个适当的Parser来进行解析工作。或者Tika还提供了一个AutoDetectParser根据不同的二进制文件的特殊格式 (比如说Magic Code)，来寻找适合的Parser。

您可能感兴趣的文章:

c# 正则表达式对网页进行有效内容抽取

本站(WWW.)旨在分享和传播互联网科技相关的资讯和技术，将尽最大努力为读者提供更好的信息聚合和浏览方式。
本站(WWW.)站内文章除注明原创外，均为转载、整理或搜集自网络。欢迎任何形式的转载，转载请注明出处。

相关文章推荐

成人内容下载工具 Gnaughty

web内容分析工具 xhtmldbg

网站内容管理工具 webEditor

着急ing,用什么工具可以在windows下面修改ext3盘里面的内容？

linux 有没有像ghost的工具把一个分区的内容制作成一个镜像文件？

如何用Linux中的文本编辑工具提取文本文件中的指定内容？

在linux中有什么工具可以读取windows中的内容?

数据库内容比较工具 dbcmp

C++ Strings(字符串) 成员 data():返回内容的字符数组形式

网关监控（网管监控）：监控员工上网内容、进出电子邮件内容、聊天内容、上传和下载内容，过滤不良网站;设置一部分电子邮件帐号只能够发

C++ Strings(字符串) 成员 copy():将内容复制为一个字符数组

VI搜索时怎样将复制的内容作为搜索的内容??

C++ Strings(字符串) 成员 swap():交换两个字符串的内容

java 中能不能在文件前面添加些内容?不覆盖原内容!

CSS控制长文本内容显示(截取的地方用省略号代替)

请问：dos下怎样读取光驱中内容呀，因为内容有20M，所以不能用软驱，

bash如何读取网页的内容,并根据内容进行不同的操作

怎样写一个shell，可以查看一个文件的内容，并且有翻页的内容，并可以打印的

数据表中的内容包含回车换行符，如何显示内容时执行换行？

菜鸟请教 $(内容) 和 ${内容} 是什么意思

大家知道在shell那里删除一个里面有内容的目录应该要用什么命令呢？注意，是有内容内目录啊，不是空目录！

怎样在linux下用命令实现cp目录a下的字目录的所有内容到b目录中，cp子目录内容？？？

求助如何遍历一个文件的内容？并且将结果中第一列名字相同的内容的各个字段做相加工作

Linux下抓的http包，内容是gzip压缩过的，要如何解压出原来的内容？

很菜的问题!如何才能在redhat7.2下看到fat32的分区内容(即window中的内容)??

怎样在linux下用命令实现cp目录a下的子目录的所有内容到b目录中，只cp目录a的子目录内容？？？

Java中，给已存在的文件添加内容，但不覆盖文件原有内容，该如何操作

jquery 父页面查找iframe子页面内容、子页面查找父页面内容

c#读取excel内容内容示例分享

站内导航:

操作系统| 数据表中的内容包含回车换行符，如何显示内容时执行换行？ iis7站长之家| Web服务器/前端| 数据库| NOSQL| 网络技术 | c/c++| java/j2ee| .net/c#/asp.net| php | WEB前端| jquery| 移动开发| 编程技术其它| linux | oracle | sqlserver
mysql| unix/linux知识| java开源软件| c/c++开源软件| php开源软件| java开发知识| javascript开源软件| HTML教程 | HTML标签参考手册| CSS属性参考手册| docker中文入门学习手册

特别声明:169IT网站部分信息来自互联网,如果侵犯您的权利,请及时告知,本站将立即删除！

©2012-2021,,E-mail:www_#163.com(请将#改为@)

浙ICP备11055608号-3