当前位置:  软件>java软件

PDFTextStream

    来源:    发布时间:2015-01-20

    本文导语:  PDFTextStream 是为了满足最迫切的 PDF 文本以及元数据内容提取需求而产生的(非开源)。 其 API 非常全面,并且包括以下特征: 广泛支持 PDF 文件格式规范以及所有未知变量. 完全的 Unicode-capable 文本提取工具,包括支持提取以...

PDFTextStream 是为了满足最迫切的 PDF 文本以及元数据内容提取需求而产生的(非开源)。

其 API 非常全面,并且包括以下特征:

  • 广泛支持 PDF 文件格式规范以及所有未知变量.
  • 完全的 Unicode-capable 文本提取工具,包括支持提取以水平或者垂直模式书写的 Chinese, Japanese, 以及 Korean 文本。
  • 完全支持更新交互式 AcroForms (包括文本、检查框、单选按钮以及选择自动)。
  • 能够全面的访问 PDF 文档元数据。
    • 简单的 key/value 属性.
    • Adobe XMP – XML 元数据访问.
  • 经由 com.snowtide.pdf.Page 的页面级对象模式, 提供了指定页面的文本提取,以及页面属性(高、宽、旋转角度等)。
  • Acroform (交互式表格)数据提取.
  • PDF 书签访问.
  • PDF 注释访问(包括 Link(web URL) 注释).
  • 无缝地整合了.
  • EncryptionInfo API:提供了对 PDF 文档加密参数的访问.
  • 用于超级快速文本提取的文本管道 API 提供了用于自定义 PDF 文本提取是如何格式化的钩子(如当需要维护每一页的视觉布局时)。
  • 自带了选择性文本提取,这非常适合于从固定格式表中提取数据.
  • 能够任意的对内存进行操作.
  • 自带了 PDF 合并功能.
  • 提供了从 PDF 到 HTML 的输出器.
  • PDFTextStream 的子类 java.io.Reader, 它提供了一个简单、熟悉的接口,并且能够直接与期望 java.io.Reader 实例的现存组件进行整合。
  • 灵活的日志工具包钩子。
    • 能够登录到 standard out, Log4J, 以及 java.util.logging 工具包中。
    • 能耐插入自定义的登录实现.

    
 
 

您可能感兴趣的文章:

 
本站(WWW.)旨在分享和传播互联网科技相关的资讯和技术,将尽最大努力为读者提供更好的信息聚合和浏览方式。
本站(WWW.)站内文章除注明原创外,均为转载、整理或搜集自网络。欢迎任何形式的转载,转载请注明出处。












  • 相关文章推荐


  • 站内导航:


    特别声明:169IT网站部分信息来自互联网,如果侵犯您的权利,请及时告知,本站将立即删除!

    ©2012-2021,,E-mail:www_#163.com(请将#改为@)

    浙ICP备11055608号-3