当前位置:  软件>java软件

中文分词库 IKAnalyzer

    来源:    发布时间:2015-02-25

    本文导语:  IK Analyzer 是一个开源的,基于java语言开发的轻量级的中文分词工具包。从2006年12月推出1.0版开始, IKAnalyzer已经推出了4个大版本。最初,它是以开源项目Luence为应用主体的,结合词典分词和文法分析算法的中文分词组件。从3...

IK Analyzer 是一个开源的,基于java语言开发的轻量级的中文分词工具包。从2006年12月推出1.0版开始, IKAnalyzer已经推出了4个大版本。最初,它是以开源项目Luence为应用主体的,结合词典分词和文法分析算法的中文分词组件。从3.0版本开始,IK发展为面向Java的公用分词组件,独立于Lucene项目,同时提供了对Lucene的默认优化实现。在2012版本中,IK实现了简单的分词歧义排除算法,标志着IK分词器从单纯的词典分词向模拟语义分词衍化。

IK Analyzer 2012特性:

  • 采用了特有的“正向迭代最细粒度切分算法“,支持细粒度和智能分词两种切分模式;

  • 在系统环境:Core2 i7 3.4G双核,4G内存,window 7 64位, Sun JDK 1.6_29 64位 普通pc环境测试,IK2012具有160万字/秒(3000KB/S)的高速处理能力。

  • 2012版本的智能分词模式支持简单的分词排歧义处理和数量词合并输出。

  • 采用了多子处理器分析模式,支持:英文字母、数字、中文词汇等分词处理,兼容韩文、日文字符

  • 优化的词典存储,更小的内存占用。支持用户词典扩展定义。特别的,在2012版本,词典支持中文,英文,数字混合词语。


  •     
     
     
     
    本站(WWW.)旨在分享和传播互联网科技相关的资讯和技术,将尽最大努力为读者提供更好的信息聚合和浏览方式。
    本站(WWW.)站内文章除注明原创外,均为转载、整理或搜集自网络。欢迎任何形式的转载,转载请注明出处。












  • 相关文章推荐
  • 网站英文/中文域名字符集即网站英文/中文域名可以包含哪些字符
  • 装的linux是英文版,现在要如何显示中文字符啊,比如装中文软件,或看中文网页
  • 中文汉字编码知识及各种中文编码对应的编码区间总结
  • 求助:redhat9安装时选的英文,现在想变成中文,怎么办?打开中文网页中文也是乱码??
  • Firefox 23 中文版全新发布
  • 中文问题:我使用的是MEPIS Linux,系统不能显示中文,我能不能把Redhat中的中文字体移植到这个系统中?
  • 最新版 WordPress 3.6 “Oscar” 简体中文版介绍及下载
  • 中文问题:我的数据库中,中文写入没有问题,但中文却不能正常读出。(sqlserver2000)
  • 微软浏览器IE 11(InternetExplorer 11)简体中文预览版介绍及下载地址
  • 有哪些中文linux,有哪些外挂的中文环境,这些中文环境之间兼容吗?
  • 中文网页快速去重算法研究
  • 我安装了Redhat 7.3中文版,可以输入和显示中文文件,但是在光盘上的中文文件名却不能正确显示,为什么?你们的是这样的吗?
  • Visual Studio 2012 简体中文版新功能介绍及官方下载地址
  • 在实现简体中文转繁体中文,繁体中文转简体中文时,JAVA得如何实现???
  • Java读写包括中文的txt文件时不同编码格式问题解决
  • 刚装的redhard9.0中文版, OpenOffice 不能用中文.
  • C++准标准库boost库中文介绍
  • linux要想使用中文输入法是不是要安装中文支持才可以?
  • 最新CentOS 7中文正式版64位下载、安装及CentOS网卡IP配置(ifconfig)(图文)
  • kawa 不能输入中文?对中文支持很差。
  • Windows 8.1中文英文预览版系统下载及功能改进
  • redhat 7.3 光盘中文目录名,xmms的中文歌曲名如何显示?


  • 站内导航:


    特别声明:169IT网站部分信息来自互联网,如果侵犯您的权利,请及时告知,本站将立即删除!

    ©2012-2021,,E-mail:www_#163.com(请将#改为@)

    浙ICP备11055608号-3