当前位置:  软件>java软件

中文分词工具包 smallseg

    来源:    发布时间:2015-02-09

    本文导语:  smallseg -- 开源的,基于DFA的轻量级的中文分词工具包 特点:可自定义词典、切割后返回登录词列表和未登录词列表、有一定的新词识别能力。 Python 示例代码: s3 = file("text.txt").read() words = [x.rstrip() for x in file("main.dic") ] from smal...

smallseg -- 开源的,基于DFA的轻量级的中文分词工具包

特点:可自定义词典、切割后返回登录词列表和未登录词列表、有一定的新词识别能力。

Python 示例代码:

s3 = file("text.txt").read()
words = [x.rstrip() for x in file("main.dic") ]

from smallseg import SEG
seg = SEG()
print 'Load dict...'
seg.set(words)
print "Dict is OK."

A,B = seg.cut(s3) #A是识别出的登录词列表,B是未登录词列表
for t in A:
    try:
        print t.decode('utf-8')
    except:
        pass
print "============================"
for t in B:
    try:
        print t.decode('utf-8')
    except:
        pass

Java 示例代码: 

Seg seg = new Seg();
seg.useDefaultDict();
System.out.println(seg.cut("至于在这个程序中没有太大的意义, 这是Java提供的强制转化机制。草泥马"));

stdout>>
r:[至于, 在这, 程序, 没有, 太大, 意义, 这是, 提供, 强制, 转化, 机制]
u:[Java, 草泥马, 泥马]
(因为“草泥马”并没有在词库中)

    
 
 
 
本站(WWW.)旨在分享和传播互联网科技相关的资讯和技术,将尽最大努力为读者提供更好的信息聚合和浏览方式。
本站(WWW.)站内文章除注明原创外,均为转载、整理或搜集自网络。欢迎任何形式的转载,转载请注明出处。












  • 相关文章推荐
  • 网站英文/中文域名字符集即网站英文/中文域名可以包含哪些字符
  • 装的linux是英文版,现在要如何显示中文字符啊,比如装中文软件,或看中文网页
  • 中文汉字编码知识及各种中文编码对应的编码区间总结
  • 求助:redhat9安装时选的英文,现在想变成中文,怎么办?打开中文网页中文也是乱码??
  • Firefox 23 中文版全新发布
  • 中文问题:我使用的是MEPIS Linux,系统不能显示中文,我能不能把Redhat中的中文字体移植到这个系统中?
  • 最新版 WordPress 3.6 “Oscar” 简体中文版介绍及下载
  • 中文问题:我的数据库中,中文写入没有问题,但中文却不能正常读出。(sqlserver2000)
  • 微软浏览器IE 11(InternetExplorer 11)简体中文预览版介绍及下载地址
  • 有哪些中文linux,有哪些外挂的中文环境,这些中文环境之间兼容吗?
  • 中文网页快速去重算法研究
  • 我安装了Redhat 7.3中文版,可以输入和显示中文文件,但是在光盘上的中文文件名却不能正确显示,为什么?你们的是这样的吗?
  • 开源php中文分词系统SCWS安装和使用实例 iis7站长之家
  • 在实现简体中文转繁体中文,繁体中文转简体中文时,JAVA得如何实现???
  • Java读写包括中文的txt文件时不同编码格式问题解决
  • 刚装的redhard9.0中文版, OpenOffice 不能用中文.
  • C++准标准库boost库中文介绍
  • linux要想使用中文输入法是不是要安装中文支持才可以?
  • 最新CentOS 7中文正式版64位下载、安装及CentOS网卡IP配置(ifconfig)(图文)
  • kawa 不能输入中文?对中文支持很差。
  • Windows 8.1中文英文预览版系统下载及功能改进
  • redhat 7.3 光盘中文目录名,xmms的中文歌曲名如何显示?


  • 站内导航:


    特别声明:169IT网站部分信息来自互联网,如果侵犯您的权利,请及时告知,本站将立即删除!

    ©2012-2021,,E-mail:www_#163.com(请将#改为@)

    浙ICP备11055608号-3