当前位置:  软件>C/C++软件

R语言中文分词 jiebaR

    来源:    发布时间:2014-12-20

    本文导语:  "结巴"中文分词的R语言版本,支持最大概率法(Maximum Probability),隐式马尔科夫模型(Hidden Markov Model),索引模型(QuerySegment),混合模型(MixSegment),共四种分词模式,同时有词性标注,关键词提取,文本Simhash相似度比较...

"结巴"中文分词的R语言版本,支持最大概率法(Maximum Probability),隐式马尔科夫模型(Hidden Markov Model),索引模型(QuerySegment),混合模型(MixSegment),共四种分词模式,同时有词性标注,关键词提取,文本Simhash相似度比较等功能。项目使用了Rcpp和CppJieba进行开发。

特性

  • 支持 Windows , Linux操作系统(Mac 暂未测试)。

  • 通过Rcpp Modules实现同时加载多个分词系统,可以分别使用不同的分词模式和词库。

  • 支持多种分词模式、中文姓名识别、关键词提取、词性标注以及文本Simhash相似度比较等功能。

  • 支持加载自定义用户词库,设置词频、词性。

  • 同时支持简体中文、繁体中文分词。

  • 支持自动判断编码模式。

  • 比原"结巴"中文分词速度快,是其他R分词包的5-20倍。

  • 安装简单,无需复杂设置。

  • 可以通过Rpy2,jvmr等被其他语言调用。

  • 基于MIT协议。

安装

目前该包还没有发布到CRAN,可以通过Github进行安装。Windows系统需要安装 Rtools,或者可以下载二进制包,进行安装:

library(devtools)
install_github("qinwf/jiebaR")
使用示例分词

jiebaR提供了四种分词模式,可以通过jiebar()来初始化分词引擎,使用segment()进行分词。

library(jiebaR)
##  接受默认参数,建立分词引擎 
mixseg = worker()
##  相当于:
##       jiebar( type = "mix", dict = "inst/dict/jieba.dict.utf8",
##               hmm  = "inst/dict/hmm_model.utf8",  ### HMM模型数据
##               user = "inst/dict/user.dict.utf8") ### 用户自定义词库
mixseg 

    
 
 

您可能感兴趣的文章:

  • C语言开源高性能中文分词器 friso
  • 请问哪里有ubuntu 9.0版本的中文语言包和KDE的中文语言包下载,我用Google搜索了很多地方都没有!
  • 我安装的linux时默认语言选择的是中文,又乱码,怎么可以解决?怎么更改默认语言成英文?
  • 怎么样将原来是中文的系统语言便成英语的,就是把中文去掉?
  • Redhat9安装时语言只选择了中文,现在还能再增加其它语言的支持吗?如英文
  • 在redhat9.0下,由于在安装的时候没有选择安装中文系统语言,不能正确显示中文的问题
  • 刚学linux语言问题,运行在init5时候可以用中文正常显示,但在init3下不能显示中文,需在哪里调整
  • 如何安装中文语言包,7.1版本
  • 我安装了一套Red hat 8.0,语言选择的是中文,结果在XWindows下可以,在控制台下的中文都是乱码:(
  • gentoo中如何下载中文语言包??
  • 关于以English默认语言登录的 中文输入法的问题
  • 安装linux9我选择系统语言一直为English,上网后不能显示中文的问题!
  • redhat 9.0系统安装完后如何再安装中文语言包?
  • 我装了Redhat Linux 9.0简体中文版,能不能把某个用户的语言设置为英文(美国)?
  • BT3 中文语言包
  • 请问谁有中文英文语言断字规则?
  • 中文自然语言处理工具包 FudanNLP
  • solaris 9 安装时的几种中文语言,是什么意思
  • 在RED HAT 8.0的英文为默认语言下怎样输入中文?
  • Linux现在是英语版,如何不重新安装,而能把语言改为中文版
  • 如何在系统语言为英文的环境下调出中文输入法?
  •  
    本站(WWW.)旨在分享和传播互联网科技相关的资讯和技术,将尽最大努力为读者提供更好的信息聚合和浏览方式。
    本站(WWW.)站内文章除注明原创外,均为转载、整理或搜集自网络。欢迎任何形式的转载,转载请注明出处。












  • 相关文章推荐
  • 2013年7月和2013年8月编程语言排行榜
  • 如何在GTK2.0下实现国际化(语言选择根据自己设置的语言,不用系统的语言)
  • 2017 年热门编程语言排行榜出炉,你的语言上榜没?
  • C语言中有指针,因此C语言可以创建链表,那么Java语言没有指针,那Java是否可以创建链表呢?
  • 苹果OS X和IOS下最新编程语言swift介绍
  • 求助,在linux下,c语言和汇编语言的接口是什么?
  • c语言判断某一年是否为闰年的各种实现程序代码
  • C语言中间语言 CIL
  • PHP编程语言介绍及安装测试方法
  • 最近学JSP,苦于HTML语言和JAVA语言太差,请教推荐几本书,thanks.
  • Linux下C语言strstr()查找子字符串位置函数详细介绍(strstr原型、实现及用法)
  • 动态编程语言 LIME编程语言
  • c语言实现MD5算法完整代码示例
  • C语言如何改变当前语言环境
  • 以NetBeans IDE为例介绍如何使用XML中Schema语言
  • 如何在VIM中使汇编语言和C语言自动缩进?
  • c语言基于libpcap实现一个抓包程序过程
  • 可不可以这样认为!c语言是一道唯一指向操作系统的语言,精通了它,就了解了操作系统?
  • HTML超文本标记语言教程及实例
  • 请问如何在C语言中嵌入的shell脚本中获得C语言程序中定义的某个变量
  • MD5算法的C语言实现
  • kliyx是使用C++语言编程的,还是用C语言编程的?


  • 站内导航:


    特别声明:169IT网站部分信息来自互联网,如果侵犯您的权利,请及时告知,本站将立即删除!

    ©2012-2021,,E-mail:www_#163.com(请将#改为@)

    浙ICP备11055608号-3