当前位置:  技术问答>linux和unix

谁懂汉语切词

    来源: 互联网  发布时间:2015-06-07

    本文导语:  我最近要处理一些文本分类,根据词频来分,但总不能总是自定义关键字搜索吧,请问一下谁有汉语词表,或是切词方法,不用太准确,如不方便,提示一下也好。(上回查到一个解决方案,but need money:YMB 1000)。...

我最近要处理一些文本分类,根据词频来分,但总不能总是自定义关键字搜索吧,请问一下谁有汉语词表,或是切词方法,不用太准确,如不方便,提示一下也好。(上回查到一个解决方案,but need money:YMB 1000)。谢先!

|
汉语分词?
  这个要做得好的话非常麻烦的,比较简单的做法是通过大量的
语料来积累一个词频字典,然后就匹配查找来分,二分,树还是hash都可以,
一般最长优先匹配什么的,可能正确率不是很高,看词典的正确度,但是有些汉语的语义规则就是模糊的,还可以加上其它一些算法来判断,智能的规则,对一些句式的特殊处理.还有看过
加上概率模型的,完整的解决方案确实是比较麻烦的.
  以前我毕业设计做过这个,反正不是很简单的,呵呵

    
 
 

您可能感兴趣的文章:

 
本站(WWW.)旨在分享和传播互联网科技相关的资讯和技术,将尽最大努力为读者提供更好的信息聚合和浏览方式。
本站(WWW.)站内文章除注明原创外,均为转载、整理或搜集自网络。欢迎任何形式的转载,转载请注明出处。












  • 相关文章推荐
  • 在红帽9上怎么不能输入汉语阿?
  • 安装red hat时只选了英文语言,安装后如何才能再添加汉语的呢?
  • 如何 在 linux source insight里面添加汉语字体支持?
  • 装系统的时候系统语言设置成了英语,现在怎么装上汉语?(20+20+20)
  • Python 返回汉字的汉语拼音


  • 站内导航:


    特别声明:169IT网站部分信息来自互联网,如果侵犯您的权利,请及时告知,本站将立即删除!

    ©2012-2021,,E-mail:www_#163.com(请将#改为@)

    浙ICP备11055608号-3