当前位置: 技术问答>linux和unix
谁懂汉语切词
来源: 互联网 发布时间:2015-06-07
本文导语: 我最近要处理一些文本分类,根据词频来分,但总不能总是自定义关键字搜索吧,请问一下谁有汉语词表,或是切词方法,不用太准确,如不方便,提示一下也好。(上回查到一个解决方案,but need money:YMB 1000)。...
我最近要处理一些文本分类,根据词频来分,但总不能总是自定义关键字搜索吧,请问一下谁有汉语词表,或是切词方法,不用太准确,如不方便,提示一下也好。(上回查到一个解决方案,but need money:YMB 1000)。谢先!
|
汉语分词?
这个要做得好的话非常麻烦的,比较简单的做法是通过大量的
语料来积累一个词频字典,然后就匹配查找来分,二分,树还是hash都可以,
一般最长优先匹配什么的,可能正确率不是很高,看词典的正确度,但是有些汉语的语义规则就是模糊的,还可以加上其它一些算法来判断,智能的规则,对一些句式的特殊处理.还有看过
加上概率模型的,完整的解决方案确实是比较麻烦的.
以前我毕业设计做过这个,反正不是很简单的,呵呵
这个要做得好的话非常麻烦的,比较简单的做法是通过大量的
语料来积累一个词频字典,然后就匹配查找来分,二分,树还是hash都可以,
一般最长优先匹配什么的,可能正确率不是很高,看词典的正确度,但是有些汉语的语义规则就是模糊的,还可以加上其它一些算法来判断,智能的规则,对一些句式的特殊处理.还有看过
加上概率模型的,完整的解决方案确实是比较麻烦的.
以前我毕业设计做过这个,反正不是很简单的,呵呵
您可能感兴趣的文章:
本站(WWW.)旨在分享和传播互联网科技相关的资讯和技术,将尽最大努力为读者提供更好的信息聚合和浏览方式。
本站(WWW.)站内文章除注明原创外,均为转载、整理或搜集自网络。欢迎任何形式的转载,转载请注明出处。
本站(WWW.)站内文章除注明原创外,均为转载、整理或搜集自网络。欢迎任何形式的转载,转载请注明出处。