当前位置:  软件>C/C++软件

中文句法分析器 ctbparser

    来源:    发布时间:2015-02-11

    本文导语:  一个用C++实现的 中文句法分析 工具包,采用的是中文宾州树库标准(Chinese Tree Bank),并提供源代码。 可以对原始的文档(GBK编码)进行自动繁简转换,分句,分词,词性标注,依存句法分析。 该句法分析工具采用了标准的图...

一个用C++实现的 中文句法分析 工具包,采用的是中文宾州树库标准(Chinese Tree Bank),并提供源代码。 可以对原始的文档(GBK编码)进行自动繁简转换,分句,分词,词性标注,依存句法分析。

该句法分析工具采用了标准的图模型算法,即最大生成树算法(projective Maximum Spanning Tree)。该算法由Eisner于96年提出,复杂度为句子长度的三次方。详情可参见论文[1]

句法分析目前尚属于研究阶段,离实际应用还有很长的距离。其关键问题在于句法分析速度太慢。远远落后于分词和词性标注,因此无法处理海量数据。正因 为这样,本工具包不提供更加耗时的高阶解码算法(Higher order projective parsing),并采用新的数据结构[2],在无损精度的前提下,提高句法分析的速度。

系统框架:
整个句法分析分为5步:
1、繁简、半全角转换并切句:所有繁体字通过一张对应表转成简体字,所有的半角符号转成全角。比如'a'就转成'a'。对转换好的句子,用简单的规则进行切句。
2、命名实体识别:采用条件随机场模型标出句中的人名、地名。
3、分词:采用条件随机场模型进行分词,人名、地名被强制独立成词。此外,采用最短路的方法匹配出字典中的词。
4、词性标注:采用条件随机场模型进行词性标注,字典匹配出的词,其词性和字典一致。
5、句法分析:采用最优生成树算法,对句子进行句法分析。

评测:
在CTB6标准测试集上,ctbparser分词得到95.3% F1值,词性标注精度94.27%,句法分析精度81%。处理速度(包括分词、词性标注、句法分析)的速度是每秒30句,内存占用为270M。(操作系 统:64位CentOS 5,CPU: Intel(R) Xeon(R) E5405, 2.00GHz)

具体使用说明在工具包readme_cn.html文件中,这里就不提了。

参考文献:

[1] Mark A. Paskin, "Cubic-time Parsing and Learning Algorithms for Grammatical Bigram Models", technique report, 2001

[2] Xian Qian, Qi Zhang, Xuangjing Huang and Lide Wu. "2D Trie for fast parsing ", COLING 2010


    
 
 

您可能感兴趣的文章:

  • 中文句法语义分析系统 NiuParser
  •  
    本站(WWW.)旨在分享和传播互联网科技相关的资讯和技术,将尽最大努力为读者提供更好的信息聚合和浏览方式。
    本站(WWW.)站内文章除注明原创外,均为转载、整理或搜集自网络。欢迎任何形式的转载,转载请注明出处。












  • 相关文章推荐
  • 网站英文/中文域名字符集即网站英文/中文域名可以包含哪些字符
  • 装的linux是英文版,现在要如何显示中文字符啊,比如装中文软件,或看中文网页
  • 中文汉字编码知识及各种中文编码对应的编码区间总结
  • 求助:redhat9安装时选的英文,现在想变成中文,怎么办?打开中文网页中文也是乱码??
  • Firefox 23 中文版全新发布
  • 中文问题:我使用的是MEPIS Linux,系统不能显示中文,我能不能把Redhat中的中文字体移植到这个系统中?
  • 最新版 WordPress 3.6 “Oscar” 简体中文版介绍及下载
  • 中文问题:我的数据库中,中文写入没有问题,但中文却不能正常读出。(sqlserver2000)
  • 微软浏览器IE 11(InternetExplorer 11)简体中文预览版介绍及下载地址
  • 有哪些中文linux,有哪些外挂的中文环境,这些中文环境之间兼容吗?
  • 中文网页快速去重算法研究
  • 我安装了Redhat 7.3中文版,可以输入和显示中文文件,但是在光盘上的中文文件名却不能正确显示,为什么?你们的是这样的吗?
  • Visual Studio 2012 简体中文版新功能介绍及官方下载地址
  • 在实现简体中文转繁体中文,繁体中文转简体中文时,JAVA得如何实现???
  • Java读写包括中文的txt文件时不同编码格式问题解决
  • 刚装的redhard9.0中文版, OpenOffice 不能用中文.
  • C++准标准库boost库中文介绍
  • linux要想使用中文输入法是不是要安装中文支持才可以?
  • 最新CentOS 7中文正式版64位下载、安装及CentOS网卡IP配置(ifconfig)(图文)
  • kawa 不能输入中文?对中文支持很差。
  • Windows 8.1中文英文预览版系统下载及功能改进
  • redhat 7.3 光盘中文目录名,xmms的中文歌曲名如何显示?


  • 站内导航:


    特别声明:169IT网站部分信息来自互联网,如果侵犯您的权利,请及时告知,本站将立即删除!

    ©2012-2021,,E-mail:www_#163.com(请将#改为@)

    浙ICP备11055608号-3