当前位置:  软件>java软件

通用网页正文抽取 cx-extractor

    来源:    发布时间:2015-02-13

    本文导语:  基于行块分布函数的通用网页正文抽取:线性时间、不建DOM树、与HTML标签无关 对于Web信息检索来说,网页正文抽取是后续处理的关键。 虽然使用正则表达式可以准确的抽取某一固定格式的页面,但面对形形色色的HTML,使用规...

基于行块分布函数的通用网页正文抽取:线性时间、不建DOM树、与HTML标签无关

对于Web信息检索来说,网页正文抽取是后续处理的关键。

虽然使用正则表达式可以准确的抽取某一固定格式的页面,但面对形形色色的HTML,使用规则处理难免捉襟见肘。能不能高效、准确的将一个页面的正文抽取出来,并做到在大规模网页范围内通用,这是一个直接关系上层应用的难题。

作者提出了《基于行块分布函数的通用网页正文抽取算法》,首次将网页正文抽取问题转化为求页面的行块分布函数,这种方法不用建立Dom树,不被病态HTML所累(事实上与HTML标签完全无关)。通过在线性时间内建立的行块分布函数图,直接准确定位网页正文。同时采用了统计与规则相结合的方法来处理通用性问题。作者相信简单的事情总应该用最简单的办法来解决这一亘古不变的道理。整个算法实现代码不足百行。但量不在多,在法。

建议使用svn checkout http://cx-extractor.googlecode.com/svn/trunk/,svn的好处是更新及时,zip包作者不能保证每次修改完后都及时上传 :)


There are undoubtedly serious bugs lurking somewhere in code this funky. So feel free to contact us if you meet any problem.
Bug reports and other feedback are most welcome :-)

Version Author Email Institute Perl 陈鑫 xchen@ir.hit.edu.cn 哈工大信息检索研究中心 Java 王利锋、罗磊 {lfwang,lluo}@ir.hit.edu.cn 哈工大信息检索研究中心 C++ 朱亮 zhuliang@software.ict.ac.cn 中科院计算所高级网络重点实验室 PHP 轩文烽 xwf1788@gmail.com 哈工大智能技术与自然语言处理研究室 C# 张帆 zfannn@gmail.com 中科院信息科学与工程学院

 


如果您正在关注或使用cx-extractor,同时希望在第一时间得到该项目的更新信息,
您可以加入该项目的邮件列表 http://list.qq.com/cgi-bin/qf_invite?id=2a19dc7f75fcba75ee9962adfcf5013e3154e3b92ef767a3

本软件的使用许可协议:署名-非商业性使用-相同方式共享 (by-nc-sa),新浪微博http://weibo.com/cx3180


    
 
 

您可能感兴趣的文章:

 
本站(WWW.)旨在分享和传播互联网科技相关的资讯和技术,将尽最大努力为读者提供更好的信息聚合和浏览方式。
本站(WWW.)站内文章除注明原创外,均为转载、整理或搜集自网络。欢迎任何形式的转载,转载请注明出处。












  • 相关文章推荐
  • c++通用模板类(template class)定义实现详细介绍
  • 通用信息系统框架
  • linux的软件能通用吗?
  • 交叉编译器可以通用吗?
  • 通用LINUX C类库 jzlibs
  • 通用CAD零件库系统
  • redhat 8.0有无通用用户名,密码?
  • 可扩展二进制通用协议 XBUP
  • memoization通用框架 C++Memo
  • 通用数据压缩工具 zlite
  • 通用库支持脚本 libtool
  • 通用数据结构库 GDSL
  • 银行通用接口 AqBanking
  • 请问ncurses与curses有区别吗?有什么区别?在这两个库下编写的程序通用吗?
  • 通用并发 Java 对象池 Vibur Object Pool
  • 通用DAO类 yagdao
  • 通用WEB框架 Webx
  • 请问某个数据库(如oracle)的jdbc驱动程序是不是在所有平台下通用?
  • 请问Linux数据库编程是否也可以支持通用的SQL语言进行数据库编写.
  • 怎么才能把LInux驱动做成通用的(与厂商号和产品号无关)
  • 求个linux多线程编程的例子,要有线程池的 通用些更好


  • 站内导航:


    特别声明:169IT网站部分信息来自互联网,如果侵犯您的权利,请及时告知,本站将立即删除!

    ©2012-2021,,E-mail:www_#163.com(请将#改为@)

    浙ICP备11055608号-3