当前位置: 软件>java软件
网页版爬虫 spider-web
本文导语: spider-web 是爬虫的网页版,使用xml配置,支持大部分页面的爬取,支持爬取内容的保存、下载等。 其中配置文件格式为: http://www.oschina.net/tweets link http://my.oschina.net/(.)*/[0-9]* tweet a ...
spider-web 是爬虫的网页版,使用xml配置,支持大部分页面的爬取,支持爬取内容的保存、下载等。
其中配置文件格式为:
http://www.oschina.net/tweets link http://my.oschina.net/(.)*/[0-9]* tweet a txt a a a link http://my.oschina.net/(.)*/[0-9]* tweet a txt a根据不同的页面进行设置,可以支持比较流行的页面爬取。