网页爬虫框架 hispider__解析_任务号_URL_hispiderd_whitelist__

169it科技资讯

当前位置: 软件>C/C++软件

网页爬虫框架 hispider

来源: 发布时间：2015-02-09

本文导语: HiSpider is a fast and high performance spider with high speed 严格说只能是一个spider系统的框架, 没有细化需求, 目前只是能提取URL, URL排重, 异步DNS解析, 队列化任务, 支持N机分布式下载, 支持网站定向下载(需要配置hispiderd.ini whitelist). 特...

HiSpider is a fast and high performance spider with high speed

严格说只能是一个spider系统的框架, 没有细化需求, 目前只是能提取URL, URL排重, 异步DNS解析, 队列化任务, 支持N机分布式下载, 支持网站定向下载(需要配置hispiderd.ini whitelist).

特征和用法:

基于unix/linux系统的开发
异步DNS解析
URL排重
支持HTTP 压缩编码传输 gzip/deflate
字符集判断自动转换成UTF-8编码
文档压缩存储
支持多下载节点分布式下载
支持网站定向下载(需要配置 hispiderd.ini whitelist )
可通过 http://127.0.0.1:3721/ 查看下载情况统计,下载任务控制(可停止和恢复任务)
依赖基本通信库libevbase 和 libsbase (安装的时候需要先安装这个两个库)

工作流程:

从中心节点取URL(/tech-soft-c-cpp/包括URL对应的任务号, IP和port,也可能需要自己解析/index.html)
连接服务器发送请求
等待数据头判断是否需要的数据(目前主要取text类型的数据)
等待完成数据(有length头的直接等待说明长度的数据否则等待比较大的数字然后设置超时)
数据完成或者超时, zlib压缩数据返回给中心服务器,数据可能包括自己解析DNS信息, 压缩后数据长度+压缩后数据, 如果出错就直接返回任务号以及相关信息
中心服务器收到带有任务号的数据, 查看是否包括数据, 如果没有数据直接置任务号对应的状态为错误, 如果有数据提取数据种link 然后存储数据到文档文件.
完成后返回一个新的任务.

您可能感兴趣的文章:

基于python实现的网络爬虫功能:自动抓取网页介绍

网页爬虫 Ex-Crawler

网页爬虫 Spiderq

网页爬虫 Methanol

网页爬虫 YaCy

Java网页爬虫 JSpider

网页搜索爬虫 BlueLeech

Python天气预报采集器实现代码(网页爬虫)

[求助][排错]一段利用socket连接网页，并将网页内容拷贝下来的程序。。。[有一点问题] iis7站长之家

java正则表达式简单使用和网页爬虫的制作代码

python抓取网页图片示例(python爬虫)

python编写网页爬虫脚本并实现APScheduler调度

各位高手请帮忙,如果我在框架网页中弹出一个新的窗口,在新窗口中执行一定的操作后,怎样让框架网页自动刷新?

在框架结构的网页中，子框架中的表单无法传递参数，怎么办？？

框架网页中如何使用sendredirect(a.html)，使得a.html不显示在框架中，是整页显示！

我用action向一个框架网页中传了表单参数

CSS网页布局框架 Elastic

linux下面的什么浏览器可以支持框架？？许多网页没法正常观看！！！

网页自动生成框架 Hamlets

怎样自动刷新一个框架内的网页？

请问如何在javascript中动态的指定框架页显示的网页内容。

怎样提取框架网页中<textarea></textarea>中的大量数据?

让网页框架透明底部对齐的代码

本站(WWW.)旨在分享和传播互联网科技相关的资讯和技术，将尽最大努力为读者提供更好的信息聚合和浏览方式。
本站(WWW.)站内文章除注明原创外，均为转载、整理或搜集自网络。欢迎任何形式的转载，转载请注明出处。

相关文章推荐

web网页自动跳转方法:Html body onload自动跳转举例

linux浏览网页时怎样显示网页中的flash动画？

Python获取网页编码的方法及示例代码

怎样把整张网页内容当作一副图形（只能作为图像，因为可能网页中有图）传给控制打印的Java程序？

HTML网页中的html body onload自动跳转方法介绍及自动跳转代码示例

为什么我用netscape浏览时，网页不正常（主要是动态网页）碰到分类排序的就显示不了了

HTML网页的Meta Refresh自动跳转方法介绍及Meta Refresh自动跳转代码示例

[求助][排错]一段利用socket连接网页，并将网页内容拷贝下来的程序。。。[有一点问题]

中文网页快速去重算法研究

关于session(我停了一会儿没动网页，再在点击网页链接时，session丢失,然后点击IE的刷新，session又有了）这是怎么回事。

VPN虚拟局域网和本地局域网共存(连上vpn后正常打开网页)

C#实现将网页保存成图片的网页拍照功能

HTML网页中的javaScript自动跳转方法介绍及javaScript自动跳转代码示例

如何在red hat的网页浏览器中浏览使用ipv6协议的网页？

Python3通过request.urlopen实现Web网页图片下载

eidt.jsp对网页进行编辑，网页内容存放在数据库中，其中有些字段用textarea多行编辑框显示，保存提交数据库后，再次对它编辑，那些用多行

在样式表中，用submit提交信息到下一个网页，在下一个网页中如何知道该submit的name??谢谢了

★★Linux服务器的网页响应发送给客户端的网页被修改,估计服务器中毒了,怎么办??

网页下载文件期间如何防止用户对网页进行其他操作

批量下载网页图片，网页截图 Chrome 插件挖一下

网页设计者需要了解的_网页字体大小数据参考

站内导航:

操作系统| 编程语言| Web服务器/前端| 数据库| NOSQL| 网络技术 | c/c++| java/j2ee| .net/c#/asp.net| php | WEB前端| jquery| 移动开发| 编程技术其它| linux | oracle | sqlserver
mysql| unix/linux知识| java开源软件| c/c++开源软件| php开源软件| java开发知识| javascript开源软件| HTML教程 | HTML标签参考手册| CSS属性参考手册| docker中文入门学习手册

特别声明:169IT网站部分信息来自互联网,如果侵犯您的权利,请及时告知,本站将立即删除！

©2012-2021,,E-mail:www_#163.com(请将#改为@)

浙ICP备11055608号-3