当前位置: 技术问答>linux和unix
udp方式抓取网页
来源: 互联网 发布时间:2016-08-24
本文导语: 不知道大家有多少是做搜索引擎的,我在搜索引擎 的书上看到说用UDP抓网页很快——通常都是用TCP嘛,我当时也些了个UDP方式的,根本不能运行,还有个问题就是我一个网页的源文件可能非常大,也就是一次UDP数据...
不知道大家有多少是做搜索引擎的,我在搜索引擎 的书上看到说用UDP抓网页很快——通常都是用TCP嘛,我当时也些了个UDP方式的,根本不能运行,还有个问题就是我一个网页的源文件可能非常大,也就是一次UDP数据包可能不能发送完,我就用while循环读取每个数据包,我如何判断该数据包是第一个还是第二个数据包呢——UDP数据包的发送时无序的嘛对吧?
请大家指教了,我知道每次接收UDP数据包 可以用recvfrom中的 参数获得 数据来源于哪个IP 但是没法确定该数据是在该网页中的顺序啊——我这个数据包是网页的开头数据呢,还是中间数据呢?
TCP就没有这样的问题嘛,因为TCP是保证次序的嘛,请教咯
请大家指教了,我知道每次接收UDP数据包 可以用recvfrom中的 参数获得 数据来源于哪个IP 但是没法确定该数据是在该网页中的顺序啊——我这个数据包是网页的开头数据呢,还是中间数据呢?
TCP就没有这样的问题嘛,因为TCP是保证次序的嘛,请教咯
|
http 协议都是基于tcp的,你用udp,牛!
|
google,一下应该,可以解决吧!!!