当前位置: 技术问答>linux和unix
求高效算法
来源: 互联网 发布时间:2016-09-03
本文导语: 从一亿个网页中剔除重复的网页,有没有比较高效的算法啊? | 本人认为 1用相似点进行排序分成若干相似块,2再在小的相似快中进行比较。 就是先大致分类,再细致区分,也就是分而治之...
从一亿个网页中剔除重复的网页,有没有比较高效的算法啊?
|
本人认为 1用相似点进行排序分成若干相似块,2再在小的相似快中进行比较。 就是先大致分类,再细致区分,也就是分而治之。
具体做法:先按照网页字节大小分类, 再在相同字节网页中找相同的。
具体做法:先按照网页字节大小分类, 再在相同字节网页中找相同的。
|
突发奇想:
把1亿个网页全部MD5编码,得到32位字符串,然后用高效的排序算法排序下,再经过一次线性遍历就能得到重复的网页了。
百度上搜了下,居然还真有个 近似镜像网页检测算法。
把1亿个网页全部MD5编码,得到32位字符串,然后用高效的排序算法排序下,再经过一次线性遍历就能得到重复的网页了。
百度上搜了下,居然还真有个 近似镜像网页检测算法。
|
慢慢写,慢慢对比不同算法结果,再慢慢优化.
|
先排序后再筛选的话 应该比较好点吧
|
弱弱问下,您用都的MD5算法很快嘛?
您可能感兴趣的文章:
本站(WWW.)旨在分享和传播互联网科技相关的资讯和技术,将尽最大努力为读者提供更好的信息聚合和浏览方式。
本站(WWW.)站内文章除注明原创外,均为转载、整理或搜集自网络。欢迎任何形式的转载,转载请注明出处。
本站(WWW.)站内文章除注明原创外,均为转载、整理或搜集自网络。欢迎任何形式的转载,转载请注明出处。