当前位置:  技术问答>linux和unix

求高效算法

    来源: 互联网  发布时间:2016-09-03

    本文导语:  从一亿个网页中剔除重复的网页,有没有比较高效的算法啊? | 本人认为 1用相似点进行排序分成若干相似块,2再在小的相似快中进行比较。 就是先大致分类,再细致区分,也就是分而治之...

从一亿个网页中剔除重复的网页,有没有比较高效的算法啊?

|
本人认为 1用相似点进行排序分成若干相似块,2再在小的相似快中进行比较。 就是先大致分类,再细致区分,也就是分而治之。
具体做法:先按照网页字节大小分类, 再在相同字节网页中找相同的。 

|
突发奇想:

把1亿个网页全部MD5编码,得到32位字符串,然后用高效的排序算法排序下,再经过一次线性遍历就能得到重复的网页了。

百度上搜了下,居然还真有个 近似镜像网页检测算法。

|
慢慢写,慢慢对比不同算法结果,再慢慢优化.

|
先排序后再筛选的话 应该比较好点吧

|
弱弱问下,您用都的MD5算法很快嘛?


    
 
 

您可能感兴趣的文章:

 
本站(WWW.)旨在分享和传播互联网科技相关的资讯和技术,将尽最大努力为读者提供更好的信息聚合和浏览方式。
本站(WWW.)站内文章除注明原创外,均为转载、整理或搜集自网络。欢迎任何形式的转载,转载请注明出处。












  • 相关文章推荐
  • <<大话数据结构>>中冒泡排序算法改进
  • 那位高人有任务分配问题的禁忌搜索算法、模拟退火算法的算法实现程序啊
  • 二叉树常用算法(求总节点个数和叶子节点个数)
  • 求对称加密DES算法与非对称加密RSA算法!(可用)
  • boost unordered_map和std::list相结合的实现LRU算法
  • 深入串的模式匹配算法(普通算法和KMP算法)的详解
  • 中文网页快速去重算法研究
  • java 合并排序算法、冒泡排序算法、选择排序算法、插入排序算法、快速排序算法的描述
  • 使用java jdk中的LinkedHashMap实现简单的LRU算法
  • 谁能给出一个最快最高效的求素数的算法?(高分求算法)
  • 广告系统中weak-and算法原理及编码验证
  • 谁有这样的算法:给定两个区域,用直线或折线来连接,以及移动其中线段的算法。
  • c++实现MD5算法代码示例
  • 算法之排序算法的算法思想和使用场景总结
  • c语言实现MD5算法完整代码示例
  • 【算法】扑克发牌算法实现
  • MD5算法的C语言实现
  • php加密算法之实现可逆加密算法和解密分享
  • C++实现查找中位数的O(N)算法和Kmin算法
  • PHP中对各种加密算法、Hash算法的速度测试对比代码
  • 关于加密算法的效率问题


  • 站内导航:


    特别声明:169IT网站部分信息来自互联网,如果侵犯您的权利,请及时告知,本站将立即删除!

    ©2012-2021,,E-mail:www_#163.com(请将#改为@)

    浙ICP备11055608号-3