求高效算法__高效_MD5_高效算_成若干_居然还__

169it科技资讯

当前位置: 技术问答>linux和unix

求高效算法

来源: 互联网发布时间：2016-09-03

本文导语: 从一亿个网页中剔除重复的网页，有没有比较高效的算法啊？ | 本人认为 1用相似点进行排序分成若干相似块，2再在小的相似快中进行比较。就是先大致分类，再细致区分，也就是分而治之...

从一亿个网页中剔除重复的网页，有没有比较高效的算法啊？

|

本人认为 1用相似点进行排序分成若干相似块，2再在小的相似快中进行比较。就是先大致分类，再细致区分，也就是分而治之。
具体做法：先按照网页字节大小分类，再在相同字节网页中找相同的。

|

突发奇想：

把1亿个网页全部MD5编码，得到32位字符串，然后用高效的排序算法排序下，再经过一次线性遍历就能得到重复的网页了。

百度上搜了下，居然还真有个近似镜像网页检测算法。

|

慢慢写,慢慢对比不同算法结果,再慢慢优化.

|

先排序后再筛选的话应该比较好点吧

|

弱弱问下，您用都的MD5算法很快嘛？

您可能感兴趣的文章:

本站(WWW.)旨在分享和传播互联网科技相关的资讯和技术，将尽最大努力为读者提供更好的信息聚合和浏览方式。
本站(WWW.)站内文章除注明原创外，均为转载、整理或搜集自网络。欢迎任何形式的转载，转载请注明出处。

相关文章推荐

<<大话数据结构>>中冒泡排序算法改进

那位高人有任务分配问题的禁忌搜索算法、模拟退火算法的算法实现程序啊

二叉树常用算法(求总节点个数和叶子节点个数)

求对称加密DES算法与非对称加密RSA算法！（可用）

boost unordered_map和std::list相结合的实现LRU算法

深入串的模式匹配算法(普通算法和KMP算法)的详解

中文网页快速去重算法研究

java 合并排序算法、冒泡排序算法、选择排序算法、插入排序算法、快速排序算法的描述

使用java jdk中的LinkedHashMap实现简单的LRU算法

谁能给出一个最快最高效的求素数的算法？（高分求算法）

广告系统中weak-and算法原理及编码验证

谁有这样的算法：给定两个区域，用直线或折线来连接，以及移动其中线段的算法。

c++实现MD5算法代码示例

算法之排序算法的算法思想和使用场景总结

c语言实现MD5算法完整代码示例

【算法】扑克发牌算法实现

MD5算法的C语言实现

php加密算法之实现可逆加密算法和解密分享

C++实现查找中位数的O(N)算法和Kmin算法

PHP中对各种加密算法、Hash算法的速度测试对比代码

关于加密算法的效率问题

站内导航:

操作系统| 编程语言| Web服务器/前端| 数据库| NOSQL| 网络技术 | c/c++| java/j2ee| .net/c#/asp.net| php | WEB前端| jquery| 移动开发| 编程技术其它| linux | oracle | sqlserver
mysql| unix/linux知识| java开源软件| c/c++开源软件| php开源软件| java开发知识| WEB前端 iis7站长之家| HTML教程 | HTML标签参考手册| CSS属性参考手册| docker中文入门学习手册

特别声明:169IT网站部分信息来自互联网,如果侵犯您的权利,请及时告知,本站将立即删除！

©2012-2021,,E-mail:www_#163.com(请将#改为@)

浙ICP备11055608号-3