python 域名分析工具实现代码__return_domain_domains_result_source_

当前位置: 编程技术>python

python 域名分析工具实现代码

来源: 互联网发布时间：2014-09-04

本文导语: 代码如下：代码如下:import sys, urllib import datetime,time def getDate(): strday=datetime.datetime.now().__str__() strday=strday.split()[0] return strday #url = "http://www.kingnic.com/list/2009-06-16.txt" def getUrl(dateStr=None): baseUrl ="http://www.kingnic.com/list/" if dateStr: re...

代码如下：

代码如下:

import sys, urllib 
import datetime,time 
def getDate(): 
strday=datetime.datetime.now().__str__() 
strday=strday.split()[0] 
return strday 
#url = "http://www.kingnic.com/list/2009-06-16.txt" 
def getUrl(dateStr=None): 
baseUrl ="http://www.kingnic.com/list/" 
if dateStr: 
return baseUrl+dateStr+".txt" 
thisDate = getDate(); 
if not thisDate: 
print "Error Date!" 
return None; 
url = baseUrl+thisDate+".txt" 
return url 
def getSource(url): 
source = urllib.urlopen(url).read() 
return source 

def save(source,filename="domains.txt"): 
fp = open(filename,"w") 
fp.write(source) 
fp.close() 
return True; 
def loadList(fileName="domains.txt"): 
fp = open("domains.txt","r") 
source = fp.readlines() 
fp.close() 
return source; 
def getPrefix(domain): 
return domain.split('.')[0] 
def getPostfix(domain): 
return domain.split('.')[1] 
def hasMidLine(domain): 
if '-' in domain: 
return True 
else: 
return False 
def parser(domains): 
max =4 
min =0 
keyword =('sky','see','job') 
result=[] 

len_num =0; 
mid_line_num =0; 

for domain in domains: 
prefix = getPrefix(domain) 
postfix = getPostfix(domain) 
domainlen = len(prefix) 
if (domainlen < min) or (domainlen > max): 
len_num +=1 
continue 
if hasMidLine(prefix): 
mid_line_num +=1 
continue 
result.append(domain) 

print " log : n" 
print "all: t",len(domains) 
print "len not in [%s,%s] t: %s"%(max,min,len_num) 
print "contain '-' :t",mid_line_num 
print "remain:t",len(result) 
return result; 

if __name__ == "__main__": 
url = getUrl() 
source = getSource(url) 
save(source) 
domains =loadList() 
result = parser(domains) 
save("".join(result),"result.txt") 
print("nnnfinished!!")

输出文件：
domains.txt ： kingnic.com 据当天释放的域名；
result.txt ：符合过滤条件的域名；
log输出：

代码如下:

 
all: 55500 
len not in [4,0] : 55019 
contain '-' : 32 
remain: 449 
finished!! 

对后缀、长度和有无“-”过滤，过滤条件有点少，其它以后如有需要再加。

您可能感兴趣的文章:

Python GUI编程:tkinter实现一个窗口并居中代码

python学习手册中的python多态示例代码

Python获取网页编码的方法及示例代码

用python代码做configure文件

Python 3 Tkinter教程之事件Event绑定处理代码实例

生成Python代码的UML插件 PyUML

python中的深拷贝(deepcopy)和浅拷贝(copy)介绍及代码参考

python 布尔操作实现代码

python下xml解析库lxml最新版下载安装以及代码示例

python代码制作configure文件示例

Python类的构造函数,析构函数以及垃圾回收机制详细介绍及代码举例

python判断端口是否打开的实现代码

python字符串格式化输出及相关操作代码举例

python冒泡排序算法的实现代码

数据结构:图(有向图，无向图),在Python中的表示和实现代码示例

python类型强制转换long to int的代码

python 简易计算器程序，代码就几行

python 快速排序代码

编程技术其它 iis7站长之家

python中使用urllib2获取http请求状态码的代码例子

一则python3的简单爬虫代码

基于python实现的网络爬虫功能:自动抓取网页介绍

python实现绘制树枝简单示例

Python3通过request.urlopen实现Web网页图片下载

Python3实现生成随机密码的方法

在Python3中使用urllib实现http的get和post提交数据操作

python调用短信猫控件实现发短信功能实例

juqery的python实现:pyquery学习使用教程

Python实现多行注释的另类方法

python实现的重启关机程序实例

Python中无限元素列表的实现方法

本站(WWW.)旨在分享和传播互联网科技相关的资讯和技术，将尽最大努力为读者提供更好的信息聚合和浏览方式。
本站(WWW.)站内文章除注明原创外，均为转载、整理或搜集自网络。欢迎任何形式的转载，转载请注明出处。