当前位置:  编程技术>python

python使用urllib模块和pyquery实现阿里巴巴排名查询

    来源: 互联网  发布时间:2014-09-04

    本文导语:  urllib基础模块的应用,通过该类获取到url中的html文档信息,内部可以重写代理的获取方法 代码如下:class ProxyScrapy(object):    def __init__(self):        self.proxy_robot = ProxyRobot()        self.current_proxy = None        self.cookie ...

urllib基础模块的应用,通过该类获取到url中的html文档信息,内部可以重写代理的获取方法

代码如下:

class ProxyScrapy(object):
    def __init__(self):
        self.proxy_robot = ProxyRobot()
        self.current_proxy = None
        self.cookie = cookielib.CookieJar()

    def __builder_proxy_cookie_opener(self):       
        cookie_handler = urllib2.HTTPCookieProcessor(self.cookie)       
        handlers = [cookie_handler]

        if PROXY_ENABLE:
            self.current_proxy = ip_port = self.proxy_robot.get_random_proxy()
            proxy_handler = urllib2.ProxyHandler({'http': ip_port[7:]})
            handlers.append(proxy_handler)

        opener = urllib2.build_opener(*handlers)
        urllib2.install_opener(opener)
        return opener

    def get_html_body(self,url):
        opener = self.__builder_proxy_cookie_opener()

        request=urllib2.Request(url)
        #request.add_header("Accept-Encoding", "gzip,deflate,sdch")
        #request.add_header("Accept", "text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8")
        #request.add_header("Cache-Control", "no-cache")
        #request.add_header("Connection", "keep-alive")

        try:
            response = opener.open(request,timeout=2)

            http_code = response.getcode()
            if http_code == 200:
                if PROXY_ENABLE:
                    self.proxy_robot.handle_success_proxy(self.current_proxy)
                html = response.read()
                return html
            else:
                if PROXY_ENABLE:
                    self.proxy_robot.handle_double_proxy(self.current_proxy)
                return self.get_html_body(url)
        except Exception as inst:
            print inst,self.current_proxy
            self.proxy_robot.handle_double_proxy(self.current_proxy)
            return self.get_html_body(url)


    
 
 
 
本站(WWW.)旨在分享和传播互联网科技相关的资讯和技术,将尽最大努力为读者提供更好的信息聚合和浏览方式。
本站(WWW.)站内文章除注明原创外,均为转载、整理或搜集自网络。欢迎任何形式的转载,转载请注明出处。












  • 相关文章推荐
  • Python异常模块traceback用法举例
  • Python的多媒体模块 PyMedia
  • Python的MySQLdb模块安装
  • Python的视频设备访问模块 VideoCapture
  • python的urllib模块显示下载进度示例
  • 在Python安装MySQL支持模块的方法
  • linux下用eclipse进行开发,尤其打开较大的python代码模块,老是会卡,请问大家有没有好点的解决办法,如能提供具体设置,不胜感激
  • python使用os模块的os.walk遍历文件夹示例
  • 在python中的socket模块使用代理实例
  • WebSphereMQ的Python模块 PyMQI
  • python发布模块的步骤分享
  • python进阶教程之模块(module)介绍
  • python sys模块sys.path使用方法示例
  • python中的hashlib和base64加密模块使用实例
  • python pickle 和 shelve模块的用法
  • Python下的Mysql模块MySQLdb安装详解
  • python 多进程通信模块的简单实现
  • 从零学python系列之新版本导入httplib模块报ImportError解决方案
  • python爬虫常用的模块分析
  • python正则表达式re模块详解
  • python使用urllib模块开发的多线程豆瓣小站mp3下载器
  • Python GUI编程:tkinter实现一个窗口并居中代码
  • 让python同时兼容python2和python3的8个技巧分享
  • Python不使用print而直接输出二进制字符串
  • 使用setup.py安装python包和卸载python包的方法
  • Python中实现json字符串和dict类型的互转
  • 不小心把linux自带的python卸载了,导致安装一个依赖原python的软件不能安装,请问该怎么办?
  • python异常信息堆栈输出到日志文件
  • Python开发者社区整站源码 Pythoner
  • python下用os.execl执行centos下的系统时间同步命令ntpdate
  • python读取csv文件示例(python操作csv)


  • 站内导航:


    特别声明:169IT网站部分信息来自互联网,如果侵犯您的权利,请及时告知,本站将立即删除!

    ©2012-2021,,E-mail:www_#163.com(请将#改为@)

    浙ICP备11055608号-3