Python爬虫框架Scrapy安装使用步骤__Scrapy_install_easy_install_distribute_pip_

当前位置: 编程技术>python

Python爬虫框架Scrapy安装使用步骤

来源: 互联网发布时间：2014-10-04

本文导语: 一、爬虫框架Scarpy简介Scrapy 是一个快速的高层次的屏幕抓取和网页爬虫框架，爬取网站，从网站页面得到结构化的数据，它有着广泛的用途，从数据挖掘到监测和自动测试，Scrapy完全用Python实现，完全开源，代码托管在Github上...

一、爬虫框架Scarpy简介
Scrapy 是一个快速的高层次的屏幕抓取和网页爬虫框架，爬取网站，从网站页面得到结构化的数据，它有着广泛的用途，从数据挖掘到监测和自动测试，Scrapy完全用Python实现，完全开源，代码托管在Github上，可运行在Linux，Windows，Mac和BSD平台上，基于Twisted的异步网络库来处理网络通讯，用户只需要定制开发几个模块就可以轻松的实现一个爬虫，用来抓取网页内容以及各种图片。

二、Scrapy安装指南

我们的安装步骤假设你已经安装一下内容：Python2.7lxmlOpenSSL，我们使用Python的包管理工具pip或者easy_install来安装Scrapy。
pip的安装方式：

代码如下:

pip install Scrapy

easy_install的安装方式：

代码如下:

easy_install Scrapy

三、Ubuntu平台上环境配置

1、python的包管理工具
当前的包管理工具链是 easy_install/pip + distribute/setuptools
distutils : Python 自带的基本安装工具, 适用于非常简单的应用场景;
setuptools : 针对 distutils 做了大量扩展, 尤其是加入了包依赖机制. 在部分 Python 子社区已然是事实上的标准;
distribute : 由于 setuptools 开发进度缓慢, 不支持 Python 3, 代码混乱, 一帮程序员另起炉灶, 重构代码, 增加功能, 希望能够取代 setuptools 并被接纳为官方标准库, 他们非常努力, 在很短的时间便让社区接受了 distribute;，setuptools / distribute 都只是扩展了 distutils;
easy_install : setuptools 和 distribute 自带的安装脚本, 也就是一旦 setuptools 或 distribute 安装完毕, easy_install 也便可用. 最大的特点是自动查找 Python 官方维护的包源 PyPI , 安装第三方 Python 包非常方便; 使用:
pip : pip 的目标非常明确 – 取代 easy_install. easy_install 有很多不足: 安装事务是非原子操作, 只支持 svn, 没有提供卸载命令, 安装一系列包时需要写脚本; pip 解决了以上问题, 已俨然成为新的事实标准, virtualenv 与它已经成为一对好搭档;

安装过程：
安装distribute

代码如下:

$ curl -O http://python-distribute.org/distribute_setup.py  
$ python distribute_setup.py

安装pip：

代码如下:

$ curl -O https://raw.github.com/pypa/pip/master/contrib/get-pip.py  
$ [sudo] python get-pip.py

2、Scrapy的安装
在Windows平台上，可以通过包管理工具或者手动下载各种依赖的二进制包：pywin32，Twisted，zope.interface，lxml，pyOpenSSL，在Ubuntu9.10以后的版本上，官方推荐不用使用Ubuntu提供的python-scrapy包，它们要么太老要么太慢，无法匹配最新的Scrapy，解决方案是，使用官方的Ubuntu Packages，它提供了所有的依赖库，并且对于最新的bug提供持续的更新，稳定性更高，它们持续的从Github仓库（master和stable branches）构建，Scrapy在Ubuntu9.10之后的版本上的安装方法如下：
输入GPG密钥

代码如下:

sudo apt-key adv --keyserver hkp://keyserver.ubuntu.com:80 --recv 627220E7

创建/etc/apt/sources.list.d/scrapy.list 文件

代码如下:

echo 'deb http://archive.scrapy.org/ubuntu scrapy main' | sudo tee /etc/apt/sources.list.d/scrapy.list

更新包列表，安装scrapy版本，其中VERSION用实际的版本代替，如scrapy-0.22

代码如下:

sudo apt-get update && sudo apt-get install scrapy-VERSION

3、Scrapy依赖库的安装
ubuntu12.04下scrapy依赖库的安装
ImportError: No module named w3lib.http

代码如下:

pip install w3lib

ImportError: No module named twisted

代码如下:

pip install twisted

ImportError: No module named lxml.html

代码如下:

pip install lxml

解决：error: libxml/xmlversion.h: No such file or directory

代码如下:

apt-get install libxml2-dev libxslt-dev  
apt-get install python-lxml

解决：ImportError: No module named cssselect

代码如下:

pip install cssselect

ImportError: No module named OpenSSL

代码如下:

pip install pyOpenSSL

4、定制自己的爬虫开发
切换到文件目录，开启新的工程

代码如下:

scrapy startproject test

您可能感兴趣的文章:

基于python实现的网络爬虫功能:自动抓取网页介绍

一则python3的简单爬虫代码

python网络爬虫采集联想词示例

python爬虫教程之爬取百度贴吧并下载的示例

Python天气预报采集器实现代码(网页爬虫)

python爬虫常用的模块分析

python抓取网页图片示例(python爬虫)

python使用rabbitmq实现网络爬虫示例

python实现的一只从百度开始不断搜索的小爬虫

python实现博客文章爬虫示例

python实现爬虫下载漫画示例

python编写网页爬虫脚本并实现APScheduler调度

python模拟新浪微博登陆功能(新浪微博爬虫)

Python开发实例分享bt种子爬虫程序和种子解析

Python线程框架 greenlet

在python的WEB框架Flask中使用多个配置文件的解决方法

分享15个最受欢迎的Python开源框架

python网络编程之TCP通信实例和socketserver框架使用例子

Python Web框架Pylons中使用MongoDB的例子

python常用web框架简单性能测试结果分享(包含django、flask、bottle、tornado)

Python ORM框架SQLAlchemy学习笔记之安装和简单查询实例

Python ORM框架SQLAlchemy学习笔记之映射类使用实例和Session会话介绍

Python的ORM框架SQLObject入门实例

Python ORM框架SQLAlchemy学习笔记之关系映射实例

全面解读Python Web开发框架Django

Python的ORM框架SQLAlchemy入门教程

Python ORM框架SQLAlchemy学习笔记之数据查询实例

Python ORM框架SQLAlchemy学习笔记之数据添加和事务回滚介绍

python网络编程学习笔记(10)：webpy框架

本站(WWW.)旨在分享和传播互联网科技相关的资讯和技术，将尽最大努力为读者提供更好的信息聚合和浏览方式。
本站(WWW.)站内文章除注明原创外，均为转载、整理或搜集自网络。欢迎任何形式的转载，转载请注明出处。