Scrapy 1.0 文档

    遇到问题了?我们来帮您!

    第一步

    初窥Scrapy
    了解Scrapy如何助你一臂之力。
    安装Scrapy。
    Scrapy入门教程
    编写您的第一个Scrapy项目。
    通过把玩已存在的Scrapy项目来学习更多内容。
    命令行工具(Command line tools)
    学习用于管理Scrapy项目的命令行工具
    编写爬取网站的规则
    选择器(Selectors)
    使用XPath提取网页的数据
    在交互环境中测试提取数据的代码
    Items
    定义爬取的数据
    使用爬取到的数据填充item
    Item Pipeline
    后处理(Post-process),存储爬取的数据
    以不同格式输出爬取数据到不同的存储端
    Requests and Responses
    了解代表HTTP请求(request)和返回(response)的class.
    方便用于提取后续跟进链接的类。
    Settings
    了解如何配置Scrapy以及所有的
    异常(Exceptions)
    查看所有已有的异常及相应的意义.

    内置服务

    Logging
    了解Scrapy提供的logging功能。
    收集爬虫运行数据
    发送email
    当特定事件发生时发送邮件通知
    使用内置的Python终端检查运行中的crawler(爬虫)
    Web Service
    使用web service对您的爬虫进行监控和管理
    常见问题的解决办法。
    调试(Debugging)Spiders
    学习如何对scrapy spider的常见问题进行debug。
    学习如何使用contract来测试您的spider。
    实践经验(Common Practices)
    熟悉Scrapy的一些惯例做法。
    调整Scrapy来适应并发爬取大量网站(a lot of domains)。
    借助Firefox来爬取
    了解如何使用Firefox及其他有用的插件来爬取数据。
    了解如何使用Firebug来爬取数据。
    调试内存溢出
    了解如何查找并让您的爬虫避免内存泄露。
    下载爬取的item中的文件及图片。
    Ubuntu 软件包
    在Ubuntu下下载最新的Scrapy。
    在远程服务器上部署、运行Scrapy spiders。
    自动限速(AutoThrottle)扩展
    根据负载(load)动态调节爬取速度。
    在您的硬件平台上测试Scrapy的性能。
    Jobs: 暂停,恢复爬虫
    学习如何停止和恢复爬虫

    扩展Scrapy

    架构概览
    了解Scrapy架构。
    自定义页面被请求及下载操作。
    Spider中间件(Middleware)
    自定义spider的输入与输出。
    提供您自定义的功能来扩展Scrapy
    核心API
    在extension(扩展)和middleware(中间件)使用api来扩展Scrapy的功能
    查看如何使用及所有可用的信号
    Item Exporters
    快速将您爬取到的item导出到文件中(XML, CSV等格式)
    了解最近的Scrapy版本的修改。
    Contributing to Scrapy
    了解如何为Scrapy项目做出贡献。
    了解Scrapy如何命名版本以及API的稳定性。