Scrapy终端(Scrapy shell)

    该终端是用来测试XPath或CSS表达式,查看他们的工作方式及从爬取的网页中提取的数据。在编写您的spider时,该终端提供了交互性测试您的表达式代码的功能,免去了每次修改后运行spider的麻烦。

    一旦熟悉了Scrapy终端后,您会发现其在开发和调试spider时发挥的巨大作用。

    如果您安装了 IPython ,Scrapy终端将使用 (替代标准Python终端)。IPython 终端与其他相比更为强大,提供智能的自动补全,高亮输出,及其他特性。

    我们强烈推荐您安装 ,特别是如果您使用Unix系统(IPython 在Unix下工作的很好)。详情请参考 。

    您可以使用 来启动Scrapy终端:

    <url> 是您要爬取的网页的地址。

    可用的Scrapy对象

    Scrapy终端根据下载的页面会自动创建一些方便使用的对象,例如Response 对象及 对象(对HTML及XML内容)。

    这些对象有:

    - - 当前 Crawler 对象.- spider - 处理URL的spider。对当前URL没有处理的Spider时则为一个 Spider 对象。- request - 最近获取到的页面的 对象。您可以使用 replace() 修改该request。或者使用 快捷方式来获取新的request。- response - 包含最近获取到的页面的 对象。- sel - 根据最近获取到的response构建的 Selector 对象。- settings - 当前的

    下面给出一个典型的终端会话的例子。在该例子中,我们首先爬取了 http://scarpy.org 的页面,而后接着爬取 的页面。最后,我们修改了(Slashdot)的请求,将请求设置为POST并重新获取,得到HTTP 405(不允许的方法)错误。之后通过Ctrl-D(Unix)或Ctrl-Z(Windows)关闭会话。

    需要注意的是,由于爬取的页面不是静态页,内容会随着时间而修改,因此例子中提取到的数据可能与您尝试的结果不同。该例子的唯一目的是让您熟悉Scrapy终端。

    首先,我们启动终端:

    1. scrapy shell 'http://scrapy.org' --nolog

    接着该终端(使用Scrapy下载器(downloader))获取URL内容并打印可用的对象及快捷命令(注意到以 [s] 开头的行):

    1. [s] Available Scrapy objects:
    2. [s] crawler <scrapy.crawler.Crawler object at 0x1e16b50>
    3. [s] item {}
    4. [s] request <GET http://scrapy.org>
    5. [s] response <200 http://scrapy.org>
    6. [s] sel <Selector xpath=None data=u'<html>\n <head>\n <meta charset="utf-8'>
    7. [s] settings <scrapy.settings.Settings object at 0x2bfd650>
    8. [s] spider <Spider 'default' at 0x20c6f50>
    9. [s] Useful shortcuts:
    10. [s] fetch(req_or_url) Fetch request (or URL) and update local objects
    11. [s] view(response) View response in a browser
    12.  
    13. >>>

    有时您想在spider的某个位置中查看被处理的response,以确认您期望的response到达特定位置。

    这可以通过 函数来实现。

    以下是如何在spider中调用该函数的例子:

    1. import scrapy
    2.  
    3. class MySpider(scrapy.Spider):
    4. name = "myspider"
    5. start_urls = [
    6. "http://example.com",
    7. "http://example.org",
    8. "http://example.net",
    9. ]
    10.  
    11. def parse(self, response):
    12. # We want to inspect one specific response.
    13. from scrapy.shell import inspect_response
    14. inspect_response(response, self)
    15.  
    16. # Rest of parsing code.

    当运行spider时,您将得到类似下列的输出:

    1. 2014-01-23 17:48:31-0400 [scrapy] DEBUG: Crawled (200) <GET http://example.com> (referer: None)
    2. 2014-01-23 17:48:31-0400 [scrapy] DEBUG: Crawled (200) <GET http://example.org> (referer: None)
    3. [s] Available Scrapy objects:
    4. [s] crawler <scrapy.crawler.Crawler object at 0x1e16b50>
    5. ...
    6.  
    7. >>> response.url
    8. 'http://example.org'

    接着测试提取代码:

    呃,看来是没有。您可以在浏览器里查看response的结果,判断是否是您期望的结果:

    1. >>> view(response)
    2. True
    1. >>> ^D
    2. 2014-01-23 17:50:03-0400 [scrapy] DEBUG: Crawled (200) <GET http://example.net> (referer: None)

    注意: 由于该终端屏蔽了Scrapy引擎,您在这个终端中不能使用 fetch 快捷命令(shortcut)。当您离开终端时,spider会从其停下的地方恢复爬取,正如上面显示的那样。