开发PHPSpider爬虫的常用工具

    我们主要使用的是Chrome的开发者工具,如下图所示:

    或者可以直接在网页上点击鼠标右键,选择“检查”,也可打开开发者工具。

    XPath Helper是Chrome浏览器的插件,可以在Chrome应用商店安装下载,主要用来分析当前网页信息的XPath,并将其精简化。具体操作步骤如下:

    1、在Chrome浏览器上,选择抽取的html字段并右击,点击“检查”,即可弹出开发者工具;右击已选字段,点击Copy XPath即可将该字段的XPath保存到浏览器剪贴板上,如下图所示:

    开发PHPSpider爬虫的常用工具  - 图2

    3、在XPath中,如果使用class属性来定位元素,最好使用contains函数,因为元素可能含有多个class:

    4、在XPath中,如果使用id属性来定位元素,因为理论上id是唯一的,可以直接使用*[@id='']:

    推荐使用站长工具中的正则表达式测试工具,链接如下: http://tool.chinaz.com/regex/