爬虫编写流程
首先明确 Python 爬虫代码编写的流程:先直接打开网页,找到你想要的数据,就是走一遍流程。比如这个项目我要爬取历史某一天所有比赛的赔率数据、每场比赛的比赛结果等。
那么我就先打开这个网址:https://live.leisu.com/wanchang?date=20190606 然后点击“竞彩”,再点击“指数”,跳转到另一个网址:https://live.leisu.com/3in1-2674547,然后就看到了想要的数据:各公司主队获胜赔率1.61、1.65等。
到此为止,开始动手通过代码实现这个过程。
解析“爬虫主程序.py” :(主程序包括四个函数)
1 |
|
首先导入我们需要的包:
1 |
|
name = ‘FBP’是定义爬取项目名称,以便通过命令scrapy crawl FBP -o BaseData.csv获取数据。
start_requests
向 https://live.leisu.com/wanchang?date=20190606 发送请求。(你可以打开这个网址,里边是爬虫程序爬取数据的最外层网站) scrapy.http.FormRequest 方法: 第一个参数是请求的具体网址; 第二个参数是下一步调用的函数; 第三个参数 meta 是向调用函数传递的参数。
parseLs (parseWl 同理,不再重复讲解)
主要用于解析次外层网页数据。这里用 XPath 解析,也是比较容易掌握的解析方式。网页结构如下:(通过 Google 浏览器打开https://live.leisu.com/wanchang?date=20190606 然后右键点击网页空白处点击“查看网页源代码”,找到你需要爬取的核心数据部分,这里我要找每场比赛的信息,那么拷贝下来,然后以易于查看的规整方式列出,如下:)
1 |
|
parseLS函数里的下边代码,用sel代表response.xpath,结合上表中 xml 中的元素:获取了比赛场次,存储到item[‘cc’]。
1 |
|
此外,还要获取比赛的赔率信息,但并不在当前这个网页,而在更内层的网页中,需要从当前网页跳转。 存储赔率的内层网页为 https://live.leisu.com/3in1-2674547,不同场次的比赛只有-后边的数字是变化的,那么程序中只要循环构造对应的数字2674547就好了。发现这个数字刚好是 data-id。通过以下代码实现获取:
1 |
|
在Request中加入meta,即可将meta传递给response。再提交该网页请求到下一个函数parse。这里需要注意:parse中既返回item又生成新的request。
平时在parse中return item即可返回item,return request则生成新的request请求。如果我们将return换为yield的话即可既返回item又生成新的request。注意一旦使用了yield,那么parse方法中就不能有return了。
parse
网页结构如下:(通过Google浏览器打开https://live.leisu.com/3in1-2674547 然后右键点击网页空白处点击“查看网页源代码”,拷贝需要赔率的部分到文本文档,换行操作后如下:
1 |
|
通过以下代码获取赔率,首先由上一个函数parseLs通过scrapy.http.FormRequest(plurl,callback=self.parse,meta={‘item’:item})调用到下边的parse方法,传入plurl链接对应的网页内容response, 同样用response.xpath取出td中class为”bd-left”下边div中class为”begin float-left w-bar-100 bd-bottom p-b-8 color-999 m-b-8”再下边span中class为”float-left col-3”的值。
1 |
|
再通过//*判断所有data-id为5下边的pl_str是否为空,若不为空则将其赋值给item[‘li’],其他的item赋值同理。
这里重点讲一下parse方法工作机制:因为使用的yield,而不是return。parse函数将会被当做一个生成器使用。
scrapy会逐一获取parse方法中生成的结果,如果是request则加入爬取队列,如果是item类型则使用pipeline处理,其他类型则返回错误信息。
scrapy取到第一部分的request不会立马就去发送这个request,只是把这个request放到队列里,然后接着从生成器里获取;
取尽第一部分的request,然后再获取第二部分的item,取到item了,就会放到对应的pipeline里处理;
parse()方法作为回调函数(callback)赋值给了Request,指定parse()方法来处理这些请求 scrapy.Request(url, callback=self.parse);
Request对象经过调度,执行生成 scrapy.http.response()的响应对象,并送回给parse()方法,直到调度器中没有Request(递归的思路);
程序在取得各个页面的items前,会先处理完之前所有的request队列里的请求,然后再提取items。
以上过程Scrapy引擎和调度器将负责到底。
本篇的全部源码(可执行):(github.com.cn/acredjb/FBP有完整项目爬虫源码)
总结
以上我们实现了一个爬虫实战项目,通过分析网页结构,借助 Scrapy 框架获取数据,为今后的数据分析做准备。