Scrapy导出Excel By Exporter
作者:黄成
日期:2018年03月24日10:40
在Scrapy中实现是一个能将数据以Excel格式导出的Exporter。
共有3个步骤:
①自定义导出exporters方法。
②将自定义方法添加至配置文件中。
③运行爬虫声明导出格式为自定义格式。
- 在项目中创建一个
my_exporters.py
(与settings.py同级目录),在其中实现ExcelItemExporter,代码如下:
# -*- coding: utf-8 -*-
from scrapy.exporters import BaseItemExporter
import xlwt
class ExcelItemExporter(BaseItemExporter):
"""
导出为Excel
在执行命令中指定输出格式为excel
e.g. scrapy crawl -t excel -o books.xls
"""
def __init__(self, file, **kwargs):
self._configure(kwargs)
self.file = file
self.wbook = xlwt.Workbook(encoding='utf-8')
self.wsheet = self.wbook.add_sheet('scrapy')
self._headers_not_written = True
self.fields_to_export = list()
self.row = 0
def finish_exporting(self):
self.wbook.save(self.file)
def export_item(self, item):
if self._headers_not_written:
self._headers_not_written = False
self._write_headers_and_set_fields_to_export(item)
fields = self._get_serialized_fields(item)
for col, v in enumerate(x for _, x in fields):
print(self.row, col, str(v))
self.wsheet.write(self.row, col, str(v))
self.row += 1
def _write_headers_and_set_fields_to_export(self, item):
if not self.fields_to_export:
if isinstance(item, dict):
self.fields_to_export = list(item.keys())
else:
self.fields_to_export = list(item.fields.keys())
for column, v in enumerate(self.fields_to_export):
self.wsheet.write(self.row, column, v)
self.row += 1
解释上述代码如下:
- 这里使用第三方库xlwt将数据写入Excel文件中。
- 在构造器方法中创建Workbook对象和Worksheet对象,并初始化用来记录写入行坐标的self.row。
- 在export_item方法中判断是否存在第一行字段声明,若不存在调用_write_headers_and_set_fields_to_export方法根据item的属性名写入第一行。
- 在export_item方法中调用基类的_get_serialized_fields方法,获得item所有字段的迭代器,然后调用self.wsheet.write方法将各字段写入Excel表格。
- finish_exporting方法在所有数据都被写入Excel表格后被调用,在该方法中调用self.wbook.save方法将Excel表格写入Excel文件。
- 完成ExcelItemExporter后,在配置文件
settings.py
中添加如下代码:
FEED_EXPORTERS={'excel':'example.my_exporters.ExcelItemExporter'}
说明:example
是项目名称;my_exporters
是文件名;ExcelItemExporter
是自定义类名。
- 现在可以使用ExcelItemExporter导出数据了,以-t excel为参数重新运行爬虫:
$ scrapy crawl <spider_name> -t excel -o <file_name>.xls
图所示为爬取完成后在Excel文件中观察到的结果。
如上所示,我们成功地使用ExcelItemExporter将爬取到的数据存入了Excel文件中。