Scrapy之爬取结果导出为Excel的实现过程
引言
基于Scrapy来爬取数据只是手段,这些爬取的结果需要按照一定的方式导出或者存储到数据库中,
excel是在日常工作中使用最为广泛的工具之一,本文介绍如何来讲爬取结果存储excel文件。
环境介绍
Python 3.6.1 Scrapy 1.5.0
定义Domain对象
定义爬取数据对象的实体类:
import scrapy class EnrolldataItem(scrapy.Item): schoolName = scrapy.Field() currentBatch = scrapy.Field() totalNumberInPlan = scrapy.Field() majorName = scrapy.Field() categoryName = scrapy.Field() numberInPlan = scrapy.Field() note = scrapy.Field()
这里的Field表示其在Scrapy爬取的实体字段,无关乎类型。
定义Pipelines
from scrapy.exporters import CsvItemExporter class EnrolldataPipeline(object): def open_spider(self, spider): self.file = open("/home/bladestone/enrolldata.csv", "wb") self.exporter = CsvItemExporter(self.file, fields_to_export=["schoolName", "currentBatch", "totalNumberInPlan"]) self.exporter.start_exporting() def process_item(self, item, spider): self.exporter.export_item(item) return item def close_spider(self, spider): self.exporter.finish_exporting() self.file.close()
这里使用了scrapy自带的CsvItemExporter存储爬取的结果。
open_spider()和close_spider()两个方法都来在spider启动和结束的时候,执行一些初始化和清理工作,对于pipeline操作而言:
open_spider()
: 执行文件创建,然后初始化exporter,并启动start_exporting(),开始接收Itemclose_spider()
: 结束exporter的exporting,关闭文件流。export_item()
:用来将item保存到输出结果中。
process_item()为pipeline中定义的方法,在pipeline在settings.py中注册之后,将会被调用。
注册pipeline
在settings.py文件中注册pipeline:
ITEM_PIPELINES = { ‘enrolldata.pipelines.EnrolldataPipeline': 300, }
spider中返回item
在spider中一般通过yield的方式实现异步返回结果,此为spider中定义的响应处理方法。
具体的示例如下:
def parse_data(): item = EnrolldataItem() item['majorName'] = major_name item['categoryName'] = major_category item['numberInPlan'] = major_number item['note'] = major_note item['schoolName'] = school_name item['currentBatch'] = current_batch item['totalNumberInPlan'] = total_number yield item
执行crawler
scrapy crawl enrolldata
enrolldata为项目的名称。
总结
在Scrapy中提供了多种结果输出方式,目前支持的有: xml, json, csv, pickle等多种方式,对于数据的支持也是非常方便的,这方面的内容将在后续的内容中进行详细介绍。
以上为个人经验,希望能给大家一个参考,也希望大家多多支持猪先飞。
原文出处:https://blade.blog.csdn.net/article/details/80216609
相关文章
- 这篇文章主要为大家详细介绍了SpringBoot实现excel文件生成和下载,文中示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下...2021-02-09
js导出table数据到excel即导出为EXCEL文档的方法
复制代码 代码如下: <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <meta ht...2013-10-13- 这篇文章主要介绍了c#读取excel方法,实例分析了C#读取excel文件的原理与相关技巧,需要的朋友可以参考下...2020-06-25
- 这篇文章主要介绍了Python导入数值型Excel数据并生成矩阵操作,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧...2020-06-09
- 下面小编就为大家带来一篇C# winform打开Excel文档的方法总结(必看篇)。小编觉得挺不错的,现在就分享给大家,也给大家做个参考。一起跟随小编过来看看吧...2020-06-25
- C# 导出 Excel 的6种简单方法:数据表导出到 Excel,对象集合导出到 Excel,数据库导出到 Excel,微软网格控件导出到 Excel,数组导出到 Excel,CSV 导出到 Excel,你都会了吗?需要的朋友们下面随着小编来一起学习学习吧...2020-06-25
C#实现Excel表数据导入Sql Server数据库中的方法
这篇文章主要介绍了C#实现Excel表数据导入Sql Server数据库中的方法,结合实例形式详细分析了C#读取Excel表数据及导入Sql Server数据库的具体操作步骤与相关操作技巧,需要的朋友可以参考下...2020-06-25- 这篇文章主要介绍了C#实现将数据导出到word或者Excel中的方法,涉及C#操作word及Excel格式文件的方法,具有一定参考借鉴价值,需要的朋友可以参考下...2020-06-25
- 这篇文章主要介绍了C#使用Ado.Net更新和添加数据到Excel表格的方法,较为详细的分析了OLEDB的原理与使用技巧,可实现较为方便的操作Excel数据,需要的朋友可以参考下...2020-06-25
- 这篇文章主要给大家总结介绍了R语言导入导出数据的几种方法,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧...2021-05-06
- 这篇文章主要为大家详细介绍了C#使用Aspose.Cells创建和读取Excel文件,具有一定的参考价值,感兴趣的小伙伴们可以参考一下...2020-06-25
- 这篇文章主要介绍了C#使用oledb导出数据到excel的方法,结合实例形式分析了C#操作oledb导出数据的相关技巧与注意事项,需要的朋友可以参考下...2020-06-25
- 这篇文章主要介绍了C#操作excel打印的示例,帮助大家利用c#打印表格,提高办公效率,感兴趣的朋友可以了解下...2020-12-08
- 在本篇文章里小编给大家分享了关于C#删除Excel中的图片的实例代码内容,有兴趣的朋友们参考学习下。...2020-06-25
- 本文介绍Aspose.Cells基础的用法,供大家参考。...2020-06-25
- 首先 你需要添加引用Microsoft Excel 11.0 Object Library...2020-06-25
- 这篇文章主要介绍了python操作mysql、excel、pdf的示例,帮助大家更好的理解和学习使用python,感兴趣的朋友可以了解下...2021-03-29
- 这篇文章主要介绍了python3 循环读取excel文件并写入json操作,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧...2020-07-14
- 在.NET应用中,导出Excel是很常见的需求,导出Excel报表大致有以下三种方式:Office PIA,文件流和NPOI开源库,本文只介绍前两种方式...2020-06-25
- 今天小编就为大家分享一篇关于C#将Excel转成PDF的方法,小编觉得内容挺不错的,现在分享给大家,具有很好的参考价值,需要的朋友一起跟随小编来看看吧...2020-06-25