Scrapy之爬取结果导出为Excel的实现过程

 更新时间:2022年12月20日 08:39  点击:440 作者:bladestone

引言

基于Scrapy来爬取数据只是手段,这些爬取的结果需要按照一定的方式导出或者存储到数据库中,

excel是在日常工作中使用最为广泛的工具之一,本文介绍如何来讲爬取结果存储excel文件。

环境介绍

Python 3.6.1 Scrapy 1.5.0

定义Domain对象

定义爬取数据对象的实体类:

import scrapy
class EnrolldataItem(scrapy.Item):
    schoolName = scrapy.Field()
    currentBatch = scrapy.Field()
    totalNumberInPlan = scrapy.Field()
    majorName = scrapy.Field()
    categoryName = scrapy.Field()
    numberInPlan = scrapy.Field()
    note = scrapy.Field()    

这里的Field表示其在Scrapy爬取的实体字段,无关乎类型。

定义Pipelines

from scrapy.exporters import CsvItemExporter

class EnrolldataPipeline(object):
    def open_spider(self, spider):
        self.file = open("/home/bladestone/enrolldata.csv", "wb")
        self.exporter = CsvItemExporter(self.file,       
        fields_to_export=["schoolName", "currentBatch", "totalNumberInPlan"])
        self.exporter.start_exporting()

    def process_item(self, item, spider):
        self.exporter.export_item(item)
        return item

    def close_spider(self, spider):
        self.exporter.finish_exporting()
        self.file.close()

这里使用了scrapy自带的CsvItemExporter存储爬取的结果。

open_spider()和close_spider()两个方法都来在spider启动和结束的时候,执行一些初始化和清理工作,对于pipeline操作而言:

  • open_spider(): 执行文件创建,然后初始化exporter,并启动start_exporting(),开始接收Item
  • close_spider(): 结束exporter的exporting,关闭文件流。
  • export_item():用来将item保存到输出结果中。

process_item()为pipeline中定义的方法,在pipeline在settings.py中注册之后,将会被调用。

注册pipeline

在settings.py文件中注册pipeline:

ITEM_PIPELINES = {
‘enrolldata.pipelines.EnrolldataPipeline': 300,
}

spider中返回item

在spider中一般通过yield的方式实现异步返回结果,此为spider中定义的响应处理方法。

具体的示例如下:

def parse_data():
    item = EnrolldataItem()
    item['majorName'] = major_name
    item['categoryName'] = major_category
    item['numberInPlan'] = major_number
    item['note'] = major_note
    item['schoolName'] = school_name
    item['currentBatch'] = current_batch
    item['totalNumberInPlan'] = total_number

    yield item

执行crawler

scrapy crawl enrolldata

enrolldata为项目的名称。

总结

在Scrapy中提供了多种结果输出方式,目前支持的有: xml, json, csv, pickle等多种方式,对于数据的支持也是非常方便的,这方面的内容将在后续的内容中进行详细介绍。

以上为个人经验,希望能给大家一个参考,也希望大家多多支持猪先飞。

原文出处:https://blade.blog.csdn.net/article/details/80216609

[!--infotagslink--]

相关文章

  • SpringBoot实现excel文件生成和下载

    这篇文章主要为大家详细介绍了SpringBoot实现excel文件生成和下载,文中示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下...2021-02-09
  • js导出table数据到excel即导出为EXCEL文档的方法

    复制代码 代码如下: <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <meta ht...2013-10-13
  • c#读取excel方法实例分析

    这篇文章主要介绍了c#读取excel方法,实例分析了C#读取excel文件的原理与相关技巧,需要的朋友可以参考下...2020-06-25
  • Python导入数值型Excel数据并生成矩阵操作

    这篇文章主要介绍了Python导入数值型Excel数据并生成矩阵操作,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧...2020-06-09
  • C# winform打开Excel文档的方法总结(必看篇)

    下面小编就为大家带来一篇C# winform打开Excel文档的方法总结(必看篇)。小编觉得挺不错的,现在就分享给大家,也给大家做个参考。一起跟随小编过来看看吧...2020-06-25
  • C# 导出Excel的6种简单方法实现

    C# 导出 Excel 的6种简单方法:数据表导出到 Excel,对象集合导出到 Excel,数据库导出到 Excel,微软网格控件导出到 Excel,数组导出到 Excel,CSV 导出到 Excel,你都会了吗?需要的朋友们下面随着小编来一起学习学习吧...2020-06-25
  • C#实现Excel表数据导入Sql Server数据库中的方法

    这篇文章主要介绍了C#实现Excel表数据导入Sql Server数据库中的方法,结合实例形式详细分析了C#读取Excel表数据及导入Sql Server数据库的具体操作步骤与相关操作技巧,需要的朋友可以参考下...2020-06-25
  • C#实现将数据导出到word或者Excel中的方法

    这篇文章主要介绍了C#实现将数据导出到word或者Excel中的方法,涉及C#操作word及Excel格式文件的方法,具有一定参考借鉴价值,需要的朋友可以参考下...2020-06-25
  • C#使用Ado.Net更新和添加数据到Excel表格的方法

    这篇文章主要介绍了C#使用Ado.Net更新和添加数据到Excel表格的方法,较为详细的分析了OLEDB的原理与使用技巧,可实现较为方便的操作Excel数据,需要的朋友可以参考下...2020-06-25
  • R语言导入导出数据的几种方法汇总

    这篇文章主要给大家总结介绍了R语言导入导出数据的几种方法,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧...2021-05-06
  • C#使用Aspose.Cells创建和读取Excel文件

    这篇文章主要为大家详细介绍了C#使用Aspose.Cells创建和读取Excel文件,具有一定的参考价值,感兴趣的小伙伴们可以参考一下...2020-06-25
  • C#使用oledb导出数据到excel的方法

    这篇文章主要介绍了C#使用oledb导出数据到excel的方法,结合实例形式分析了C#操作oledb导出数据的相关技巧与注意事项,需要的朋友可以参考下...2020-06-25
  • C#操作excel打印的示例

    这篇文章主要介绍了C#操作excel打印的示例,帮助大家利用c#打印表格,提高办公效率,感兴趣的朋友可以了解下...2020-12-08
  • C#删除Excel中的图片实例代码

    在本篇文章里小编给大家分享了关于C#删除Excel中的图片的实例代码内容,有兴趣的朋友们参考学习下。...2020-06-25
  • C#使用Aspose.Cells控件读取Excel

    本文介绍Aspose.Cells基础的用法,供大家参考。...2020-06-25
  • C#中将ListView中数据导出到Excel的实例方法

    首先 你需要添加引用Microsoft Excel 11.0 Object Library...2020-06-25
  • python操作mysql、excel、pdf的示例

    这篇文章主要介绍了python操作mysql、excel、pdf的示例,帮助大家更好的理解和学习使用python,感兴趣的朋友可以了解下...2021-03-29
  • python3 循环读取excel文件并写入json操作

    这篇文章主要介绍了python3 循环读取excel文件并写入json操作,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧...2020-07-14
  • C# WinForm导出Excel方法介绍

    在.NET应用中,导出Excel是很常见的需求,导出Excel报表大致有以下三种方式:Office PIA,文件流和NPOI开源库,本文只介绍前两种方式...2020-06-25
  • C#将Excel转成PDF的方法

    今天小编就为大家分享一篇关于C#将Excel转成PDF的方法,小编觉得内容挺不错的,现在分享给大家,具有很好的参考价值,需要的朋友一起跟随小编来看看吧...2020-06-25