itjuzi

【爬虫学习笔记day66】7.8. scrapy-redis实战-- IT桔子分布式项目2

允我心安 提交于 2020-01-31 04:27:23
文章目录 7.8. scrapy-redis实战-- IT桔子分布式项目2 项目实现: items.py settings.py middlewares.py spiders/juzi.py scrapy.cfg 运行: 演示效果: 7.8. scrapy-redis实战-- IT桔子分布式项目2 项目实现: items.py # items.py # -*- coding: utf-8 -*- import scrapy class CompanyItem ( scrapy . Item ) : # 公司id (url数字部分) info_id = scrapy . Field ( ) # 公司名称 company_name = scrapy . Field ( ) # 公司口号 slogan = scrapy . Field ( ) # 分类 scope = scrapy . Field ( ) # 子分类 sub_scope = scrapy . Field ( ) # 所在城市 city = scrapy . Field ( ) # 所在区域 area = scrapy . Field ( ) # 公司主页 home_page = scrapy . Field ( ) # 公司标签 tags = scrapy . Field ( ) # 公司简介 company_intro

死亡公司公墓

删除回忆录丶 提交于 2020-01-23 01:44:38
本次爬取的是新经济死亡公司数据库,从死亡原因,获投状态,存活天数等多个指标呈现死亡公司全貌。 使用Scrapy爬虫框架抓取数据。 ##抓取 ###1.分析请求 url = “https://www.itjuzi.com/deathCompany” 通过刷新页面可以在网络请求里发现Ajax请求,返回数据格式为Json。 向该响应的Request URL发送请求即可。 ###2.明确抓取字段 抓取字段如下: # 公司id com_id = scrapy.Field() # 公司名称 com_name = scrapy.Field() # 关闭时间 com_change_close_date = scrapy.Field() # 公司简介 com_des = scrapy.Field() # 行业 cat_name = scrapy.Field() # 地点 com_prov = scrapy.Field() # 获投状态 com_fund_status_name = scrapy.Field() # 成立时间 born = scrapy.Field() # 存活天数 live_time = scrapy.Field() # 团队 com_team = scrapy.Field() # 行业标签 com_tag = scrapy.Field() # 死亡原因 closure_type =