商品

通过scrapy爬取一号店商品信息

二次信任 提交于 2019-12-02 17:42:37
本文为作者原创转载请注明出处(silvasong:http://my.oschina.net/sojie/admin/edit-blog?blog=653199) 前面的文章对scrapy的源码进行简单的分析,这里我将通过一个简单的例子介绍怎样使用scrapy。 确定需要爬取一个网站之后,最先需要做的工作就是分析网站层次结构,选择入口URL.一般情况下我们都是选择网站的首页作为起始链接. 分析一号店的过程中,我发现一号店提供了一个商品分类页面( http://www.yhd.com/marketing/allproduct.html )从这个页面中就可以获取到所有商品的分类.然后我们通过每个分类的链接又能够得到每个分类下的商品. 开发环境: ubuntu、python 2.7、scrapy scrapy可以运行在window、mac、linux上面,为了开发方便这里我选择的ubuntu,另外scrapy是基于python开发的所以安装python也是必须的.最后就是安装scrapy。 完成环境的搭建以后接下将一步步介绍具体的实现: 一、第一步先通过scrapy startproject yhd 创建一个爬虫工程. 运行上面的命令后可以生成类似下面的文件结构. tutorial被替换成yhd。 scrapy.cfg scrapy配置文件可以保持默认不修改. items.py