headlessbrowser

Scrapy-Splash爬虫实战——爬取JS渲染的动态页面信息【附货币基金爬取筛选代码】

≡放荡痞女 提交于 2020-04-26 17:44:53
本文概要 展示了一个使用Scrapy爬取网页信息的例子——爬取天天基金网的货币基金 爬取的信息在JS渲染的动态页面中,使用headless浏览器和Splash配合Scrapy解决问题 提供了docker镜像和Dockerfile,详述过程Dockerfile每一行的设置和其中的坑 仔细阅读可以了解Scrapy的基本用法,配合headless浏览器爬取一切疑难页面,在2.0.1版本下很长一段时间不用去和环境死磕了,直接取用docker镜像吧。 代码 qqhard/hj_spider ​ github.com 任务 由天天基金网的 货基列表页 进入详情页 爬取详情页中一系列信息 Scrapy一般流程 Scrapy目前的版本是2.0.1,其官方文档在 https:// scrapy.org/ 需要python3.5及以上的环境,在linux下需要Ubuntu 14.04及以上。 使用pip和conda很容易安装, pip install Scrapy 即可。 Scrapy提供了脚手架, scrapy startproject tutorial 创建项目,获得如下的目录: tutorial / scrapy . cfg # deploy configuration file tutorial / # project's Python module, you'll import your