爬虫之SCRAPY
- scrapy环境的安装 a. pip3 install wheel b. 下载twisted http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted c. 进入下载目录,执行 pip3 install Twisted‑17.1.0‑cp35‑cp35m‑win_amd64.whl d. pip3 install pywin32 e. pip3 install scrapy - scrapy使用 - 1.创建一个工程:scrapy startproject ProName (注 startproject 中间没有空格) - 2.cd ProName - 3.创建爬虫文件:scrapy genspider first www.xxx.com - 4.执行:(allowed_domains 注释掉) - settings.py: - 不遵从rbotes协议 - 进行UA伪装 - 指定日志等级:LOG_LEVEL = ‘ERROR’ scrapy crawl spiderName - 持久化存储 - 基于终端指令: - 前提:只可以将parse方法的返回值进行本地文件的持久化存储 - 指令:scrapy crawl spiderName -o filePath - 基于管道: - 编码流程: 1.数据解析 2