Python爬虫:用Scrapy框架爬取漫画(附源码)
scrapy 是一个为了爬取网站数据,提取结构性数据而编写的应用框架。关于框架使用的更多详情可浏览官方文档,本篇文章展示的是爬取漫画图片的大体实现过程。 Scrapy环境配置 首先是 scrapy 的安装,博主用的是Mac系统,直接运行命令行: pip install Scrapy 对于html节点信息的提取使用了 Beautiful Soup 库,大概的用法可见之前的一篇文章,直接通过命令安装: pip install beautifulsoup4 对于目标网页的 Beautiful Soup 对象初始化需要用到 html5lib 解释器,安装的命令: pip install html5lib 安装完成后,直接在命令行运行命令: scrapy 可以看到如下输出结果,这时候证明scrapy安装完成了。 Scrapy 1.2.1 - no active project Usage: scrapy <command> [options] [args] Available commands: bench Run quick benchmark test commands fetch Fetch a URL using the Scrapy downloader genspider Generate new spider using pre-defined templates