WebMagic
WebMagic 是干嘛的? WebMagic 是一个 Java 平台上的开源爬虫框架,其设计参考了 Scrapy,实现则参考了 HttpClient 和 Jsoup。其由四大组件组成: Downloader,负责下载网页,使用 HttpClient。 PageProcessor,负责解析网页和链接发现,使用 Jsoup 和 Xsoup。 Scheduler,负责管理待抓取的 URL 和去重。 Pipeline,负责结果数据的持久化。 快速开始 (1)依赖引入 ext { versions = [ "web_magic": '0.7.3' ] } dependencies { // 这里有自己项目的日志实现 compile project(':base') compile("us.codecraft:webmagic-core:${versions.web_magic}") { exclude group: 'org.slf4j', module: 'slf4j-log4j12' // 移除默认的日志实现 } compile("us.codecraft:webmagic-extension:${versions.web_magic}") { exclude group: 'org.slf4j', module: 'slf4j-log4j12' } } (2)快速开始 爬取