heritrix

JAVA 爬虫框架webmagic 初步使用Demo

放肆的年华 提交于 2020-11-19 06:16:09
一想到做爬虫大家第一个想到的语言一定是python,毕竟python比方便,而且最近也非常的火爆,但是python有一个全局锁的概念新能有瓶颈,所以用java还是比较牛逼的, webmagic 官网 https://webmagic.io/ 讲的非常详细,当然java比较优秀的框架还有很多不知这些 各类JAVA爬虫框架 Python中大的爬虫框架有scrapy(风格类似django),pyspider(国产python爬虫框架)。 除了Python,Java中也有许多爬虫框架。 nutch apache下的开源爬虫程序,功能丰富,文档完整,有数据抓取解析以及存储的模块。 它的特点是规模大。 heritrix 比较成熟 地址:internetarchive/heritrix3 · GitHub很早就有了,经历过很多次更新,使用的人比较多,功能齐全,文档完整,网上的资料也多。有自己的web管理控制台,包含了一个HTTP 服务器。操作者可以通过选择Crawler命令来操作控制台。 crawler4j UCI大学(加利福尼亚欧文分校)出品,简洁,古老,结构清晰 webmagic 国产,借鉴了scrapy,有pipeline,功能比较简单。Request也有meta属性,meta属性是一个字典,meta属性的value是Object类型 具体参考 https://www.cnblogs