开源网络爬虫汇总
Awesome-crawler-cn 互联网爬虫,蜘蛛,数据采集器,网页解析器的汇总,因新技术不断发展,新框架层出不穷,此文会不断更新... 交流讨论 欢迎推荐你知道的开源网络爬虫,网页抽取框架. 开源网络爬虫QQ交流群:322937592 email address: liinux at qq.com Python Scrapy - 一种高效的屏幕,网页数据采集框架。 django-dynamic-scraper - 基于Scrapy内核由django Web框架开发的爬虫。 Scrapy-Redis - 基于Scrapy内核采用Redis组件的爬虫。 scrapy-cluster - 基于Scrapy内核采用Redis 和 Kafka 开发的分布式爬虫框架。 distribute_crawler - 基于Scrapy内核采用redis, mongodb开发的分布式爬虫框架。 pyspider - 一个强大纯python的数据采集系统. cola - 一个分布式的爬虫框架. Demiurge - 基于PyQuery的微型爬虫框架. Scrapely - 一个纯python的HTML页面捕捉库. feedparser - 一个通用的feed解析器. you-get - 静默网站爬去下载器. Grab - 网站采集框架. MechanicalSoup -