百度百科基础爬虫
出处:Python爬虫开发与系项目实战 作者:范传辉 基础爬虫框架 爬虫调度器:统筹别的四个模块 URL管理器:维护已经爬取了的url集合和获得新的未爬取的url链接 HTML下载器:从URL管理器中,获取url,并下载html网页 HTML解析器:从下载器中,截取有效数据 数据存储器:将有效数据进行存储 1. URL管理器 URLManager.py 去重 不去重的后果:链接重复容易造成死循环 方法:(1)内存去重(2)关系数据库去重(3)缓存数据库去重。 在小型中采用set,容易去重 URL管理器应有的接口: 方法名称 方法功能 has_new_url() 判断是否有待取的url add_new_url (url) 添加新的url到未爬去的集合中 add_new_urls (urls) get_new_url( ) 获取一个未爬去的url new_url_size( ) 未爬取的url的集合的大小 old_url_size( ) 已爬去的url的集合大小 具体代码: class URLManager: def __init__(self): self.new_urls=set() self.old_urls=set() def has_new_url(self,url): return self.new_url_size()!=0 def add_new_url(self