java 爬虫 WebMagic(四)-Scheduler

元气小坏坏 提交于 2019-11-30 14:57:59

Scheduler是WebMagic中对url进行管理的组件,它主要有2个功能:

  1. 对待抓取的URL队列进行管理。
  2. 对已抓取的URL进行去重。

一般使用不需要自定义,WebMagic默认实现了QueueScheduler。

WebMagic内置了几个常用的Scheduler。

 

 

所有默认的Scheduler都默认实现了 DuplicateRemover接口,去url进行去重。

如果想要关闭去重的功能能,可以自己实现DuplicateRemover接口,在isDuplicate()方法中返回fasle就行了

public class DonothingDuplicateRemover implements DuplicateRemover {
    @Override
    public boolean isDuplicate(Request request, Task task) {
        return false;
    }

    @Override
    public void resetDuplicateCheck(Task task) {

    }

    @Override
    public int getTotalRequestsCount(Task task) {
        return 0;
    }
}

 

标签
易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!