在实现了processor接口的时候,把抓取的数据通过
page.putField("key", value);
发送到自定义的Pipeline中,对数据进行后期处理,如分析,存储等
实现方式:继承Pipeline接口,比如:
public class MyPipeline implements Pipeline { @Override public void process(ResultItems resultItems, Task task) { User inPlay = resultItems.get("user");// 收到抓取程序传递的滚球Inplay对象 List<String> list = resultItems.get("list"); //收到抓取程序传递的联赛对象 ...... } }
经常直接将数据存到mysql,redis等数据库中,数据持久化的工具就不用我说了吧?jdbc,mybatis等
webMagic中以及默认实现了一些pipeLine