webmagic 0.4.0的特性

梦想的初衷 提交于 2020-03-04 15:28:33

0.4.0已发布,新闻:http://www.oschina.net/news/45720/webmagic-0-4-0

webmagic 0.4.0将于本周内发布,新增特性:

大幅优化下载效率

  • 升级HttpClient到4.3.1,重写了HttpClientDownloader的代码 #32
  • 在http请求中主动开启gzip,降低传输开销 #31
  • 修复0.3.2及之前版本连接池不生效的问题 #30,使用新的连接池机制,实现连接复用功能。

经测试,下载速度可达到90%左右的提升。

新增同步下载模式,对于简单任务更方便

<!-- lang: java -->
    OOSpider ooSpider = OOSpider.create(Site.me().setSleepTime(100), BaiduBaike.class);
    BaiduBaike baike = ooSpider.<BaiduBaike>get("http://baike.baidu.com/search/word?word=httpclient&pic=1&sug=1&enc=utf8");
    System.out.println(baike);

Spider部分:

  • 重构了多线程的代码,修复几个线程安全问题。
  • 可以主动设置当所有任务完成时,Spider是否终止。
  • 可以设置初始的Request,而不仅仅是Url #29
  • 增加http代理支持 #22
  • 支持自定义所有http头#27

同时webmagic的邮件组开通了,欢迎加入:

https://groups.google.com/forum/#!forum/webmagic-java

标签
易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!