0.4.0已发布,新闻:http://www.oschina.net/news/45720/webmagic-0-4-0
webmagic 0.4.0将于本周内发布,新增特性:
大幅优化下载效率
- 升级HttpClient到4.3.1,重写了HttpClientDownloader的代码 #32。
- 在http请求中主动开启gzip,降低传输开销 #31。
- 修复0.3.2及之前版本连接池不生效的问题 #30,使用新的连接池机制,实现连接复用功能。
经测试,下载速度可达到90%左右的提升。
新增同步下载模式,对于简单任务更方便
<!-- lang: java -->
OOSpider ooSpider = OOSpider.create(Site.me().setSleepTime(100), BaiduBaike.class);
BaiduBaike baike = ooSpider.<BaiduBaike>get("http://baike.baidu.com/search/word?word=httpclient&pic=1&sug=1&enc=utf8");
System.out.println(baike);
Spider部分:
- 重构了多线程的代码,修复几个线程安全问题。
- 可以主动设置当所有任务完成时,Spider是否终止。
- 可以设置初始的Request,而不仅仅是Url #29。
- 增加http代理支持 #22。
- 支持自定义所有http头#27
同时webmagic的邮件组开通了,欢迎加入:
https://groups.google.com/forum/#!forum/webmagic-java
来源:oschina
链接:https://my.oschina.net/u/190591/blog/173857