webmagic 爬取网页所有文章的标题时间作者和内容

匿名 (未验证) 提交于 2019-12-02 21:53:32
package com.ij34;  import us.codecraft.webmagic.Site; import us.codecraft.webmagic.Page; import us.codecraft.webmagic.Spider; import us.codecraft.webmagic.pipeline.FilePipeline; import us.codecraft.webmagic.processor.PageProcessor;  import java.util.List;  public class HuxiuTest implements PageProcessor {     @Override     public void process(Page page) {         List<String> requests = page.getHtml().links().regex(".*article.*").all();          page.addTargetRequests(requests);          page.putField("标题",page.getHtml().xpath("//div[@class='wrap-left pull-left']//h1/text()"));          page.putField("作者", page.getHtml().xpath("//div[@class='article-author']//a/text()"));          page.putField("时间", page.getHtml().xpath("//div[@class='column-link-box']/span[1]//text()"));          page.putField("内容",page.getHtml().xpath("//div[@class='article-content-wrap']"));      }     @Override     public Site getSite() {         return Site.me().setDomain("www.huxiu.com");     }      public static void main(String[] args) {         Spider.create(new HuxiuTest()).addUrl("https://www.huxiu.com/")        .addPipeline(new FilePipeline("D:\\webmagic\\data\\"))         .run();     }  }

标签
易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!