nutch与起点R3集成之笔记(三)

北慕城南 提交于 2019-12-03 23:04:53

         四、抓取网页,建立solr索引

        在抓取网页前,要保证起点R3处在运行状态。即 在浏览器中键入 http://127.0.0.1:880/ 后,会出现如下窗口:

        在linux或cygwin中运行nutch抓取网页命令为 :bin/nutch  crawl url -solr http://127.0.0.1:880 -dir test -depth 3 -topN ,其dir、depth、topN参数的含义网上介绍有很多,在这里不做解释。参数solr表示将抓取后的网页solr索引到一个提供solr服务的服务器索引库中,这里的127.0.0.1是指当nutch和起点R3都安装在同一台机器上,如果两者不在同一台机器上,这里的127.0.0.1要改成起点R3机器的IP。

      在eclipse环境里,先在apache-nutch-1.3的项目里建立一个main类为org.apache.nutch.crawl.Crawl的java运行应用程序,如下图:

对应的自变量设置为:

 点击“运行”后,最后,在eclipse的控制台出现:

表示网页抓取和solr索引建立完毕。这时,可以在浏览器上通过起点R3的查询界面,实现对抓取的页面进行搜索了。如下图:

         五、总结

       nutch与起点R3集成,其实与nutch和solr集成实现原理是一样:1.定义solr的索引字段,实现nutch的index与solr的index字段的映射;2.使用nutch的solrindex功能,实现将nutch采集的页面索引到solr的索引库中。

      

易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!