四、抓取网页,建立solr索引
在抓取网页前,要保证起点R3处在运行状态。即 在浏览器中键入 http://127.0.0.1:880/ 后,会出现如下窗口:
在linux或cygwin中运行nutch抓取网页命令为 :bin/nutch crawl url -solr http://127.0.0.1:880 -dir test -depth 3 -topN ,其dir、depth、topN参数的含义网上介绍有很多,在这里不做解释。参数solr表示将抓取后的网页solr索引到一个提供solr服务的服务器索引库中,这里的127.0.0.1是指当nutch和起点R3都安装在同一台机器上,如果两者不在同一台机器上,这里的127.0.0.1要改成起点R3机器的IP。
在eclipse环境里,先在apache-nutch-1.3的项目里建立一个main类为org.apache.nutch.crawl.Crawl的java运行应用程序,如下图:
对应的自变量设置为:
点击“运行”后,最后,在eclipse的控制台出现:
表示网页抓取和solr索引建立完毕。这时,可以在浏览器上通过起点R3的查询界面,实现对抓取的页面进行搜索了。如下图:
五、总结
nutch与起点R3集成,其实与nutch和solr集成实现原理是一样:1.定义solr的索引字段,实现nutch的index与solr的index字段的映射;2.使用nutch的solrindex功能,实现将nutch采集的页面索引到solr的索引库中。
来源:oschina
链接:https://my.oschina.net/u/164278/blog/28746