起点R3

nutch与起点R3集成之笔记(四)

自闭症网瘾萝莉.ら 提交于 2019-12-03 23:05:32
通过“ nutch与起点R3集成之笔记(一、二、 三)”中的步骤,我们可以建立起一个行业内部网的搜索引擎,但搜索引擎一个最重要的功能,就是必须能搜索到网络中最新的内容。这就要求nutch能及时采集到网络中的最新网页信息,同时将这些新采集到的信息更新到solr索引库中。故本篇介绍如何实现索引的更新和去重问题。 我们随时可以使用nutch的crawl命令来爬行网站,例如,今天上午8:00采集一次新浪网站 http://www.sina.com.cn ,并通过nutch 的solrindex索引到solr索引库中,然后上午10:00再采集一次新浪网站,再通过solrindex索引到solr库中。这样做,可以保证用户能搜索到网络中较新的信息。在solr中实现没有什么问题,因为solr使用的是update方式更新索引库,因为索引field名为id的是主键,只要id是唯一的,update到索引库的操作就是成功的。 我们回过头来看看 《nutch与起点R3集成之笔记(二)》,在该篇中,我们是定义了用digest作为id,而没有采用在nutch的conf 的solrconfig.xml中定义用url作为id。其原因在于,如果用url作为id,在起点R3中会出现看不到索引数据等一些问题,我分析了很久,估计是由于url中会出现: / ? & 字符,这些字符不通过escape转换

nutch与起点R3集成之笔记(三)

北慕城南 提交于 2019-12-03 23:04:53
四、抓取网页,建立solr索引 在抓取网页前,要保证起点R3处在运行状态。即 在浏览器中键入 http://127.0.0.1:880/ 后,会出现如下窗口: 在linux或cygwin中运行nutch抓取网页命令为 :bin/nutch crawl url -solr http://127.0.0.1:880 -dir test -depth 3 -topN ,其dir、depth、topN参数的含义网上介绍有很多,在这里不做解释。参数solr表示将抓取后的网页solr索引到一个提供solr服务的服务器索引库中,这里的127.0.0.1是指当nutch和起点R3都安装在同一台机器上,如果两者不在同一台机器上,这里的127.0.0.1要改成起点R3机器的IP。 在eclipse环境里,先在apache-nutch-1.3的项目里建立一个main类 为org.apache.nutch.crawl.Crawl的java运行应用程序,如下图: 对应的自变量设置为: 点击“运行”后,最后,在eclipse的控制台出现: 表示网页抓取和solr索引建立完毕。这时,可以在浏览器上通过起点R3的查询界面,实现对抓取的页面进行搜索了。如下图: 五、总结 nutch与起点R3集成,其实与nutch和solr集成实现原理是一样:1.定义solr的索引字段

nutch与起点R3集成之笔记(一)

依然范特西╮ 提交于 2019-12-03 23:04:38
百度、google帮我们找Internet的信息,但对于一个行业内部网(intranet)来说,百度、google就无法帮忙了。并且,对一个行业来说,更多的信息都是放在行业内部网上,并且采用网页、office文档、图片、视频、音频等格式存放。如何方便,快捷,安全地获取行业内部的信息内容,建立一个行业内部网的搜索引擎就显得尤为重要。 佛山起点软件( http://www.rivues.com )推出了起点R3软件,是一个开箱即用的企业级搜索引擎产品,并且已开源,下载地址 http://sourceforge.net/projects/rivues/files/ ,最新版本是5.3,安装后,试了一下,非常不错,很快可以建一个桌面搜索(对本地文件建一个搜索引擎),但没有看到对网站内容采集界面。 nutch是apache项目的一个开源软件,最新版本是1.3,是一个强大的网页、索引工具,1.3版本好像只对solr建立索引,去掉了lucene索引(bin/nutch index 命令不能使用)。solr也是apache项目的一个开源软件,主要是基于lucene的一个索引工具,但搜索结果返回的是xml、json等格式,需要用户开发html展示模块。 其实,起点R3软件也是基于solr建立的索引,有非常完善展示界面。笔者通过对起点R3源码进行分析后,实现了用nutch来采集网站信息

nutch与起点R3集成之笔记(二)

社会主义新天地 提交于 2019-12-02 19:31:49
在 nutch与起点R3集成之笔记(一) 中介绍了在起点R3中添加nutch要用到的索引字段,上述字段建好后,就可以通过nutch抓取一个或多个网站内容,并通过 bin/nutch solrindex 送到起点R3索引库中。 三、nutch安装与配置 1.安装nutch 先从 http://www.apache.org/dist//nutch/apache-nutch-1.3-bin.zip 下载nutch1.3,展开。nutch可以在linux环境下运行,也可以在windows环境下运行,也可以导入到eclipse中运行。 在linux环境下安装最简单,将展开后runtime/local目录下的内容上传到linux的一个目录下,如/opt/nutch1.3,同时将 /opt/nutch1.3/lib下的nutch-1.3.jar copy到 /opt/nutch1.3目录,并改名为 nutch-1.3.job,并chmod +x /opt/nutch1.3/bin。同时要有JDK环境,并在profile中设置JAVA_HOME,PATH中有JDK的bin路径。在 /opt/nutch1.3目录键入 bin/nutch ,出现如下提示: [root@test nutch-1.3]# bin/nutch Usage: nutch [-core] COMMAND where