1、SOLR4.2集成NUTCH1.6
wget http://archive.apache.org/dist/lucene/solr/4.2.0/solr-4.2.0.tgz
tar -xzvf solr-4.2.0.tgz
cd solr-4.2.0/example
复制nutch的conf目录中的schema-solr4.xml文件到solr/collection1/conf目录,改名为schema.xml,覆盖原来文件
修改solr/collection1/conf/schema.xml,在<fields>下增加:<field name="_version_" type="long" indexed="true" stored="true"/>
2、给SOLR4.2配置中文分词器word分词
参考https://github.com/ysc/word的Solr插件部分
3、运行SOLR4.2
启动SOLR4.2服务器: java -jar start.jar &
SOLR4.2 Web界面: http://host2:8983
4、运行NUTCH提交索引
运行solrindex命令:
bin/nutch solrindex http://host2:8983/solr data/crawldb -linkdb data/linkdb -dir data/segments
来源:oschina
链接:https://my.oschina.net/u/121944/blog/397150