Lucene简单介绍

百般思念 提交于 2020-02-13 23:54:46

【2016.6.11】以前写的笔记,拿出来放到博客里面~

相关软件:

Solr, IK Analyzer, Luke, Nutch;Tomcat;

1.是什么:

Lucene是apache软件基金会jakarta项目组的一个子项目,是一个开放源代码的全文检索引擎工具包;

为软件开发人员提供一个简单易用的工具包,以方便的在目标系统中实现全文检索的功能,或者是以此为基础建立起完整的全文

检索引擎;

2.主要应用:

对句子进行分词,从而实现自然语言分词后提取关键词并且进行拓展,再送入搜索引擎进行查询,提高精准度;

对数据库中的文档简历索引,实现快速的查找;

3.环境:

用java开发,很方便调用jar包;

4.具体类:

org.apache.lucene.analysis;语言分析器,主要用于分词;

5.相关的开源类库:

IK Analyzer

6.Lucene的开源企业搜索平台:

Solr:

Solr是用Java编写、运行在Servlet容器(如Apache Tomcat或Jetty)的一个独立的全文搜索服务器;

Solr是高度可扩展的,并提供了分布式搜索和索引复制;

7.Nutch:

是一个开源的java实现的web 爬虫;

主要用于收集网页数据然后进行分析,建立索引等,底层使用Hadoop进行分布式计算与存储,索引使用Solr分布式索引框架;

依赖Hadoop的数据结构,适合批处理;

可以和Solr结合使用,用Solr分析检索Nutch爬过的页面;
易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!