Lucene小记(入门篇),索引创建、更新、删除、查找等操作。
虽然使用 Lucene 已经有一段时间了,但是仍不敢妄加评论 Lucene 的好与坏,毕竟目前接触的全文索引技术只有 Lucene 。而且 Lucene 并不是 真正意义上的引擎,只算的上是 Java 开发的全文索引工具包。与传统的数据库查询对比,全文索 引技术更具有优势。 Lucene 不仅可以对磁盘文件进行索引,也可以对数据库记录进行索引, 并且支持的索引文件格式多种多样(结合其他的文本处理工具)。言归正传,本文将为读者具体讲解 Lucene 的基本使用,入门级。 本文 Lucene 使用的版本为 4.0.0 1. 创建索引。 索引创建原理大致分为以下几步: 分词,将原文档传给分词组件进行分词,得到词元。 词元处理,将词元传给语言处理组件进行一些语言处理,例如:变小写,转词根。 索引,对处理后的词元建立词典。例如,词‘中国’出现在 ID 为 2 , 5 , 7 的文档中,出现频率分别为 1 , 5 , 3 次。 具体实现如下: 创建索引时需要两个目录,一个是索引文件的存放目录( indexPath ),一个是待索引的文件目录( docsPath )。在创建索引时,我们首先要加载或创建索引目录。常用的目录创建方式有两种: 通过RAMDirectory()类创建一个内存目录,内存目录优点是速度快,缺点是程序退出后索引目录数据就会丢失。 RAMDirectory directory