全文检索

Lucene全文检索-从零开始(1)

这一生的挚爱 提交于 2020-04-04 06:34:28
1.Lucene简介 Lucene是一个开放源代码的全文检索引擎工具包,是一个全文检索引擎的架构,是一款高性能、可扩展的信息检索工具库。 2.全文检索 全文检索是指计算机索引程序通过扫描文章中的每一个词,对每一个词建立一个索引,指明该词在文章中出现的次数和位置,当用户查询时,检索程序就根据事先建立的索引进行查找,并将查找的结果反馈给用户的检索方式。这个过程类似于通过字典中的检索字表查字的过程。 3.为什么要用Lucene 也许有人会说我经常都是用like、Match、contain来做基本查询的。当你只有几百行几千行数据时,查询速度很快,但是如果有几十万几百万条数据呢。下面我们对用like关键字查询和使用Lucene查询的时间进行比较。 3.1 Lucene和like的效率比较 数据表中共有数据146450条。 首先我们用like来查询 接着我们使用Lucene检索 通过比较,两者有着明显的差别,lucene几乎是like的40倍。 4.全文检索中分词器的使用 4.1 盘古分词 1 class Program 2 { 3 /// <summary> 4 /// 盘古分词器 5 /// </summary> 6 public Analyzer panGuAnalyzer 7 { 8 get { return new PanGuAnalyzer(); } 9 } 10 11

MongoDB 全文检索

℡╲_俬逩灬. 提交于 2020-04-04 06:34:15
全文检索对每一个词建立一个索引,指明该词在文章中出现的次数和位置,当用户查询时,检索程序就根据事先建立的索引进行查找,并将查找的结果反馈给用户的检索方式。 这个过程类似于通过字典中的检索字表查字的过程。 MongoDB 从 2.4 版本开始支持全文检索,目前支持15种语言(暂时不支持中文)的全文索引。 danish dutch english finnish french german hungarian italian norwegian portuguese romanian russian spanish swedish turkish 启用全文检索 MongoDB 在 2.6 版本以后是默认开启全文检索的,如果你使用之前的版本,你需要使用以下代码来启用全文检索: >db.adminCommand({setParameter:true,textSearchEnabled:true}) 或者使用命令: mongod --setParameter textSearchEnabled=true 创建全文索引 考虑以下 posts 集合的文档数据,包含了文章内容(post_text)及标签(tags): { "post_text": "enjoy the mongodb articles on w3cschool.cn", "tags": [ "mongodb",

全文检索引擎 Lucene.net

≯℡__Kan透↙ 提交于 2020-04-04 06:34:02
全文搜索引擎是目前广泛应用的主流搜索引擎。它的工作原理是计算机索引程序通过扫描文章中的每一个词,对每一个词建立一个索引,指明该词在文章中出现的次数和位置,当用户查询时,检索程序就根据事先建立的索引进行查找,并将查找的结果反馈给用户的检索方式。这个过程类似于通过字典中的检索字表查字的过程。 Lucene.net是Lucene的.net移植版本,是一个开源的全文检索引擎开发包,即它不是一个完整的全文检索引擎,而是一个全文检索引擎的架构,提供了完整的查询引擎和索引引擎。开发人员可以基于Lucene.net实现全文检索的功能。 Lucene.net是Apache软件基金会赞助的开源项目,基于Apache License协议。 Lucene.net并不是一个爬行搜索引擎,也不会自动地索引内容。我们得先将要索引的文档中的文本抽取出来,然后再将其加到Lucene.net索引中。标准的步骤是先初始化一个Analyzer、打开一个IndexWriter、然后再将文档一个接一个地加进去。一旦完成这些步骤,索引就可以在关闭前得到优化,同时所做的改变也会生效。这个过程可能比开发者习惯的方式更加手工化一些,但却在数据的索引上给予你更多的灵活性,而且其效率也很高。 来源: https://www.cnblogs.com/suizhikuo/p/3690794.html

中文全文检索

元气小坏坏 提交于 2020-03-02 06:45:07
中文全文检索 MySQL不支持中文全文检索,因为中文一句话是连着写的,不像英文单词间有空格分隔。解决办法就是中文分词(关于中文分词请参阅其它文章),如果你的MySQL是安装在Windows平台上的,可以不用转码直接存储中文就可以使用全文索引,如本例。但是如果你的MySQL是安装在Linux上的则需要进行转编码(urlencode / base64_encode / json_encode / 区位 / 拼音)等方案,具体方案参看其它博文。 MYSQL全文搜索通过 MATCH() 函数完成。   下面举一简单例子:   1、新建数据表:   CREATE TABLE fulltext_sample(copy TEXT,FULLTEXT(copy)) TYPE=MyISAM;   这里的copy就是一个fulltext类型的字段,如果建表的时候没有添加全文检索字段,也可以通过alert来添加,如:   ALTER TABLE fulltext_sample ADD FULLTEXT(copy)   2、插入数据:   INSERT INTO fulltext_sample VALUES   ('It appears good from here'),   ('The here and the past'),   ('Why are we hear'),   ('An all-out

Lucene-全文检索

佐手、 提交于 2020-03-01 21:02:28
全文检索   数据分类       结构化数据:指具有固定格式或有限长度的数据,如数据库,元数据等。针对结构化数据的搜索,列如对数据库的搜索,可以使用SQL语句。再如对元数据的搜索,列如Windows中对文件名,类型和修改时间进行搜索等;       非结构化数据:指不定长或没有固定格式的数据,例如邮件,word文档等。对非结构化数据的搜索,例如Windows中对文件内容的搜索,Linux中grep命令,以及使用Google或百度来搜索内容都属于对全文数据的搜索;       对结构化的数据,可以使用搜索算法按照结构较快地进行检索;       但是对非结构化的数据,由于没有特定结构,因此在数据量比较小的时候,可以使用顺序扫描法,一个文件一个文件地找,找到包含检索字符串的文件。如Windows文件搜索,Linux中grep命令。这样的方法对于数量较小的比较直接,但是对于数据量较大的文件检索效率较低。   结构化数据搜索     常见的结构化数据也就是数据库中的数据。在数据库中搜索很容易实现,通常都是使用sql语句进行查询,而且很快的得到查询结构。   非结构化数据查询方法     顺序扫描法(Serial Scanning)       所谓顺序扫描法,比如要找内容包含某一个字符串的文件,就是一个一个文档的看,对于每一个文档,从头看到尾,如果此文档包含此字符串

Lucene全文检索系列(一)

核能气质少年 提交于 2020-02-29 10:04:28
1. Lucene简介 Lucene是一个全文检索引擎的架构,提供了完整的查询引擎和索引引擎。Lucene以其方便使用、快速实施以及灵活性受到广泛的关注。它可以方便地嵌入到各种应用中实现针对应用的全文索引、检索功能。 2. lucene 的包结构 1、analysis对需要建立索引的文本进行分词、过滤等操作 2、standard是标准分析器 3、document提供对Document和Field的各种操作的支持。 4、index是最重要的包,用于向Lucene提供建立索引时各种操作的支持 5、queryParser提供检索时的分析支持 6、search负责检索 7、store提供对索引存储的支持 8、util提供一些常用工具类和常量类的支持 Lucene中的类主要组成如下: 1)org.apache.1ucene.analysis语言分析器,主要用于的切词Analyzer是一个抽象类,管理对文本内容的切分词规则。 2)org.apache.1uceene.document索引存储时的文档结构管理,类似于关系型数据库的表结构。 3)document包相对而言比较简单,该包下面有3个类,document相对于关系型数据库的记录对象,Field主要负责字段的管理。 4)org.apache.1ucene.index索引管理,包括索引建立、删除等。索引包是整个系统核心

全文检索

独自空忆成欢 提交于 2020-02-24 15:37:51
什么是全文检索 数据分类 我们生活中的数据总体分为两种:结构化数据和非结构化数据。 结构化数据:指具有固定格式或有限长度的数据,如数据库,元数据等。 非结构化数据:指不定长或无固定格式的数据,如邮件,word文档等磁盘上的文件 结构化数据搜索 常见的结构化数据也就是数据库中的数据。在数据库中搜索很容易实现,通常都是使用sql语句进行查询,而且能很快的得到查询结果。 为什么数据库搜索很容易? 因为数据库中的数据存储是有规律的,有行有列而且数据格式、数据长度都是固定的。 非结构化数据查询方法 (1)顺序扫描法(Serial Scanning) 所谓顺序扫描,比如要找内容包含某一个字符串的文件,就是一个文档一个文档的看,对于每一个文档,从头看到尾,如果此文档包含此字符串,则此文档为我们要找的文件,接着看下一个文件,直到扫描完所有的文件。如利用windows的搜索也可以搜索文件内容,只是相当的慢。 (2)全文检索(Full-text Search)     将非结构化数据中的一部分信息提取出来,重新组织,使其变得有一定结构,然后对此有一定结构的数据进行搜索,从而达到搜索相对较快的目的。这部分从非结构化数据中提取出的然后重新组织的信息,我们称之索引。     例如:字典。字典的拼音表和部首检字表就相当于字典的索引,对每一个字的解释是非结构化的,如果字典没有音节表和部首检字表

全文检索引擎及工具 Lucene Solr

[亡魂溺海] 提交于 2020-02-16 03:55:22
全文检索引擎及工具 lucence lucence是一个全文检索引擎。 lucence代码级别的使用步骤大致如下: 创建文档(org.apache.lucene.document.Document),并通过Document的add方法为其添加字段(lucence.document.Field) 创建lucence.index.IndexWriter,通过addDocument或addDocuments方法添加构建好的诸多Document 通过close方法关闭IndexWriter 创建索引搜索器lucence.search.IndexSearcher,需要传入索引仓库阅读器(lucenc.index.DirectoryReader)参数 通过search方法在搜索器上执行查询,参数是ucence.search.Query对象,通过查询解析器lucene.queryparser.classic.QueryParser的实例parse(String)方法来构建一个查询,QueryParser实例可以通过new标准解析器lucene.queryparser.flexible.standard.StandardQueryParser得到 中文文本索引构建及查询示例 (以下涉及的是6.4.2版本的lucene) 对中文文本构建索引时,不能使用 StandardAnalyzer

Lucene.net入门学习系列(1)

十年热恋 提交于 2020-02-13 23:57:43
   Lucene.net入门学习系列(1)-分词   Lucene.net入门学习系列(2)-创建索引   Lucene.net入门学习系列(3)-全文检索   这几天在公司实习的时候闲的蛋疼,翻了一下以往的教程和博客,看到了Lucene.net。原本想学着写一个系列的博文,由于本人水平有限,一直找不到适合的内容来写,干脆就写一个简单的Lucene.net系列文章吧。希望和大家一起学习,一起进步,有什么写错了或者有什么建议欢迎提出来。   一.引言     先说一说什么是 Lucene.net。Lucene.net是 Lucene 的.net移植版本,是一个开源的全文检索引擎开发包,即它不是一个完整的全文检索引擎,而是一个全文检索引擎的架构,提供了完整的查询引擎和索引引擎。开发人员可以基于Lucene.net实现 全文检索 的功能。   说完了Lucene.net,接着来说什么是全文检索。 全文检索是一种将文件中所有文本与检索项匹配的文字资料检索方法。   二.分词     前面的引言大概说了一下什么是全文检索,介绍了Lucene.net这个全文检索引擎。 要做全文检索,首先要做的就是分词。      分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。 在英文的行文中,单词之间是以空格作为自然分界符的,而中文只是字、句和段能通过明显的分界符来简单划界

Lucene7.2.1系列(一)快速入门

烈酒焚心 提交于 2020-02-13 23:56:54
系列文章: Lucene系列(一)快速入门 Lucene系列(二)luke使用及索引文档的基本操作 Lucene系列(三)查询及高亮 Lucene是什么? Lucene 在维基百科的定义 Lucene是一套用于 全文检索和搜索 的开放源代码程序库,由Apache软件基金会支持和提供。Lucene提供了一个简单却强大的应用程序接口,能够做全文索引和搜索,在Java开发环境里Lucene是一个成熟的免费开放源代码工具;就其本身而论, Lucene是现在并且是这几年,最受欢迎的免费Java信息检索程序库 。 另外,Lucene不提供爬虫功能,如果需要获取内容需要自己建立爬虫应用。 Lucene只做索引和搜索工作。 Lucene 官网 http://lucene.apache.org/ 打开Luncene官网你会发现Lucene版本更新的太快了,现在最新的版本已经是7.2.1。不过这也变相说明了Luncene这个开源库的火爆。 Lucene 和 solr 我想提到Lucene,不得不提solr了。 很多刚接触Lucene和Solr的人都会问这个明显的问题: 我应该使用Lucene还是Solr? 答案很简单:如果你问自己这个问题,在99%的情况下,你想使用的是Solr. 形象的来说Solr和Lucene之间关系的方式是汽车及其引擎。 你不能驾驶一台发动机,但可以开一辆汽车。 同样,