这就是搜索引擎--读书笔记四--索引基础
搜索引擎索引基础 前几天我阅读了搜索引擎索引这一章,发现倒排索引这一方法确实很巧妙和迷人,它包含的原理和设计方法很独到。所以接下来,我想把我学习到的索引方面的知识给大家讲解一下,总共分为三篇: 索引基础 、 索引建立和更新 、 索引查询 。 我们首先认识倒排索引基本概念 文档 : 一般搜索引擎的处理对象是互联网网页,而文档这个概念要更宽泛些,代表以文本形式存在的存储对象,相比网页来说,涵盖了更多形式,比如Word、PDF、HTML、XML等不同格式的文件都可以称为文档。 文档集合 :由若干文档构成的集合称为文档集合。 文档编号 :在搜索引擎内部,会为文档集合中每一个文档赋予一个唯一的内部编号,以此编号来作为文档的唯一标识,这样方便内部处理。每个文档的内部编号称为文档编号。 单词编号 :和文档编号类似,单词编号可以作为某个单词的唯一表征。 倒排索引 :倒排索引是实现单词—文档矩阵的一种具体存储形式。通过倒排索引,可以通过单词快速获取包含这个单词的文档列表。倒排索引由两个部分组成:单词词典和倒排文件。 单词词典 :搜索引起通常的索引单位是单词,单词词典是由文档集合中出现过的所有单词构成的字符串集合,单词词典内每条索引项记载单词本身的一些信息及指向倒排列表的指针(还记得链表吗?亲)。 倒排文件 :所有单词的倒排列表往往顺序的存储在磁盘的某个文件里,这个文件即被称为倒排文件