inverted index

倒排索引 inverted index

感情迁移 提交于 2019-11-27 01:55:23
1、什么是倒排索引。 e>>>(⊙o⊙)… 这是我见过最垃圾的翻译了,完全让人误解他的意思。 这个名称很容易让人理解为从A-Z的排序颠倒成Z-A,其实根本不是这么回事。 英文 原版为 inverted index 个人感觉翻译成 反向索引 比较合适。 倒排索引是区别于 正排索引(forward index) 来说的。 解释: 文档是有许多的单词组成的,其中每个单词也可以在同一个文档中重复出现很多次,当然,同一个单词也可以出现在不同的文档中。 正排索引(forward index):从文档角度看其中的单词,表示每个文档(用文档ID标识)都含有哪些单词,以及每个单词出现了多少次(词频)及其出现位置(相对于文档首部的偏移量)。 倒排索引(inverted index,或inverted files):从单词角度看文档,标识每个单词分别在那些文档中出现(文档ID),以及在各自的文档中每个单词分别出现了多少次(词频)及其出现位置(相对于该文档首部的偏移量)。 简单记为: 正排索引:文档 ---> 单词 常规的索引是文档到关键词的映射 倒排索引:单词 ---> 文档 倒排索引是关键词到文档的映射 应用场景: 倒排索引有着广泛的应用场景,比如搜索引擎、大规模数据库索引、文档检索、多媒体检索/信息检索领域等等。总之,倒排索引在检索领域是很重要的一种索引机制。 2、 inverted index