【Hadoop】MapReduce练习:多job关联实现倒排索引
概述 倒排索引 (英语:Inverted index),也常被称为反向索引、置入档案或反向档案,是一种索引方法,被用来存储在全文搜索下某个单词在一个文档或者一组文档中的存储位置的映射。它是文档检索系统中最常用的数据结构。通过倒排索引,可以根据单词快速获取包含这个单词的文档列表。倒排索引主要由两个部分组成:“单词词典”和“倒排文件”。 倒排索引有两种不同的反向索引形式: 一条记录的水平反向索引(或者反向档案索引)包含每个引用单词的文档的列表。 一个单词的水平反向索引(或者完全反向索引)又包含每个单词在一个文档中的位置。 后者的形式提供了更多的兼容性(比如短语搜索),但是需要更多的时间和空间来创建。 现代搜索引擎的索引都是基于倒排索引。相比“签名文件”、“后缀树”等索引结构, “倒排索引” 是实现单词到文档映射关系的最佳实现方式和最有效的索引结构。 多Job串联 :第一个job产生的输出结果,是第二个job的输入,第二个job执行的前提是获得第一个job的输出结果,第二个job依赖于第一个job,二者是串行执行关系。job1----->job2----->jobn 示例 需求:有大量的文本(文档、网页),需要建立搜索索引。 示例:有a.txt,b.txt,c.txt三个文件,每个文件分别对应一些关键词; a.txt如下: map reduce MapReduce index