流程图
一.创建文档
文档域
注: 每一个Doucment可以有多个field,不同的Document可以有不同的field,同一个Document可以有相同的field(域名和域值都相同)
每一个文档都有唯一的编号
二.分析文档
将文档中的大写转化成小写,清除 is a 标点 停用词等过程生成语汇单元,每一个单词叫一个Term,不同的域中拆分出来的的单词是不同的term file_name 和file_content中的相同单词属于不同的域,
term key:域 value: spring只有key和value相同的才是一个东西
三.创建索引