向量空间模型 - 维基百科,自由的百科全书
向量空间模型 - 维基百科,自由的百科全书 向量空间模型 维基百科,自由的百科全书 跳转到: 导航 , 搜索 向量空间模型 (或者 词组向量模型 ) 作为 向量 的标识符(比如索引),是一个用来表示文本文件的代数模型。它应用于信息过滤、 信息检索 、 索引 以及关联规则。SMART是第一个使用这个模型的信息检索系统。 目录 [ 隐藏 ] 1 定义 2 应用 3 范例: tf-idf 权重 4 优点 5 局限 6 基于模型的以及扩展的向量空间模型 7 以向量空间模型为工具的软件 7.1 免费开放的软件资源 8 进一步参考 9 另见 10 参考文献 [ 编辑 ] 定义 文档和问题都用向量来表示。 每一维都相当于是一个独立的词组。如果这个术语出现在了文档中,那它在向量中的值就非零。已经有很多不同的方法来计算这些值,这些值叫做(词组)权重。其中一种广为人知的算法就是tf_idf权重(见下面的例子)。 我们是根据应用来定义 词组 的。典型的词组就是一个单一的词、 关键词 、或者较长的短语。如果字被选为词组,那么向量的维数就是出现在词汇表中不同字的个数。 向量运算能通过查询来比较各文档。 [ 编辑 ] 应用 通过文档相似度理论的假设,比较每个文档向量和原始查询向量(两个向量的类型是相同的)之间的角度偏差,使得在文档中搜索关键词的关联规则是能够计算的。 实际上