向量空间模型

向量空间模型 - 维基百科,自由的百科全书

老子叫甜甜 提交于 2020-03-05 04:57:24
向量空间模型 - 维基百科,自由的百科全书 向量空间模型 维基百科,自由的百科全书 跳转到: 导航 , 搜索 向量空间模型 (或者 词组向量模型 ) 作为 向量 的标识符(比如索引),是一个用来表示文本文件的代数模型。它应用于信息过滤、 信息检索 、 索引 以及关联规则。SMART是第一个使用这个模型的信息检索系统。 目录 [ 隐藏 ] 1 定义 2 应用 3 范例: tf-idf 权重 4 优点 5 局限 6 基于模型的以及扩展的向量空间模型 7 以向量空间模型为工具的软件 7.1 免费开放的软件资源 8 进一步参考 9 另见 10 参考文献 [ 编辑 ] 定义 文档和问题都用向量来表示。 每一维都相当于是一个独立的词组。如果这个术语出现在了文档中,那它在向量中的值就非零。已经有很多不同的方法来计算这些值,这些值叫做(词组)权重。其中一种广为人知的算法就是tf_idf权重(见下面的例子)。 我们是根据应用来定义 词组 的。典型的词组就是一个单一的词、 关键词 、或者较长的短语。如果字被选为词组,那么向量的维数就是出现在词汇表中不同字的个数。 向量运算能通过查询来比较各文档。 [ 编辑 ] 应用 通过文档相似度理论的假设,比较每个文档向量和原始查询向量(两个向量的类型是相同的)之间的角度偏差,使得在文档中搜索关键词的关联规则是能够计算的。 实际上

基于文本向量空间模型的文本聚类算法

一曲冷凌霜 提交于 2019-12-06 01:51:24
基于文本向量空间模型的文本聚类算法 @[vsm|向量空间模型|文本相似度] 本文源地址 http://www.houzhuo.net/archives/51.html vsm概念简单,把对文本内容的处理转化为向量空间中的 向量 计算,以空间上的相似度来直观表达语义上的相似度。 目录 基于文本向量空间模型的文本聚类算法 文本聚类 向量空间模型vsm 文本预处理 获取每篇文档词频 获得相同长度的向量 归一化 idf频率加权 tf-idf加权并归一化 计算向量间的夹角 文本聚类 文本聚类 主要依据聚类假设:同类的文档相似度较大,非同类的文档相似度较小。作为一种 无监督的机器学习 方法,聚类由于不需要训练过程、以及不需要预先对文档手工标注类别,因此具有较高的灵活性和自动化处理能力,成为对文本信息进行有效组织、摘要和导航的重要手段。 向量空间模型vsm 所有的文本都可表现成向量的形式: 向量中的每一维都代表在文档中出现的一个独立词组或单个词,并且我们给每个词组赋予一个 权值 (最简单就是词频,或者广为人知的tf_idf权重)。所以一个文档就会转换成一个n维的向量。 向量夹角公式 接下来就是利用中学所学的的公式来计算向量之间的夹角,夹角越小即代表较高的相似度。当然,我们比较之前需要将两个向量转化为同一维度(下面的代码中将加以演示) 文本预处理: __author__ = 'iothz'

向量空间模型(Vector Space Model)

∥☆過路亽.° 提交于 2019-11-29 11:57:55
搜索结果排序是搜索引擎最核心的构成部分,很大程度上决定了搜索引擎的质量好坏。虽然搜索引擎在实际结果排序时考虑了上百个相关因子,但最重要的因素还是 用户查询与网页内容的相关性 。(ps:百度最臭名朝著的“竞价排名”策略,就是在搜索结果排序时,把广告客户给钱最多的排在前列,而不是从内容质量考虑,从而严重影响了用户体验)。这里要讲的就是: 给定用户搜索词,如何从内容相关性的角度对网页进行排序 。判断网页内容是否与用户查询相关,这依赖于搜索引擎所采用的检索模型,常见的检索模型有:布尔模型、向量空间模型、概率模型和机器学习排序算法等。在我的项目中,使用了向量空间模型(Vector Space Model,VSM),因此这篇文章主要总结一下向量空间模型相关的内容。 向量空间模型是一种 文档表示和相似性计算的工具 ,不仅在搜索领域,在自然语言处理、文本挖掘等领域也是普遍采用的工具。 1. 文档表示 作为表示文档的工具, 向量空间模型把每个文档看做是由 t 维特征组成的一个向量 ,特征的定义可以采取不同方式,最常见的是以单词作为特征,就是从一篇文档中抽取出 t 个关键词,其中每个特征会根据某种算法计算其权重,这 t 维带有权重的特征向量就用来表示这一篇文档。 下图展示了4个文档在3维向量空间中如何表示,比如对于文档2,它由3个带有权重的特征组成{w21, w22, w23}。在实际应用中