idf

tf-idf feature weights using sklearn.feature_extraction.text.TfidfVectorizer

匿名 (未验证) 提交于 2019-12-03 01:55:01
可以将文章内容翻译成中文,广告屏蔽插件可能会导致该功能失效(如失效,请关闭广告屏蔽插件后再试): 问题: this page: http://scikit-learn.org/stable/modules/feature_extraction.html mentions: TfidfVectorizer that combines all the option of CountVectorizer and TfidfTransformer in a single model. then I followed the code and use fit_transform() on my corpus. How to get the weight of each feature computed by fit_transform()? I tried: In [39]: vectorizer.idf_ --------------------------------------------------------------------------- AttributeError Traceback (most recent call last) in () ----> 1 vectorizer.idf_ AttributeError: 'TfidfVectorizer' object

文本挖掘预处理之TF-IDF

匿名 (未验证) 提交于 2019-12-03 00:37:01
原文: http://www.cnblogs.com/pinard/p/6693230.html  在 文本挖掘预处理之向量化与Hash Trick 中我们讲到在文本挖掘的预处理中,向量化之后一般都伴随着TF-IDF的处理,那么什么是TF-IDF,为什么一般我们要加这一步预处理呢?这里就对TF-IDF的原理做一个总结。 1. 文本向量化特征的不足     在将文本分词并向量化后,我们可以得到词汇表中每个词在各个文本中形成的词向量,比如在 文本挖掘预处理之向量化与Hash Trick 这篇文章中,我们将下面4个短文本做了词频统计: corpus =[ " I come to China to travel " , " This is a car polupar in China " , " I love tea and Apple " , " The work is to write some papers in science " ]     不考虑停用词,处理后得到的词向量如下: [[0 0 0 1 1 0 0 0 0 0 0 0 0 0 0 2 1 0 0] [0 0 1 1 0 1 1 0 0 1 0 0 0 0 1 0 0 0 0] [1 1 0 0 0 0 0 1 0 0 0 0 1 0 0 0 0 0 0] [0 0 0 0 0 1 1 0 1 0 1 1 0 1 0

TF, IDF和TF-IDF

被刻印的时光 ゝ 提交于 2019-11-28 17:37:06
在相似文本的推荐中,可以用TF-IDF来衡量文章之间的相似性。 一、TF(Term Frequency) TF的含义很明显,就是词出现的频率。 公式: 在算文本相似性的时候,可以采用这个思路,如果两篇文章高频词很相似,那么就可以认定两片文章很相似。 二、IDF(Inverse Document Frequency) IDF为逆文档频率。 公式: 一个词越在语料库出现的次数越多,则权重应该越不重要;反之越少则应该越重要。 比如,如果要检索两个文档的相似度,通过统计权重大的词来进行匹配更为合理,如果统计词频高的词汇,例如很多文章都有(如果,很多,反之这些词汇),那么根本就抓不住相似性的衡量指标。如果两篇描述动物的文章我们如果能统计一些共有的权重较高的词,例如(海洋,鱼)等等则相对来说能更好的当作相似指标来进行计算。 三、TF-IDF 目的:综合考虑TF和IDF。 公式: 当一个词的词频很高并且逆文档率很高则越能代表这片文章的内容。 来源: https://www.cnblogs.com/ylxn/p/10213420.html

TF-IDF算法原理

▼魔方 西西 提交于 2019-11-28 17:36:54
转自:http://www.cnblogs.com/biyeymyhjob/archive/2012/07/17/2595249.html wikipedia:https://en.wikipedia.org/wiki/Tf%E2%80%93idf 概念 TF-IDF(term frequency–inverse document frequency)是一种用于资讯检索与资讯探勘的常用加权技术。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜寻引擎应用,作为文件与用户查询之间相关程度的度量或评级。除了TF-IDF以外,因特网上的搜寻引擎还会使用基于连结分析的评级方法,以确定文件在搜寻结果中出现的顺序。    原理 在一份给定的文件里, 词频 (term frequency, TF) 指的是某一个给定的词语在该文件中出现的次数。这个数字通常会被归一化(分子一般小于分母 区别于IDF),以防止它偏向长的文件。(同一个词语在长文件里可能会比短文件有更高的词频,而不管该词语重要与否。)    逆向文件频率 (inverse document frequency, IDF) 是一个词语普遍重要性的度量

TF-IDF算法原理

↘锁芯ラ 提交于 2019-11-28 17:36:43
原文: https://www.cnblogs.com/biyeymyhjob/archive/2012/07/17/2595249.html   TF-IDF(term frequency–inverse document frequency)是一种用于资讯检索与资讯探勘的常用加权技术。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。 字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降 。TF-IDF加权的各种形式常被搜寻引擎应用,作为文件与用户查询之间相关程度的度量或评级。除了TF-IDF以外,因特网上的搜寻引擎还会使用基于连结分析的评级方法,以确定文件在搜寻结果中出现的顺序。    原理:      在一份给定的文件里, 词频 (term frequency, TF) 指的是某一个给定的词语在该文件中出现的次数。这个数字通常会被归一化(分子一般小于分母 ,区别于IDF),以防止它偏向长的文件。同一个词语在长文件里可能会比短文件有更高的词频,而不管该词语重要与否。 逆向文件频率 (inverse document frequency, IDF) 是一个词语普遍重要性的度量。某一特定词语的IDF,可以由总文件数目除以包含该词语之文件的数目,再将得到的商取对数得到。    

TF-IDF原理

点点圈 提交于 2019-11-28 17:36:30
什么是TF-IDF TF-IDF(Term Frequency-Inverse Document Frequency, 词频-逆文件频率). 是一种用于资讯检索与资讯探勘的常用加权技术。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。 上述引用总结就是, 一个词语在一篇文章中出现次数越多, 同时在所有文档中出现次数越少, 越能够代表该文章. 这也就是TF-IDF的含义. TF 词频 (term frequency, TF) 指的是某一个给定的词语在该文件中出现的 次数 。这个数字通常会被归一化(一般是词频除以文章总词数), 以防止它偏向长的文件 但是, 需要注意, 一些通用的词语对于主题并没有太大的作用, 反倒是一些出现频率较少的词才能够表达文章的主题, 所以单纯使用是TF不合适的。权重的设计必须满足:一个词预测主题的能力越强,权重越大,反之,权重越小。所有统计的文章中,一些词只是在其中很少几篇文章中出现,那么这样的词对文章的主题的作用很大,这些词的权重应该设计的较大。IDF就是在完成这样的工作. IDF 逆向文件频率 (inverse document frequency, IDF) IDF的主要思想是:如果包含 词条t 的文档越少,

TF-IDF原理

北慕城南 提交于 2019-11-28 17:36:12
1.TF-IDF原理 TF-IDF(Term Frequency-Inverse Document Frequency),中文叫做词频-逆文档频率。在文本挖掘(Text Mining)和信息检索(Information Retrieval)领域具有广泛的应用。 TF-IDF通过计算每个词的TF-IDF值,筛选出每个文档中最关键一些词。 那么问题来了,TF-IDF是怎么定义“关键”?作为一个文档中的关键词,我想应该同时满足如下2个特征: 特征1:出现次数多,存在感强,这个没毛病; 特征2:作为某文档的关键词,它尽可能只在这一个文档中出现。类似“的”、“是”、“在”...这样的词,存在感强的都感知不到它的存在了,原因就是因为它——不够关键,因此,关键词要尽可能的唯一。 TF-IDF(Term Frequency–Inverse Document Frequency),就是平衡这两者的产物,它由两个部分相乘得到:TF × IDF,下面分别介绍一下: 1. TF TF不用说了意思很明显,TF值越大,词的存在感越强,他是将特征1进行量化。 这里注意,我们之前的词频是计算词出现的次数,它这里除了文档总词数作为分母,只是做了一个标准化,因为有的文章长,有的文章短,出现100次的不一定算多,出现3次的不一定就少。有时候也用其他作为分母进行标准化(留个问题,你知道会用哪些么?) 2. IDF

solr默认评分算法详解

三世轮回 提交于 2019-11-25 16:53:55
评分算法公式:计算查询词和文档的关联度(评分),评分越高相关度越高 变量含义解释: q : 查询词 d :一个文档,这里指文章标题+作者+摘要 t :查询词,分词后的每个词 函数含义解析: tf 函数 ,词频 i df函数 ,反转文档频率,文档总数/含有这个词的文档数,降低在所有文档中的高频词对搜索词含义的影响,举例:我、的、这类词出现的在所有文档都出现所以要降低它们在搜索查询词中的权重 getBoost 函数 , 获取查询对词指定的权重(暂时无特殊处理) norm函数 , 由先三个函数相乘获得 Document boost - 文档加权,在索引之前使用 doc.setBoost() Field boost - 字段加权,也在索引之前调用 field.setBoost() lengthNorm(field) - 由字段内的 Token 的个数来计算此值,字段越短,评分越高(注意:lucene 相似度默认实现:计算文档长度时没有调用lengthNorm方法文档长度,而是通过TFIDFSimilarity读取,实际是在创建索引的时候,通过DefaultSimilarity加入的,如果要修改需要重写该方法 ) 存储: public float lengthNorm(FieldInvertState state) { final int numTerms; if