1. TF
TF--Term Frequency,词条(Term )在本文中出现的频率;此值越高,表明该词条越重要。
2. IDF
IDF--Inverse Document Frequency,含有词条(Term)文档频率的倒数,再取对数;此值越小,表明该词条越集中。
3. TF-IDF
tf-idf = tf*idf
4. Python实现
# coding:utf-8 import math import operator from collections import defaultdict