TF-IDF原理
1. TF TF--Term Frequency,词条(Term )在本文中出现的频率;此值越高,表明该词条越重要。 2. IDF IDF--Inverse Document Frequency,含有词条(Term)文档频率的倒数,再取对数;此值越小,表明该词条越集中。 3. TF-IDF tf-idf = tf*idf 4. Python实现 # coding:utf-8 import math import operator from collections import defaultdict 来源: https://www.cnblogs.com/py-algo/p/11934428.html