TF-IDF原理

做~自己de王妃 提交于 2019-12-05 16:48:20

1. TF

TF--Term Frequency,词条(Term )在本文中出现的频率;此值越高,表明该词条越重要。

2. IDF

IDF--Inverse Document Frequency,含有词条(Term)文档频率的倒数,再取对数;此值越小,表明该词条越集中。

3. TF-IDF

tf-idf = tf*idf

4. Python实现

# coding:utf-8

import math
import operator

from collections import defaultdict

 

标签
易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!