jieba分词是目前最好的 python中文分词组件。在讲解jieba分词之前,我们先了解一下中文分词的一些概念:
- 最常用的TF-IDF
什么是TF-IDF呢?要分成2个部分来理解。
- TF,词频——一个词在文章中出现的次数
- IDF,在词频的基础上,赋予每个词一个权重,体现该词的重要性。
这是什么意思呢?我们来看个例子。
这是一条财经类新闻
上周 / 沉寂 / 一段 / 时间 / 的 / 白酒股 / 卷土重来 / ;/ 其中 / 古井贡酒 / 的 / 股价 / 创出 / 了 / 历史新高 / , / 这段 / 时间 / ……
…
在这篇文章中
上周:出现 1 次
时间:出现 2 次
白酒股:出现 1 次
的:出现 2 次
股价:出现 1 次
…
在以上的信息中,1、2、1、2、1等等这些次数就是TF词频。
通常来说,一个词越重要,就会在文章中出现多次,这个词也就能反映出这篇文章的特性,但是你会发现,这篇文章出现最多次数的是 时间、的,它们反映出文章的特性了吗?当然没有!所以,我们还要对每个词进行分类赋予权重:
最常见的词(“的”,“是”,“了”)权重最小
比较常见的词(“时间”,“上周”,“中国”)权重比较小
很少见的词(“白酒股”,“股价”,“养殖”)权重最大
这里的权重就是IDF
将TF和IDF相乘,就得到了TF-IDF值,某个词对文章越重要,该值越大,于是排在前面的几个词,就是这篇文章的关键词。
当然,这个TF-IDF值不用我们自己算,在jieba里面,已经帮我们算好了TF-IDF,直接拿来用就好了。
jieba分词源码地址:https://github.com/fxsjy/jieba
来源:CSDN
作者:毛爷爷~
链接:https://blog.csdn.net/DawnYao/article/details/103928181