python文本相似度算法详解
1.读取文档 2.对要计算的多篇文档进行访问 3.将文档整理成指定格式,方便后续进行计算 4.计算出词语的频率 5.对频率低的词语进行过滤 6.通过语料库建立词典 7.加载要对比的文档 8.将要对比的文档通过doc2bow转化为稀疏向量 9.对稀疏向量进行进一步处理,得到新语料库 10.将新语料库通过tfidfmodel进行处理,得到tfidf 11.通过token2id得到特征数 12.稀疏矩阵相似度,建立索引 13.得到最终相似度结果 from gensim import corpora, models, similarities import jieba from collections import defaultdict dog = "C:/Users/xt/PycharmProjects/similar/dog.txt" # 1.读取文档 cat = "C:/Users/xt/PycharmProjects/similar/cat.txt" d1 = open(dog).read() # 2.对要计算的多篇文档进行访问 c1 = open(cat).read() data1 = jieba.cut(d1) # 3.将文档整理成指定格式,方便后续进行计算 data2 = jieba.cut(c1) data11 = '' for item in data1: data11