python比较文本相似度(not semantical)

时光总嘲笑我的痴心妄想 提交于 2020-03-03 23:24:17

statement:这里的文本相似度不是指语义相似度,仅仅指字符重叠度

sudo apt-get install python-Levenshtein


 import Levenshtein as lst
>>> lst.distance('as','asd')
1
>>> lst.ratio('as','asd')
0.8
>>> lst.ratio('ase','asd')
0.6666666666666666
>>> lst.distance('ase','asd')
1
>>> lst.distance('as','as')
0
>>> lst.distance('好的','好像')
3
>>> lst.ratio('好的','好像')
0.5
>>> lst.ratio('好的还可以','好像')
0.47619047619047616
>>> lst.ratio('好像是','好像')
0.8
>>> 

​

页可以根据余弦定理:

TF-IDF与余弦相似性的应用(二):找出相似文章

http://www.ruanyifeng.com/blog/2013/03/cosine_similarity.html

标签
易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!