statement:这里的文本相似度不是指语义相似度,仅仅指字符重叠度
sudo apt-get install python-Levenshtein
import Levenshtein as lst
>>> lst.distance('as','asd')
1
>>> lst.ratio('as','asd')
0.8
>>> lst.ratio('ase','asd')
0.6666666666666666
>>> lst.distance('ase','asd')
1
>>> lst.distance('as','as')
0
>>> lst.distance('好的','好像')
3
>>> lst.ratio('好的','好像')
0.5
>>> lst.ratio('好的还可以','好像')
0.47619047619047616
>>> lst.ratio('好像是','好像')
0.8
>>>
页可以根据余弦定理:
TF-IDF与余弦相似性的应用(二):找出相似文章
http://www.ruanyifeng.com/blog/2013/03/cosine_similarity.html
来源:oschina
链接:https://my.oschina.net/u/105637/blog/733229