cosine
Jaccard系数(杰卡德系数)
cosine更适合稠密空间,Jaccard和tfidf都适合稀疏空间.
狭义Jaccard相似度,计算两个集合之间的相似程度,元素的“取值”为0或1
对集合A和B,Jaccard相似度计算如下:
Jaccard(A, B)= |A intersectB| / |A union B|
相似度数值在[0, 1]之间,当A==B的时候,为1. 优缺点,就是元素的取值只能是0或者1,无法利用更丰富的信息
由相似度,可以转换成Jaccard距离:
Jaccard distance (A, B) = 1- Jaccard(A, B)
TF-IDF
大概估计文本相似度时,使用TF就可以了。当我们使用文本相似度进行检索的类似场景时(如搜索引擎中的query relevence的计算),此时TF-IDF更好一些。
- tf/tf-idf为每一个词汇计算得到一个数字,而word embedding将词汇表示成向量
- tf/tf-idf在文本分类的任务中表现更好一些,而word embedding的方法更适用于来判断上下文的语义信息(这可能是由word embedding的计算方法决定的)。
曼哈顿距离
如果直接使用AB的欧氏距离(欧几里德距离:在二维和三维空间中的欧氏距离的就是两点之间的距离),则必须要进行浮点运算,如果使用AC和CB,则只要计算加减法即可,这就大大提高了运算速度,而且不管累计运算多少次,都不会有误差。
欧几里得距离(Eucledian Distance)
欧氏距离是最常用的距离计算公式,衡量的是多维空间中各个点之间的绝对距离,当数据很稠密并且连续时,这是一种很好的计算方式。
因为计算是基于各维度特征的绝对数值,所以欧氏度量需要保证各维度指标在相同的刻度级别,比如对身高(cm)和体重(kg)两个单位不同的指标使用欧式距离可能使结果失效。
明可夫斯基距离(Minkowski distance)
来源:CSDN
作者:搬砖工友
链接:https://blog.csdn.net/weixin_37226516/article/details/104201001