机器学习各种距离优缺点

1 欧式距离

欧氏距离（Euclidean distance）也称欧几里得度量、欧几里得度量，是一个通常采用的距离定义，它是在m维空间中两个点之间的真实距离。在二维和三维空间中的欧氏距离的就是两点之间的距离。
在这里插入图片描述

**缺点：**就大部分统计问题而言，欧氏距离是不能令人满意的。（每个坐标对欧氏距离的贡献是同等的。当坐标表示测量值时，它们往往带有大小不等的随机波动，在这种情况下，合理的方法是对坐标加权，使变化较大的坐标比变化较小的坐标有较小的权系数，这就产生了各种距离。当各个分量为不同性质的量时，“距离”的大小与指标的单位有关。它将样品的不同属性（即各指标或各变量）之间的差别等同看待，这一点有时不能满足实际要求。没有考虑到总体变异对距离远近的影响。

2 曼哈顿距离

曼哈顿距离是由十九世纪的赫尔曼·闵可夫斯基所创词汇，是种使用在几何度量空间的几何学用语，用以标明两个点在标准坐标系上的绝对轴距总和
在这里插入图片描述
图中红线代表曼哈顿距离，绿色代表欧氏距离，也就是直线距离，而蓝色和黄色代表等价的曼哈顿距离。高纬度曼哈顿距离计算公式如下.

曼哈顿距离的一个优点是计算速度快他的应用例如在西洋棋盘当中.

3 切比雪夫距离

两个高维度向量中,每个维度之差绝对值的最大值.例如两个i维的向量 $x_1(x_{11},x_{12}....x_{1n}), x_2(x_{21},x_{22},...x_{2n})$
在这里插入图片描述

4 闵可夫斯基距离(Minkowski Distance)

闵氏距离不是一种距离，而是一组距离的定义。
(1) 闵氏距离的定义
两个n维变量 $a(x_{11},x_{12},…,x_{1n})$ 与 $b(x_{21},x_{22},…,x_{2n})$ 间的闵可夫斯基距离定义为：
在这里插入图片描述

其中p是一个变参数。

当p=1时，就是曼哈顿距离

当p=2时，就是欧氏距离

当p→∞时，就是切比雪夫距离

(2)闵氏距离的缺点

闵氏距离，包括曼哈顿距离、欧氏距离和切比雪夫距离都存在明显的缺点。

举个例子：二维样本(身高,体重)，其中身高范围是150~190, 而体重的范围是60 ~ 100，有三个样本：a(180,50)，b(190,50)，c(180,60)。那么a与b之间的闵氏距离（无论是曼哈顿距离、欧氏距离或切比雪夫距离）等于a与c之间的闵氏距离，但是身高的10cm真的等价于体重的10kg么？因此用闵氏距离来衡量这些样本间的相似度很有问题。
简单说来，闵氏距离的缺点主要有两个：(1)将各个分量的量纲(scale)，也就是“单位”当作相同的看待了。(2)没有考虑各个分量的分布（期望，方差等)可能是不同的。

5 标准欧式距离

标准化欧氏距离是针对简单欧氏距离的缺点而作的一种改进方案。标准欧氏距离的思路：既然数据各维分量的分布不一样，好吧！**那我先将各个分量都“标准化”到均值、方差相等吧。**均值和方差标准化到多少呢？这里先复习点统计学知识吧，假设样本集X的均值(mean)为m，标准差(standard deviation)为s，那么X的“标准化变量”表示为：
$X^* = \frac{X-m}{S}$

标准化后的值 = ( 标准化前的值－分量的均值 ) /分量的标准差

经过简单的推导就可以得到两个n维向量 $a(x_{11},x_{12},…,x_{1n})$ 与 $b(x_{21},x_{22},…,x_{2n})$ 间的标准化欧氏距离的公式：
　　在这里插入图片描述
　　如果将方差的倒数看成是一个权重，这个公式可以看成是一种加权欧氏距离

6 马氏距离

有M个样本向量 $X_1~X_m$ ，协方差矩阵记为S，均值记为向量 $\mu$ ，则其中样本向量 $X 到\mu$ 的马氏距离表示为：
在这里插入图片描述
而其中向量 $X_i$ 与 $X_j$ 之间的马氏距离定义为：

若协方差矩阵是单位矩阵（各个样本向量之间独立同分布）,则公式就成了：

也就是欧氏距离了。