概述
编辑距离(Minimum Edit Distance,MED),由俄罗斯科学家 Vladimir Levenshtein 在1965年提出,也因此而得名 Levenshtein Distance。
在信息论、语言学和计算机科学领域,Levenshtein Distance 是用来度量两个序列相似程度的指标。通俗地来讲,编辑距离指的是在两个单词
之间,由其中一个单词转换为另一个单词所需要的最少单字符编辑操作次数。在这里定义的单字符编辑操作有且仅有三种:
- 插入(Insertion)
- 删除(Deletion)
- 替换(Substitution)
譬如,"kitten" 和 "sitting" 这两个单词,由 "kitten" 转换为 "sitting" 需要的最少单字符编辑操作有:
1.kitten → sitten (substitution of "s" for "k")
2.sitten → sittin (substitution of "i" for "e")
3.sittin → sitting (insertion of "g" at the end)
因此,"kitten" 和 "sitting" 这两个单词之间的编辑距离为 3 。
JAVA实现
其实看这个概述,只有三种编辑操作方式,但是看起来还不是太明白,根本就不知道怎么实现,又插入?又删除?又替换的?后来在网上查到了一个比较简单的实现,首先定义一个二维数组,
X轴为Kitten,Y轴为sitting。其实就是有两个规则:
1)如果比较值相等,就获取标红位置的三个值中最小的一个
2)如果比较值不相等,就获取标红位置的三个值中最小一个进行+1
最后一个位置就是要 把"kitten" 和 "sitting" 这两个单词之间的编辑距离为 3 。
这样就比较直观的看看出来是怎么实现的了,代码就不贴了。
int a = array2[j - 1][i];//相当于图中3的位置
int b = array2[j][i - 1];//相当于图中1的位置
int c = array2[j - 1][i - 1];//相当于图中2的位置
//比较三个值,获取最小的一个
.....
来源:oschina
链接:https://my.oschina.net/pl123/blog/3167293