编辑距离
针对两个字符串(如英文字母)的差异程度的量化测量,量测方式是看至少需要多少次的处理才能将一个字符串变成另一个字符串。
编辑距离应用
一、可应用于NLP,如拼写检查可以根据一个拼错的字和其他正确的字的编辑距离,判断哪一个(或哪几个)是比较可能的字。
二、编辑距离可以用在生物信息学,判断两个DNA的类似程度。
算法基本原理
用d[i,j]个步骤,表示串是s[1,…,i]转换为t[1,…,j]所需要的最少步骤的次数。我们要想得到s[1,…,i]经过最少次数的增加、删除、替换变成t[1,…,j],那么我们就必须在之前可以以最少次数的增加、删除、替换,使得串s和串t只需要再做一次操作或者不做就可以完成s[1,…,i]到t[1,…,j]的转换。
d[i][j]实现有三种方法
1、第一个单词的前i位变成第二个单词的前j-1位,然后再插入一个字符(d[i][j-1]+1)
2、第一个单词的前i-1位变成第二个单词的前j位,然后再删去一个字符(d[i-1][j]+1)
3、第一个单词的前i-1位变成第二个单词的前i-1位,然后替换最后一个字符,如果最后一个字符相同,就不用替换,反之,如果不同就替换最后一位(d[i-1][j-1] + 1)
代码如下:
class Solution:
def minDistance(self, word1, word2):
n = len(word1)
m = len(word2)
#如果其中一个字符串是空的
if n * m == 0:
return n + m
d = [[0]*(m + 1) for _ in range(n + 1)]
for i in range(n + 1):
d[i][0] = i
for j in range(m + 1):
d[0][j] = j
for i in range(1, n + 1):
for j in range(1, m + 1):
Insert = d[i - 1][j] + 1
Delete = d[i][j - 1] + 1
Exchange = d[i - 1][j - 1]
if word1[i - 1] != word2[j - 1]:
Exchange += 1
d[i][j] = min(Insert, Delete, Exchange)
return d[n][m]
test = Solution()
print(test.minDistance("horse", "ros"))
来源:CSDN
作者:Mr. Luoj
链接:https://blog.csdn.net/weixin_37763870/article/details/103630601