字符串编辑距离

    1. 在给定位置上插入一个字符
    2. 替换任意字符
    3. 删除任意字符

    写一个程序,返回最小操作数,使得对源串进行这些操作后等于目标串,源串和目标串的长度都小于2000。

    此题常见的思路是动态规划,假如令dp[i][j] 表示源串S[0…i] 和目标串T[0…j] 的最短编辑距离,其边界:dp[0][j] = j,dp[i][0] = i,那么我们可以得出状态转移方程:

    • dp[i][j] =min{
      • dp[i-1][j] + 1 , S[i]不在T[0…j]中
      • dp[i-1][j-1] + 1/0 , S[i]在T[j]
      • dp[i][j-1] + 1 , S[i]在T[0…j-1]中

    }

    接下来,咱们重点解释下上述3个式子的含义

    • 关于dp[i-1][j] + 1, s.t. s[i]不在T[0…j]中的说明
      • s[i]没有落在T[0…j]中,即s[i]在中间的某一次编辑操作被删除了。因为删除操作没有前后相关性,不妨将其在第1次操作中删除。除首次操作时删除外,后续编辑操作是将长度为i-1的字符串,编辑成长度为j的字符串:即dp[i-1][j]。
      • 因此:dp[i][j] = dp[i-1][j] + 1。
    • 关于dp[i-1][j-1] + 0/1, s.t. s[i] 在T[j]的说明
      • 若s[i]经过编辑,最终落在T[j]的位置。
      • 则要么s[i] == t[j],s[i]直接落在T[j]。这种情况,编辑操作实际上是将长度为i-1的S’串,编辑成长度为j-1的T’串:即dp[i-1][j-1];
      • 要么s[i] ≠ t[j],s[i] 落在T[j]后,要将s[i]修改成T[j],即在上一种情况的基础上,增加一次修改操作:即dp[i-1][j-1] + 1。

    换一个角度,其实就是字符串对齐的思路。例如把字符串“ALGORITHM”,变成“ALTRUISTIC”,那么把相关字符各自对齐后,如下图所示:

    把图中上面的源串S[0…i] = “ALGORITHM”编辑成下面的目标串T[0…j] = “ALTRUISTIC”,我们枚举字符串S和T最后一个字符s[i]、t[j]对应四种情况:(字符-空白)(空白-字符)(字符-字符)(空白-空白)。

    由于其中的(空白-空白)是多余的编辑操作。所以,事实上只存在以下3种情况:

    • 下面的目标串空白,即S + 字符X,T + 空白,S变成T,意味着源串要删字符
      • dp[i - 1, j] + 1
    • 上面的源串空白,S + 空白,T + 字符,S变成T,最后,在S的最后插入“字符”,意味着源串要添加字符
      • dp[i, j - 1] + 1
    • 上面源串中的的字符跟下面目标串中的字符不一样,即S + 字符X,T + 字符Y,S变成T,意味着源串要修改字符
      • dp[i - 1, j - 1] + (s[i] == t[j] ? 0 : 1)

    参考代码如下:

    1. int EditDistance(char *pSource, char *pTarget)
    2. {
    3. int srcLength = strlen(pSource);
    4. int targetLength = strlen(pTarget);
    5. int i, j;
    6. //边界dp[i][0] = i,dp[0][j] = j
    7. for (i = 1; i <= srcLength; ++i)
    8. {
    9. dp[i][0] = i;
    10. for (j = 1; j <= targetLength; ++j)
    11. {
    12. dp[0][j] = j;
    13. }
    14. for (i = 1; i <= srcLength; ++i)
    15. {
    16. for (j = 1; j <= targetLength; ++j)
    17. {
    18. if (pSource[i - 1] == pTarget[j - 1])
    19. dp[i][j] = dp[i - 1][j - 1];
    20. }
    21. else
    22. {
    23. dp[i][j] = 1 + min(dp[i - 1][j], dp[i][j - 1]);
    24. }
    25. }
    26. }

    1、传统的编辑距离里面有三种操作,即增、删、改,我们现在要讨论的编辑距离只允许两种操作,即增加一个字符、删除一个字符。我们求两个字符串的这种编辑距离,即把一个字符串变成另外一个字符串的最少操作次数。假定每个字符串长度不超过1000,只有大写英文字母组成。

    2、有一亿个数,输入一个数,找出与它编辑距离在3以内的数,比如输入6(0110),找出0010等数,数是32位的。

    实际上,关于这个“编辑距离”问题在搜索引擎中有着重要的作用,如搜索引擎关键字查询中拼写错误的提示,如下图所示,当你输入“”后,因为没有这个单词“Jult”,所以搜索引擎猜测你可能是输入错误,进而会提示你是不是找“July”:
    5.2 字符串编辑距离 - 图1