最长公共子序列/串问题

基础概念

  • 字符串:S[0..n],S是一个字符串,长度为n。S本质上是一个字符数组,数组的每个元素都是一个字符;
  • 子序列:设T为S的一个子序列,则如果T[ti]和T[tj]为T的两个字符,ti<tj,那么T[ti]和T[tj]也都是S的字符,且对应的下标si<sj。举个例子,S为adbfhgs,那么abfg就是S的一个子序列,abcfg就不是S的子序列;
  • 子串:子串是一种特殊的子序列,它要求tj - ti = sj - si,即子串的字符要在S中连续。还是设S为adbfhgs,那么adbf是S的一个子串,abfg就不是。
  • 后缀:S[0..n],那么S[i..n] (i>=0)都是S的后缀;
  • 公共子序列/串:如果R既是S的子序列/串,又是T 的子序列/串,那么R就是S和T 的公共子序列/串。

最长公共子序列

问题描述

有两个字符串S[0...m]和T[0...n],求S和T的所有最长公共子序列的长度。

例子

设S=adbfhgs,T=hadeubgs,那么S和T的最长公共子序列为R=adbgs,长度为5。

分析

首先考虑暴力求解。枚举S的所有子序列,总共有2m个;然后再枚举T的所有子序列,总共有2n个;最后一一匹配,总的时间复杂度为O(2^(m+n))。显然是不可行的。

考虑一种动态规划的方法。

  • 状态表####

dp[i][j],i和j分别是S和T的下标,dp[i][j]为当前状态下的最长公共子序列的长度。其中i和j分别从0开始递增,即状态表是从左往右,从上往下依次被填满的(假设左上方的i和j都是0)。

  • 基础状态####

dp[0][j]=0,dp[i][0]=0。显然当一个字符串为空时,两字符串的最长公共子序列就是空字符串,长度为0

  • 状态转移方程####

dp[i][j]=dp[i-1][j-1]+1, S[i]=T[j];
dp[i][j]=max(dp[i-1][j],dp[i][j-1]), S[i]!=T[j].
当S[i]=T[j]时,如果i-1和j-1状态下的最长公共子序列为R,那么i和j状态下的最长公共子序列就为R+S[i] (T[j]),所以长度会加1;
当S[i]!=T[j],i和j状态下的最长公共子序列要么是i-1和j状态下的最长公共子序列,要么是i和j-1状态下的最长公共子序列,所以长度取这两个最长公共子序列的长度的最大值。

打印

到目前为止,我们已经得到了一张填好的状态表。那么怎么通过这张状态表打印出对应的最长公共子序列呢?

回溯打印最长公共子序列

从状态表的右下方开始,向上回溯。具体算法详见代码。

代码

#include <iostream>
#include <string>
#include <vector>
#include <algorithm>

using namespace std;

int main()
{
    string s, t;
    cin >> s >> t;

    int slen = s.length();
    int tlen = t.length();

    vector<vector<int>> dp(slen + 1, vector<int>(tlen + 1, 0));

    for (int i = 1; i <= slen; i++)
        for (int j = 1; j <= tlen; j++)
            if (s[i - 1] == t[j - 1])
                dp[i][j] = dp[i - 1][j - 1] + 1;
            else
                dp[i][j] = max(dp[i - 1][j], dp[i][j - 1]);

    int lcslen = dp[slen][tlen]; // 最长公共子序列长度

    string lcs; // 最长公共子序列
    lcs.resize(lcslen);
    
    // 从右下向左上遍历状态表
    int i = slen, j = tlen, k = lcslen;
    while (i > 0 && j > 0)
    {
        if (s[i - 1] == t[j - 1])
        {
            lcs[--k] = s[i - 1];
            i--; j--;
        }
        else if (dp[i - 1][j] < dp[i][j - 1])
            j--;
        else
            i--;
    }

    cout << "longest common subsequence length: " << lcslen << endl;
    cout << "longest common subsequence: " << lcs << endl;

    return 0;
}

最长公共子串

问题描述

有两个字符串S[0...m]和T[0...n],求S和T的所有最长公共子串的长度。

例子

设S=adbfhgs,T=hadeubgs,那么S和T的最长公共子串为R=ad或者gs,长度为2。

分析

首先考虑暴力求解。枚举S的所有子串,总共有(m2+m)/2个;然后再枚举T的所有子序列,总共有(n2+n)/2个;最后一一匹配,总的时间复杂度为O(m2*n2),也是不可行的。可以使用KMP算法把匹配的复杂度降到O(n),但是总的复杂度O(m^2*n)还是太高。

考虑一种动态规划的方法。

  • 状态表####

dp[i][j],i和j分别是S和T的下标。注意,这里的dp[i][j]并不是当前状态下的最长公共子串的长度,而是最长公共后缀的长度。举个例子,S为abxcdef,T为frcdef,当i=4,j=3,即i指向d,j指向也是d,则当前字符串abxcd和frcd的最长公共后缀为cd。要明确后缀就是从后往前看,依次进行匹配就行了。其中i和j分别从0开始递增,即状态表是从左往右,从上往下依次被填满的(假设左上方的i和j都是0)。

  • 基础状态####

dp[0][j]=0,dp[i][0]=0。显然当一个字符串为空时,两字符串的最长公共子串就是空字符串,长度为0

  • 状态转移方程####

dp[i][j]=dp[i-1][j-1]+1, S[i]=T[j];
dp[i][j]=0, S[i]!=T[j];
lcslen=max(lcslen, dp[i][j]).
当S[i]=T[j]时,如果i-1和j-1状态下的最长公共后缀为R,那么i和j状态下的最长公共后缀就为R+S[i] (T[j]),所以长度会加1;设S为abxcdef,T为frcdef,i=4(指向d),j=3(指向d),i-1和j-1状态下的最长公共后缀为c,i和j状态下的最长公共后缀就是cd,长度为2;
当S[i]!=T[j],设S为abxcdef,T为frcdef,i=4(指向d),j=4(指向e),则当前字符串abxcd和frcde的最长公共后缀为空,长度为0。
lcslen是最长公共子串的长度,每次更新状态的时候更新。

打印

构建状态表的时候,保存每次检测到的最长公共子串的尾下标,最后从尾下标开始往前查找字符串,直到找到两个不相同的字符为止。

代码

#include <iostream>
#include <string>
#include <vector>
#include <algorithm>

using namespace std;

int main()
{
    string s, t;
    cin >> s >> t;

    int slen = s.length();
    int tlen = t.length();

    vector<vector<int>> dp(slen + 1, vector<int>(tlen + 1, 0));

    int lcsi, lcsj; // 最长公共子串的尾下标
    int lcslen = 0; // 最长公共子串长度
    for (int i = 1; i <= slen; i++)
        for (int j = 1; j <= tlen; j++)
            if (s[i - 1] == t[j - 1])
            {
                dp[i][j] = dp[i - 1][j - 1] + 1;
                if (dp[i][j] > lcslen)
                {
                    lcslen = dp[i][j];
                    lcsi = i;
                    lcsj = j;
                }
            }
                
    string lcs;// 最长公共子串
    lcs.resize(lcslen);

    for (int i = lcsi - 1, j = lcsj - 1, k = lcslen; 
        i >= 0 && j >= 0; )
    {
        if (s[i] == t[j])
        {
            lcs[--k] = s[i];
            i--; j--;
        }
        else
            break;
    }

    cout << "longest common substring length: " << lcslen << endl;
    cout << "longest common substring: " << lcs << endl;

    return 0;
}
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 200,045评论 5 468
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 84,114评论 2 377
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 147,120评论 0 332
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 53,902评论 1 272
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 62,828评论 5 360
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,132评论 1 277
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,590评论 3 390
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,258评论 0 254
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,408评论 1 294
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,335评论 2 317
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,385评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,068评论 3 315
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,660评论 3 303
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,747评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,967评论 1 255
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,406评论 2 346
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 41,970评论 2 341

推荐阅读更多精彩内容