字符串包含

字符串包含

题目描述:

给定两个分别由字母组成的字符串A和字符串B,字符串B的长度比字符串A短。请问,如何最快地判断字符串B中所有字母是否都在字符串A里?

为了简单起见,我们规定输入的字符串只包含大写英文字母,请实现函数bool StringContains(string &A, string &B)

比如,如果是下面两个字符串:
String 1:ABCD
String 2:BAD
答案是true,即String2里的字母在String1里也都有,或者说String2是String1的真子集。

如果是下面两个字符串:
String 1:ABCD
String 2:BCE
答案是false,因为字符串String2里的E字母不在字符串String1里。

同时,如果string1:ABCD,string 2:AA,同样返回true。

分析和解法:

解法一:暴力搜索

首先,最简单的一个办法就是拿String2中的每一个字符都在String1中搜索一边,如果没有当前字符,则退出循环,返回false;否则继续搜索下一个字符,直至结束,返回true。
源代码如下:

#include<iostream>
#include<string>

using namespace std;

bool StringContain(string &a, string &b)
{
    for(int i = 0; i < b.length(); ++i)
    {   
        int j;
        for(j = 0; (j < a.length()) && (a[j] != b[i]); ++j)
            ;      //这个是循环的结束,不是笔误,当时的一个坑,我找了半天都没看到。。。迷之尴尬 
        if(j == a.length()) return false;
    } 
    return true;
}

int main()
{
    string str1, str2;
    getline(cin, str1);
    getline(cin, str2);
    cout<<StringContain(str1, str2);
    return 0;
}

分析:假设n是字符串String1的长度,m是字符串String2的长度,那么此算法,需要O(n*m)次操作。显然,时间开销太大,应该找到一种更好的办法。

解法二:排序+线性扫描

如果想要减少扫描次数的话,先进行排序,再进行线性扫描不失为一个好的办法。但是要注意的一点是这种方法改变了字符串,如不想改变原来的字符串,可以复制一个副本,进行参数传递。
源代码如下:

#include<iostream>
#include<string>
#include<algorithm>

using namespace std;

bool StringContain(string &a, string &b)
{
    sort(a.begin(), a.end());
    sort(b.begin(), b.end());
    //注意A B中可能包含重复字符,所以注意A下标不要轻易移动
    for(int pa = 0, pb = 0; pb < b.length();++pb)  
    {
        while((pa < a.length()) && (a[pa] < b[pb]))
            ++pa;
        if((pa >= a.length()) || (a[pa] > b[pb]))
            return false;
    }
    return true; 
}

int main()
{
    string str1, str2;
    getline(cin, str1);
    getline(cin, str2);
    cout<<StringContain(str1, str2);
    return 0;
}

分析:两个字符串的排序需要(常规情况)O(m log m) + O(n log n)次操作,之后的线性扫描需要O(m+n)次操作。另外,使用计数排序的算法还可以优化时间复杂度。

解法三:素数乘积取余

这个是我从书上学到的一种很巧妙的方法,它借助于素数乘积取余来判断一个字符所对应的素数是否被包含,由此得出这个字符是否被包含。详情请看下面的解释:

假设有一个仅由字母组成字串,让每个字母与一个素数对应,从2开始,往后类推,A对应2,B对应3,C对应5,......。遍历第一个字串,把每个字母对应素数相乘。最终会得到一个整数。

利用上面字母和素数的对应关系,对应第二个字符串中的字母,然后轮询,用每个字母对应的素数除前面得到的整数。如果结果有余数,说明结果为false。如果整个过程中没有余数,则说明第二个字符串是第一个的子集了(判断是不是真子集,可以比较两个字符串对应的素数乘积,若相等则不是真子集)。

思路总结如下:

  • 按照从小到大的顺序,用26个素数分别与字符'A'到'Z'一一对应。
  • 遍历长字符串,求得每个字符对应素数的乘积。
  • 遍历短字符串,判断乘积能否被短字符串中的字符对应的素数整除。
  • 输出结果。

源代码如下:

#include<iostream>
#include<string>

using namespace std;

bool StringContain(string &a, string &b)
{
    const int p[26] = {2,3,5,7,11,13,17,19,23,19,31,37,41,43,47,53,59,61,67,71,73,79,83,89,97,101};
    int sum = 1;
    for(int i = 0; i < a.length(); ++i)
    {
        int x = p[a[i] - 'A'];  //仅针对大写字母
        if(sum % x)    sum *= x; 
    }
    for(int i = 0; i < b.length(); ++i)
    {
        int y = p[b[i] - 'A'];
        if(sum % y)    return false;
    }
    return true;
}
int main()
{
    string str1, str2;
    getline(cin, str1);
    getline(cin, str2);
    cout<<StringContain(str1, str2);
    return 0;
}

分析:如前所述,算法的时间复杂度为O(m+n),最好的情况为O(n)(遍历短的字符串的第一个数,与长字符串素数的乘积相除,即出现余数,便可退出程序,返回false),n为长字串的长度,空间复杂度为O(1)。但是此方法只有理论意义,因为整数乘积很大,有溢出风险。

解法四:哈希表

这个也是书上提供的一种思路。

事实上,可以先把长字符串a中的所有字符都放入一个Hashtable里,然后轮询短字符串b,看短字符串b的每个字符是否都在Hashtable里,如果都存在,说明长字符串a包含短字符串b,否则,说明不包含。

再进一步,我们可以对字符串A,用位运算(26bit整数表示)计算出一个“签名”,再用B中的字符到A里面进行查找。
源代码如下:

#include<iostream>
#include<string>

using namespace std;

bool StringContain(string &a, string &b)
{
    int hash = 0;   //我们用其中的26位来表示是否含有字符 
    for(int i = 0; i < a.length(); ++i)
        hash |= (1 << (a[i] - 'A'));   //把1左移若干位,1是标志位,表示有该字符
    for(int i = 0; i < b.length(); ++i)
        if((hash & (1 << (b[i] - 'A'))) == 0)   
            return false;
    return true;
}

int main()
{
    string str1, str2;
    getline(cin, str1);
    getline(cin, str2);
    cout<<StringContain(str1, str2);
    return 0;
}

分析:这个方法的实质是用一个整数代替了hashtable,空间复杂度为O(1),时间复杂度还是O(n + m)。这是目前来说,最好的方法。

特别注意:

  • 一定要注意边界的处理和数据规模的问题,避免因溢出导致的错误
  • 一定要注意对于重复字符的处理
  • 以上程序仅针对于大写字母的处理
  • 如果stringA[i]是小写字母,那么stringA[i] - 'A'的值将大于等于32,此时(1<<(stringA[i] - 'A'))的结果将超出int的取值范围。也许你会觉得这有什么难的,把int hash =0; 重新定义为long long hash =0;不就解决问题了吗?然而这是一个坑。因为“<<”是根据它的左值的类型来判断位移后的值是否在有效取值范围内的,我们在代码中使用了(1<<(stringA[i] - 'A')),所以移位操作是根据1的类型(即int)进行判断的,从而左移32位就超出了取值范围。处理方法可参考: 算法练习 - 字符串包含

参考资料:《编程之法》The Art of Programming By July

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 199,519评论 5 468
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 83,842评论 2 376
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 146,544评论 0 330
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 53,742评论 1 271
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 62,646评论 5 359
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,027评论 1 275
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,513评论 3 390
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,169评论 0 254
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,324评论 1 294
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,268评论 2 317
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,299评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,996评论 3 315
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,591评论 3 303
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,667评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,911评论 1 255
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,288评论 2 345
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 41,871评论 2 341

推荐阅读更多精彩内容

  • 题目描述 给定两个分别由字母组成的字符串A和字符串B,字符串B的长度比字符串A短。请问,如何最快地判断字符串B中所...
    赵星宇阅读 644评论 0 3
  • 1. 字符串包含 给定两个分别由字母组成的字符串A和字符串B,字符串B的长度比字符串A短。请问,如何最快地判断字符...
    HongMok阅读 619评论 1 0
  • 题目:给定字符串a和b,快速判断字符串b中所有字符都在字符串a中(所有字符都为大写英文字母) 样例: a = "A...
  • 本文转自:http://www.cnblogs.com/lidabo/p/5225868.html 1)字符串操作...
    XiaohuiLI阅读 9,469评论 0 0
  • 最近喜欢吃鸡,相对猪肉鸡肉的蛋白更容易被消化和吸收,肉质鲜嫩煎炸烹煮皆宜,身心受伤时来碗浓浓鸡汤自是极好的。想...
    甜蜜姑娘阅读 119评论 0 1