Python字符串匹配

假设有两个字符串:t(目标串,长度n)和p(模式串,长度m),通常m<<n。

朴素串匹配算法

  • 优点
    简单易懂
  • 缺点
    效率低
    时间复杂度分析:最坏的情况是每一趟都在模式串的最后遇到不匹配,那么每一趟比较的次数是n-m+1, 总的比较次数是 mx(n-m+1), 因为m<<n, 所以时间复杂度为O(mxn)

代码实现:

def naive_match(t,p):
    m, n = len(p), len(t)
    i, j = 0, 0
    while i < m and j < n:
        if p[i] == t[j]:
            i, j = i+1, j+1
        else:    #字符不匹配,考虑t串的下一个位置
            i, j = 0, j-i+1 # j-i+1为相对位置加1
    if i == m:  # p串完全匹配后(i++)i的值变为m
        return j-i  #此时j的值减去p串的长度(i或者m)就是所在下标
    return 'No Match!' #无匹配则返回'No Match'
#实例化
t = ' abc  de'
p = 'de'
print naive_match(t, p)
#输出 6
#换一种想法去实现
def naive_match1(p,t):
    m, n, i = len(p), len(t), 0
    for i in range(n-m+1):
        if t[i:i+n-1] == p:
            return i
    return 'No match!'
p = 'abc'
t = 'abdabc'
print naive_match1(p,t)

KMP算法(无回溯串匹配算法)

分析:算法的关键在于构建一个跳转表(pnext表),当第i个字符匹配失败时不是重新从头开始匹配(例如朴素串匹配算法),而是通过构建好的跳转表跳转到第j个字符。例如:

0 1 2 3 4 5 6 7 # 字符串的位置
a b c a b c d a # p串
0 0 0 0 1 2 3 0 # pnext表,如果匹配不成功 跳转的位置

解释:当第6位的字符d匹配失败后可以直接跳转到第3位的a, 因为它们之前的abc是相同的,不需要再匹配一遍了。

更近一步分析:如果p串i位置与t串的j位置匹配失败了,先去查找p串i位置之前的从0开始的串(假设[0,k], k<i)与t串j位置之前的串([j-k,j])是否有相同的片段,如果有找出那个k值,若木有则按照朴素匹配算法进行。

移动的位数 = 已匹配的字符数 - 对应的部分匹配值(查表)

如何得到p串每个字符的部分匹配值(如何生成next表)?
对于每个p串的字符,前缀与后缀共有字符的个数就是该字符的部分匹配值。
详细解释

那么如何构造部分匹配表(next表)呢,python代码如下:

Next表 (部分匹配表,跳转表)
def partial_table(p):
    prefix = set() #集合
    postfix = set()
    ret = [0]  #存放p串匹配值,因为第一个字符的匹配值肯定为0,先把0存进去
    for i in range(1,len(p)): #从第二个字符开始
        #获取前i+1个字符串的前缀(例如对于abc,前缀有a,ab)
        #Note:切片[0:3]-->索引0,1,2(第一个索引是0可以省略-->[:3]-->取前三个数)
        #Note:range函数也一样取不到后面的数-->rang(1,3)-->>1,2
        prefix.add(p[:i]) #因为对于不同的字符前缀都有相同的部分,这里只需要添加就行了
        #获取前i+1个字符串的后缀(例如对于abc,后缀有bc,c)
        postfix = {p[j:i+1] for j in range(1,i+1)} #对于不同的字符后缀总是不一样
        ret.append(len(prefix&postfix))
    return ret

KMP算法实现

#-*-coding=utf-8-*-
#KMP
def kmp_match(t, p):
    m,n = len(t),len(p)
    cur = 0  #起始指针cur
    table = partial_table(p)
    while cur <= m-n: #最多做m-n趟匹配
        for i in range(n): #在每一趟比较中
            if s[i+cur]!=p[i]: #匹配不成功时
                cur += max(i - table[i-1], 1) #移动的位数 = 以匹配的字符数 - 匹配值
                break
        else:
            return True
    return False

# 测试
p = 'ABCDABD'
s = 'BBC ABCDAB ABCDABCDABDE'
print partial_table(p)
print kmp_match(s, p)

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 199,393评论 5 467
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 83,790评论 2 376
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 146,391评论 0 330
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 53,703评论 1 270
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 62,613评论 5 359
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,003评论 1 275
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,507评论 3 390
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,158评论 0 254
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,300评论 1 294
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,256评论 2 317
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,274评论 1 328
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,984评论 3 316
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,569评论 3 303
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,662评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,899评论 1 255
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,268评论 2 345
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 41,840评论 2 339

推荐阅读更多精彩内容