day17-总结

正则表达式

一、什么是正则表达式

正则表达式是处理字符串的工具，通过不同的正则符号来描述字符串的规则

二、正则符号（正则表达式的语法）

1.匹配字符

1）普通字符：
除了在正则中有特殊功能和特殊意义的符号以外的字符都是普通字符

# 匹配一个字符串有三个字符，分别是'a''b''c'
re_str = r'abc'
result = fullmatch(re_str, 'abc')
print(result)

2).
匹配任意一个字符

# 匹配一个字符串长度是8，前面三个字符串是123，中间是两个任意字符
re_str = r'abc..123'
result = fullmatch(re_str, 'abcde123')
print(result)

3.\w
匹配一个数字、字母或者_(在ASCII码表中)

# 匹配一个长度是4的字符串，第一个字符是数字、字母或者_
re_str = r'\wabc'
result = fullmatch(re_str, '3abc')
print(result)

4)\d
匹配任意一个数字字符

# 匹配一个长度是五的字符型，前两个字符是任意数字，后面三个是任意字符
re_str = r'\d\d...'
result = fullmatch(re_str, '12jio')
print(result)

5)\s
匹配任意一个空白字符
空白字符包括：空格字符、换行字符、制表符···

re_str = r'a\s\sb'
print(fullmatch(re_str, 'a  b'))

6)\大写字母
\D - 匹配除了数字字符以外的任意字符（匹配一个非数字字符）
\S - 匹配一个非空白字符

re_str = r'\Dabc\S'
print(fullmatch(re_str, '9abch'))

7)[字符集]
匹配字符集中出现的任意字符
例如：
[abc] - 匹配abc中任意一个字符
[赵钱孙李] - 匹配赵钱孙李中的字符

b.
[1-9] - 匹配1到9中的任意一个字符（字符编码值递增）
[a-z] - 匹配任意一个小写字母
[A-Z] - 匹配任意一个大写字母
[a-zA-Z] - 匹配任意一个字母D
[a-zA-Z\d_] - 匹配任意一个字母、数字、下划线
[ \t\n] - 匹配任意一个空白字符
[\u4e00-\u9fa5] - 匹配任意一个中文

# 匹配一个长度是4的字符串，第一个字符是1或者3或者7，后面是abc
re_str = r'[137]abc'
print(fullmatch(re_str, '7abc'))

re_str = r'[!-&]123'
print(fullmatch(re_str, '#123'))

8）[^字符集]
匹配不在字符集中的字符
[^abc] - 匹配任意一个不是a、b、c的字符
[^2-8] - 匹配任意一个不是2到8的字符
[^\u4e00-\u9fa5] - 匹配任意一个不是汉字的字符

print(fullmatch(r'[^2-8]abc', '1abc'))

2.检测字符

所有的检测符号都不会影响字符串的长度
1）\b
检测是否是单词边界
单词边界 - 能够将两个单词隔开并且不会产生歧义的任意符号：空格字符、标点符号、字符串开头和结尾
匹配规则：先去掉\b对字符串进行匹配，如果匹配成功再检查\b所在的位置是否是单词边界

# 匹配一个字符串长度是6，每一个字符分别是abc123，并且要求abc和123之间是单词边界
re_str = r'abc\b123'
print(fullmatch(re_str, 'abc123'))

re_str = r'hi.\bare'
print(fullmatch(re_str, 'hi are'))

re_str = r'\b[\u4e00-\u9fa5][\u4e00-\u9fa5]\b'

2)^
检测^所在的位置是否是字符串开头
注意：这儿的^是在[]外面的

re_str = r'\d\d\d'
print(fullmatch(re_str, '345'))
print(search(re_str, '345===rer12300k0ke9h88hf0jf8hf875fhw03h8'))
print(findall(re_str, '345===rer123000k0ke9h88hf0jf8hf875fhw03h8'))

3)$
检测$的位置是否是字符串的结尾

re_str = r'\d\d\d$'
print(fullmatch(re_str, '345'))
print(search(re_str, '345===rer12300k0ke9h88hf0jf8hf875fhw03h8'))
print(findall(re_str, '345===rer123000k0ke9h88hf0jf8hf875fhw03h8'))

3.控制字符次数的符号

1)*
匹配0次或者多次
例如：
a* - a出现0次或多次，123,123a，123aa，123aaa
123\d* - 123后面出现0个或者多个任意数字字符，123,1234,12345,123456
123[mnxy9]* - 123,123m,123mn

re_str = r'abc0*123'
print(fullmatch(re_str, 'abc000123'))

2)+
匹配1次或者多次

re_str = r'123a+'
print(fullmatch(re_str, '123a'))

3)?
匹配0次或者1次

print(fullmatch(r'_?123', '_123'))

4){}
1）{N} - 匹配N次
a{3} - 匹配三个a
\d{3} - 匹配三个任意数字

2）{M,N} - 匹配M到N次（匹配至少M次最多N次）
3){N,} - 匹配N次或者更多次
4){,N} - 最多N次

# 匹配电话号码
re_str = r'1[3-9]\d{9}'
# 匹配密码：要求6-12位的数字或者字母
re_str = r'[a-zA-Z\d]{6,12}'
print(fullmatch(re_str, '1dsrewf43'))

5)贪婪和非贪婪
在匹配次数不确定的时候，会出现贪婪和非贪婪两种情况：默认情况都是贪婪。

1）什么是贪婪：在能够匹配成功的前提下，匹配次数尽可能多
2）什么是非贪婪：在能够匹配成功的前提下，匹配次数尽可能少(在匹配次数后面加？)

re_str = 'a.*?e'
print(search(re_str, 'hesafrae'))

re_str = r'a.+b'
print(search(re_str, 'a123b234b123'))  # a123b234b
re_str = r'a.+?b'
print(search(re_str, 'a123b234b123'))  # a123b

4.分支

1）|
正则1|正则2 - 先用正则1去匹配，如果不成功则用正则2去匹配
正则1和正则2中只要有一个匹配成功就行

re_str = r'abc|123'
print(fullmatch(re_str, 'abc'))

re_str = r'\d{2,5}|[a-z]+123'
print(fullmatch(re_str, 's123'))

5.分组

1）（）
将括号里面的内容作为一个整体
①整体操作
r'(\d\d|[A-Z]{2})abc' - 匹配一个字符串后面是abc，前面是两个数字或者两个大写字母
r'([a-z]\d){3}' - a8n7j8

②分组
a.分组截取：方便后面分段或者分情况取不同匹配结果
b.分组重复：在正则中用\X来重复前面第X个分组匹配到的内容
注意：\X的前面必须有这个分组

re_str = r'(\d{3})([a-z]{3})'
print(fullmatch(re_str, '344hsj'))
print(findall(re_str, '你还是123ncj====nv789jid;;;kfj123vn222dmv'))

re_str = r'(\d{3})[a-z]{3}\1'
print(fullmatch(re_str, '123abc123'))

6.转义字符

1）加\
在正则中有特殊功能和特殊意义的符号前加\，让这个符号的特殊功能消失

re_str = r'\d{3}\.[a-z]{3}'
print(fullmatch(re_str, '234.eqr'))

re_str = r'a\+[a-z]{3}\\b'
print(fullmatch(re_str, r'a+eqr\b'))

2)加[ ]
在[ ]中有特殊意义的符号:a.^放在最开头 b.-放在两个字符之间
其他符号包括：.+?*$,这个单独的符号在[]中都表示这个符号本身

re_str = r'\d{3}[.][a-z]{3}'
print(fullmatch(re_str, '123.sdf'))

三、re模块

re模块是python提供的，专门针对正则表达式应用的相关函数
1.compile(正则表达式) -> 将正则表达式转换成正则对象
2.字符串匹配
fullmatch(正则表达式，字符串) - 让正则表达式和字符串完全匹配
match(正则表达式，字符串) - 匹配字符串开头
以上两个方法的结果：匹配失败结果是None，匹配成功会返回匹配对象

re_str = r'\d{3}'
print(fullmatch(re_str, '123'))  # <re.Match object; span=(0, 3), match='123'>
print(match(re_str, '12378qwq'))  # <re.Match object; span=(0, 3), match='123'>

1)匹配对象
a.获取匹配到的字符串
匹配对象.group（） - 获取整个正则表达式匹配到的字符串，结果是字符串
匹配对象.group(N) - 获取整个正则表达式中第N个分组匹配到的字符串

result = match(r'(\d{3})=([a-z]{2})', '234=am当前方法去取')
print(result)
print(result.group())
print(result.group(1))
print(result.group(2))

b.获取匹配到的字符串在原字符串中的位置信息
匹配对象.span（） -> 返回匹配结果在原字符串中下标范围：[开始下标，结束下标]
匹配对象.span（N） -> 返回返回第N个分组匹配到的结果在原字符串中下标范围：[开始下标，结束下标]

result = match(r'(\d{3})=([a-z]{2})', '234=am当前方法去取')
print(result)
print(result.span())
print(result.span(2))
stat, end = result.span(1)
print(stat, end)

c.获取原字符串
匹配对象.string

result = match(r'(\d{3})=([a-z]{2})', '234=am当前方法去取')
print(result.string)

3.查找
1)search（正则表达式，字符串） - 在字符串中查找第一个满足表达式的子串，如果找到了结果是匹配对象，如果找不到结果是None
2)findall(正则表达式，字符串) - 获取字符串中所有满足正则表达式的子串，返回一个列表
注意：如果正则表达式中有分组，列表中的匹配结果只会取分组匹配到的内容
3)finditer(正则表达式，字符串) - 获取字符串中多有满足正则表达式的子串，返回值是一个迭代器，元素是匹配对象

result = search(r'\d{3}', '是否234ash==347jshdf')
print(result)

result = findall(r'(\d{3})([a-z]{2})', '四四234mm==发几份nij90jfnn8bv8938nf234nn')
print(result)  # [('234', 'mm'), ('938', 'nf'), ('234', 'nn')]

result = findall(r'(\d{3})[a-z]{2}', '四四234mm==发几份nij90jfnn8bv8938nf234nn')
print(result)  # ['234', '938', '234']

result = findall(r'\d{3}[a-z]{2}', '四四234mm==发几份nij90jfnn8bv8938nf234nn')
print(result)  # ['234mm', '938nf', '234nn']

result = finditer(r'(\d{3})([a-z]{2})', '四四234mm==发几份nij90jfnn8bv8938nf234nn')
group = []
group1 = []
group2 = []
for x in result:
    group.append(x.group())
    group1.append(x.group(1))
    group2.append(x.group(2))
print(group, group1, group2)  # ['234mm', '938nf', '234nn'] ['234', '938', '234'] ['mm', 'nf', 'nn']

4.切割
split(正则表达式，字符串) - 将字符串中将正则表达中的子串作为切割点对字符串进行切割；返回值是一个字符串列表

result = split(r'\d+', '我孵化器343和vjj8hv348d非')
print(result)

5.替换
sub(正则表达式，字符串1，字符串2) - 将字符串2中所有满足正则表达式的子串都替换成字符串1

最后编辑于：2019.08.13 20:12:54

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 200,045评论 5赞 468
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 84,114评论 2赞 377
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 147,120评论 0赞 332
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 53,902评论 1赞 272
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 62,828评论 5赞 360
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,132评论 1赞 277
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,590评论 3赞 390
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,258评论 0赞 254
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,408评论 1赞 294
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,335评论 2赞 317
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,385评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,068评论 3赞 315
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,660评论 3赞 303
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,747评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 30,967评论 1赞 255
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,406评论 2赞 346
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 41,970评论 2赞 341