在Python中使用正则表达式

正则表达式,又称规则表达式。(英语:Regular Expression,在代码中常简写为regex、regexp或RE),计算机科学的一个概念。正则表通常被用来检索、替换那些符合某个模式(规则)的文本。正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑。—— 百度百科

Python语言包含了处理正则表达式的引擎,在介绍如何使用Python处理正则表达式之前,先来了解一下常用的正则表达式语法,请看下表:

语法 解释说明 正则表达式 匹配的字符串
literal 完整匹配给定的字符串 foo foo
re1|re2 匹配给定的字符串re1或者re2 foo|bar foo
bar
. 匹配除了\n外的任意单个字符 b.b bab
^ 匹配字符串的开头部分 ^Dear DearAll
$ 匹配字符串的结尾部分 End$ Happy End (Search)
* 匹配前一个字符0次或者多次 abc* ab
abccc
+ 匹配前一个字符1次或者多次 abc+ abc
abccc
? 匹配前一字符0次或者1次 abc? ab
abc
{N} 匹配前一个字符N次 ab{3}c abbbc
{M, N} 匹配前一个字符M到N次。如果M省略,则匹配0到N次;如果N省略,则匹配M到无限次 ab{2,5}c abbc
abbbbc
[...] 匹配中括号中的任意单一字符 a[aeiou]c aac
aic
auc
[x-y] 匹配中括号中的指定范围的任意单一字符 a[0-9]c
a[A-Za-z]c
a5c
ahc
[ ^ ...] 不匹配中括号中的任意单一字符,或者任意指定范围内的单一字符 a[aiou]c<br>a[A-Za-z]c abc
a0c
(...) 匹配一组字符串,其中...可以是通过正则表达式表示 a(abc|def)c
a(a*b)c
adefc
aaaaabc
\d 匹配任意的数字,与[0-9]类似。(\D则相反,不匹配任何的数字) data\d+.txt data001.txt
\w 匹配任意的字母和数字,与[A-Za-z0-9_]。(\W则相反,不匹配任何的数字字母) \w+@\w+.com 匹配邮件地址xxx@yyy.com
\b 匹配字符串中任意位置的开始部分(要和^区分开)。举例来说,\bthe可匹配一个字符串中以the开头的任意单词。\B和\b相反,匹配字符串中不以某某开始的部分 \bthe the man is cool.
He is in the room.

在Python中,内置了re模块来处理正则表达式。使用的时候,只需要import re即可。下面是常用的几个方法:

方法名 说明 (参考表格后面的例子理解)
match 根据给定的模式,从给定的字符串的开始位置匹配,匹配成功则返回匹配的对象
search 根据给定的模式,查找给定的字符串中匹配模式的部分
group 对于有分组的正则表达式,调用group()的时候将返回完整的匹配字符串;当调用group(N)(N从1开始)时,返回第N个分组。如果正则表达式没有分组,则返回完整的匹配。
groups 对于有分组的正则表达式,返回一个包含所有分组匹配的tuple;如果正则表达式没有分组,调用该方法将返回NONE。

关于match和search的区别,我们来通过一个例子了解一下。(请注意,下面的例子采用的3.x的语法)

match的例子

>>> import re
>>> m = re.match(r'hi','This is a dog')
>>> print(m)
None
>>> 

上面的例子中,试图在This is a dog中匹配hi。我们可以看到,实际上This中实际是包含了hi,但正如上面表格中所描述:match会根据给定的正则表达式,从头开始匹配。回到这个例子中,这里的正则表达式是hi,那么从头开始匹配的意思是从h开始匹配,接着是i,完整匹配成功才算是匹配上。在给定的字符串中,是以T开头的,这显然匹配失败了。

search的例子

>>> import re
>>> m = re.search(r'hi', 'This is a dog')
>>> print(m)
<_sre.SRE_Match object; span=(1, 3), match='hi'>

上面的例子,和match例子使用的正则表达式和待匹配字符串一样,但是是可以匹配成功的。原因是,在比对This is a dog的时候,发现T匹配不上则接着网络搜索继续匹配。

group和groups的例子

>>> import re
>>> m = re.match(r'\d{8}','87890987')
>>> m.group()
'87890987'
>>> m = re.match(r'(\d{3})-(\d{8})','010-87890987')
>>> m.group()
'010-87890987'
>>> m.group(1)
'010'
>>> m.group(2)
'87890987'
>>> m.groups()
('010', '87890987')

上面的例子中,第一个例子是无分组的正则表达式,可以匹配8位数字。而第二个例子中,是一个有分组的正则表达式。正则表达式中通过括号来表示分组,因此第二个例子有两个分组,这种情况下:调用group()返回完整的匹配;调用group(N)返回第N个分组;调用groups()则返回所有分组的tuple。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 199,711评论 5 468
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 83,932评论 2 376
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 146,770评论 0 330
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 53,799评论 1 271
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 62,697评论 5 359
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,069评论 1 276
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,535评论 3 390
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,200评论 0 254
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,353评论 1 294
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,290评论 2 317
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,331评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,020评论 3 315
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,610评论 3 303
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,694评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,927评论 1 255
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,330评论 2 346
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 41,904评论 2 341

推荐阅读更多精彩内容

  • 正则表达式到底是什么东西?字符是计算机软件处理文字时最基本的单位,可能是字母,数字,标点符号,空格,换行符,汉字等...
    狮子挽歌阅读 2,132评论 0 9
  • 初衷:看了很多视频、文章,最后却通通忘记了,别人的知识依旧是别人的,自己却什么都没获得。此系列文章旨在加深自己的印...
    DCbryant阅读 3,979评论 0 20
  • 注:本篇文章只为方便查看,特此保留,如有冒犯,敬请谅解!!! 本文目标 30分钟内让你明白正则表达式是什么,并对它...
    阿杰Alex阅读 1,473评论 0 10
  • 这是一场不同凡响的夏天。 假若我记忆中的线条没出差错,于影和静水的初见大抵是在十年前的夏末,重逢在一年前的盛夏,而...
    没有影子的花栗鼠阅读 243评论 0 2
  • 如图所示,第一,语文老师是喜欢诚实的孩子的。第二,想要文章别具一格,首先得有别具一格的思想,否则,还是按照...
    最怜天上月q阅读 916评论 0 0