正则表达式(正则表达式必知必会)

什么是正则表达式

简单来说,正则表达式是一些用来匹配和处理文本的字符串。它主要有两种使用场景:一种是查找特定的信息(搜索),另一种是查找并编辑特定的信息(替换)。
参考正则表达式30分钟入门:(https://deerchao.cn/tutorials/regex/regex.htm)

匹配单个字符

  1. 匹配特定纯文本
    普通字符可作为正则表达式,匹配该字符本身。
  2. 匹配任意字符
    正则表达式中,.可以匹配任何一个单个的字符,除了换行符外,类似于DOS中的?字符和SQL中的_(下划线)字符。
  3. 匹配特殊字符
    正则表达式中,\是一个元字符(metacharacter),表示这个字符有特殊含义,而不是字符本身的含义。\后面跟着一个特殊字符,可对该特殊字符转义。要匹配一个特殊字符时,应该由\跟着特殊字符去匹配。比如\.表示匹配一个.

匹配一组字符

元字符[]用来定义一个字符集合,其含义是必须匹配该集合中的一个字符。定义一个字符集合具体做法有两种:一是把所有的字符都列举出来,该做法通常用于要列举的字符较少时,例如[abc];二是利用元字符-以字符区间的方式给出,例如[0-9]将匹配0-9中的任意一个。注意在定义一个字符区间的时候,一定要避免让这个区间的尾字符小于它的首字符,如[3-1],这种区间是无意义的,而且往往会让整个模式失效。-(连字符)是一个特殊的元字符,作为元字符它只能用在[]之间。在字符集合外,-只是一个普通字符,只能匹配-自身,因此-字符不需要转义。
此外,字符集合可以用元字符^来求非:这将把给定集合里的字符强行排除在匹配操作之外。例如[^a-b]将匹配除了a,b以外的字符。

使用元字符

  1. 对特殊字符转义
    要匹配特殊字符,必须使用\进行转义
    要转义个字符:
$
()
*
+
.
[]
?
\
^
{}
|
'
"
  1. 匹配空白字符
    元字符大致分为两种:一种是用来匹配文本的(比如.),另一种是正则表达式语法要求的(比如[])。匹配非打印空白字符的元字符如下:
\b  Backspace键,匹配一个单词的头尾
\f  换页符
\n  换行符
\r  回车符
\t  制表符
\v  垂直制表符

Windows结束行:\r\n,Unix/Linux结束行:\n,匹配一个空白行可以用\r\n\r\n或者\n\n

  1. 匹配特定的字符类别(字符类)
\d  任何一个数字字符(等价于[0-9])
\D  任何一个非数字字符(等价于[^0-9])
\w  等价于[a-zA-Z0-9]
\W  等价于[^a-zA-Z0-9]
\s  任何一个空白字符(等价于[\f\n\r\t\v])
\S  任何一个非空白字符(等价于[^\f\n\r\t\v])

重复匹配

  1. 有多少个匹配
+: 匹配一个或者多个字符(字.符集合)。[0-9]+会匹配一个或多个数字。+是元字符,要匹配+必须转义:\+。
一般来说,当在字符集合里使用像.、+这样的元字符的时候,元字符会被解释为普通字符,不需要被转义,但转义了也是可以的。
[\w.]的使用效果和[\w\.]是一样的。
*: 匹配零个或者多个字符(字符集合)。*也是一个元字符,要匹配*本身必须使用\*
?: 匹配零个或者一个字符(字符集合)。\?匹配?本身。[\r]?\n匹配Windows或者Unix/Linux下的换行符。
  1. 匹配的重复次数
    在字符或者字符集合后面跟着元字符{和}可以设置要匹配的重复次数。如果要匹配{和}本身,必须使用转义{和}。
[[:xdigit:]]{6}: 匹配336633和FFFFFF等
a{2,4}:匹配2-4个连续的a
a{2,}: 匹配至少连续两个a
  1. 防止过度匹配
    贪婪模式与懒惰模式
*   *?
+   +?
{n, }   {n, }?

位置匹配

  1. 单词边界(boundary)
    边界限定符
    \b用来匹配单词的边界,\b匹配这样的一个位置,它位于一个\w和一个\W之间。
    \B用来这样一个位置,它前后都是\w,或者前后都不是\w。
    \b匹配且只匹配一个位置,不匹配任何字符,即不消耗字符。用\bcat\b匹配到的字符串的长度是3,而不是5。
  2. 字符串边界
    ^匹配字符串的开头, $匹配字符串的结尾。注意^只有出现在一个字符集合里[]并且紧跟在[之后才能发挥取非的作用。
    分行匹配模式
    启用分行匹配模式后,^不仅匹配正常的字符串开头,还将匹配行分隔符(分行符)后面的开始位置(这个位置是不可见的);类似的, $不仅匹配正常的字符串结尾,还将匹配行分隔符(换行符)后面的结束位置。

使用子表达式

  1. 子表达式
    子表达式是一个更大的表达式的一部分,用()括起来,当做一个独立元素来使用。()是元字符,要匹配()自身,必须使用转义序列\(\)
    |是正则表达式里面的或操作符,(19|20)\d{2}匹配年份
    匹配IP地址。一个合法IP地址的各组数字必须且只能符合以下规则:
  • 任何一个1位或者2位数字(0-99)
  • 任何一个以1开头的3位数字(100-199)
  • 任何一个以2开头、第二位数字在0-4之间的3位数字(200-249)
  • 任何一个以25开头、第3位数字在0-5之间的3位数字。(250-255)
    所以可以写出匹配IP地址的正则表达式:
(((\d{1,2})|(1\d{2})|(2[0-4]\d)|(25[0-5]))\.){3}((\d{1,2})|(1\d{2})|(2[0-4]\d)|(25[0-5]))

回溯应用:前后一致匹配

回溯引用指的是模式的后半部分引用在前半部分中定义的子表达式。回溯引用只能用来引用模式里的子表达式(用()括起来的正则表达式片段)。回溯引用匹配通常从1开始计数(\1\2等),第0个匹配用来替代整个表达式。
比如[ ]+(\w+)[ ]+\1用来匹配连续两个重复单词。

前后查找(只匹配不消费)

  1. 向前查找(lookahead)
文本
http://www.forta.com/
https://mail.forta.com/
ftp://ftp.forta.com/
正则表达式
.+(?=:)

只匹配:,不消费它,提取协议。向前查找(和向后查找)匹配本身是有返回结果的,只是这个结果的字节长度永远是0而已。因此,前后查找操作也被成为零宽度匹配操作(zero-width)。

  1. 向后查找(lookbehind)
    提取价格
文本
ABC01:  $23.45
HGG42:  $5.31
Total items found: 4
正则表达式
(?<=\$)[0-9.]+
  1. 前后查找取非
操作符      说明
(?=exp)           正向前查找,匹配exp前面的位置
(?!exp)            负向前查找,匹配后面跟的不是exp的位置
(?<=exp)        正向后查找,匹配exp后面的位置
(?<!exp)         负向后查找,匹配前面不是exp的位置
文本
I paid $30 for 100 apples, 50 oranges.
正则表达式
\b(?<!\$)[0-9.]+\b

嵌入条件

在正则表达式里可以嵌入条件,只有当条件得到(或者没有得到满足时),相应的表达式才会被执行。这种条件可以是一个回溯引用(含义是检查回溯引用是否存在),也可以是一个前后检查操作。

  1. 回溯引用条件
文本
<! -- Nav bar -->
<TD>
<A HREF="/home"><IMG SRC ="/imges/hom.gif"></A>
<IMG SRC="/images/spacer.gif">
<A HREF="/search"><IMG SRC="/images/search.gif"></A>
<IMG SRC="/images/spacer.gif">
<A HREF="/help"><IMG SRC="/images/help.gif"></A>
</TD>
正则表达式
(<[Aa]\s+[^>]+>\s*)?<[Ii][Mm][Gg]\s+[^>]+>(?(1)\s*</[Aa]>)

语法:(?(backreference)true-regex),注意?(1)检查第一个回溯引用是否存在,回溯引用编号不用被转义。
(?(backreference)true-regex|false-regex)

文本
123-456-7890
(123)456-7890
(123)-456-7890
1234567890
123 456 7890
正则表达式
(\()?\d{3}(?(1)\)|-)\d{3}-\d{4}
  1. 前后查找条件
文本
11111
22222
33333
44444-4444
正则表达式
\d{5}(?(?=-)-\d{4})
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 200,841评论 5 472
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 84,415评论 2 377
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 147,904评论 0 333
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,051评论 1 272
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,055评论 5 363
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,255评论 1 278
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,729评论 3 393
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,377评论 0 255
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,517评论 1 294
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,420评论 2 317
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,467评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,144评论 3 317
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,735评论 3 303
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,812评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,029评论 1 256
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,528评论 2 346
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,126评论 2 341

推荐阅读更多精彩内容

  • 什么是正则表达式 正则表达式(regular expression)描述了一种字符串匹配的模式(pattern),...
    小貔阅读 1,412评论 0 7
  • 正则表达式必知必会 匹配单个字符 匹配纯文本 相当于文本查找的功能(CMD + F)。但是一般的正则表达式引擎默认...
    三十一_iOS阅读 1,075评论 0 1
  • 正则表达式到底是什么东西?字符是计算机软件处理文字时最基本的单位,可能是字母,数字,标点符号,空格,换行符,汉字等...
    狮子挽歌阅读 2,132评论 0 9
  • 本文译自 制作正则引擎的作者 Jan Goyvaerts 为工具 RegexBuddy 写的教程版权归原作者所有注...
    极客圈阅读 3,257评论 0 25
  • 清风徐来来无影 静水微波波无痕 曼妙清姿滋味老 绿杨稀处出村西 但使婴宁还又在 留恋书生情可期 襄阳路远瓜州客 蓬...
    陶缨子阅读 515评论 4 13