正则表达式语法入门

语法规则

正则表达式的语法一般如下,两条斜线中间是正则主体,可以有多个字符,后面可以接修饰符(见下文)
比如: /^abc/i 表示匹配以abc开头的字符串,忽略大小写

1. 简单字符匹配

没有特殊意义的字符都是简单字符,简单字符就代表自身

/123/ // 匹配 123
/abc/ // 匹配 abc
/字符/ // 匹配 字符
2. 转义字符

\后面的字符会代表不同的意思,即为转义字符,主要有以下几个作用:

  • 用于匹配不方便显示的特殊字符,如换行符,回车符等
  • 用于代表某些特定意义,如\w代表匹配任何一个字母或数字或下划线

常用转义字符

转义字符 含义
\n 匹配换行符,等价于 \x0a 和 \cJ
\f 匹配一个换页符,等价于 \x0c 和 \cL
\cx 匹配由x指明的控制字符。例如, \cM 匹配一个 Control-M 或回车符。x 的值必须为 A-Z 或 a-z 之一。否则,将 c 视为一个原义的 'c' 字符
\r 匹配一个回车符。等价于 \x0d 和 \cM
\t 匹配一个制表符,也就是tab键。等价于 \x09 和 \cI
\v 匹配一个垂直制表符,等价于 \x0b 和 \cK。
\x20 20是2位16进制数字,代表对于的字符
\u002B 002B是4位16进制数字,代表对应的字符
\w 匹配任何一个字母或数字或下划线,等价于[a-Z0-9_]
\W 匹配任何一个字母或者数字或者下划线以外的字符,等价于[^0-9a-Z_]
\s 匹配任何空白字符,包括空格、制表符、换页符等等。等价于 [ \f\n\r\t\v]。注意 Unicode 正则表达式会匹配全角空格符
\S 匹配任何非空白字符。等价于 [^ \f\n\r\t\v]
\d 匹配数字字符,等价于[0-9]
\D 匹配非数字字符,等价于[^0-9]
\b 匹配单词的边界
\B 匹配非单词边界
\ 匹配\本身
3.特殊含义字符
字符 含义
\ 将下一个字符标记为或特殊字符、或原义字符、或向后引用、或八进制转义符。例如, 'n' 匹配字符 'n'。'\n' 匹配换行符。序列 '\\' 匹配 "\",而 '\(' 则匹配 "("
. 代表匹配除了换行符(\n)以外的任意一个字符,要匹配 . ,请使用 \.
^ 在字符集里面是非的意思,外部用到是匹配开头的意思
$ 表示匹配结尾的意思,如果设置了RegExp对象的Multiline属性,则 $ 也匹配 '\n' 或 '\r',要匹配 $ 字符本身,请使用 \$
( ) 标记一个子表达式的开始和结束位置。子表达式可以获取供以后使用。要匹配这些字符,请使用 \( 和 \)
* 匹配前面的子表达式零次或多次。要匹配 * 字符,请使用 \*
+ 匹配前面的子表达式一次或多次。要匹配 + 字符,请使用 \+
? 匹配前面的子表达式零次或一次,或指明一个非贪婪限定符。要匹配 ? 字符,请使用 \?
[ 标记一个中括号表达式的开始。要匹配 [,请使用 \[
{ 标记限定符表达式的开始。要匹配 {,请使用 \{
| 指明两项之间的一个选择。要匹配 |,请使用 \|

注意:

  • 使用^和$匹配的是字符串的开头和结尾,\b匹配的是单词的边界,以空格区分,二者不一致
  • 不能将限定符与定位符一起使用。由于在紧靠换行或者单词边界的前面或后面不能有一个以上位置,因此不允许诸如 ^* 之类的表达式
4. 字符集合 [ ]

可以用字符集来实现一类字符的匹配

[abc]  匹配a或者b或者c
[0123456789]或者[0-9]  匹配0到9之间的任一数字

在字符集里面使用^,可代表非得意思

[^12345] 匹配非1-5的数字
[^0-9a-Z_] 匹配非数字非字母非下划线的字符,等同于上面的\W

注意:在[]外使用^表示匹配开头的意思

5. 量词

根据上面的规则,如果需要多次匹配同一规则的字符,如数字,可以写成

[0-9][0-9][0-9]

但是很明显,这样写太过繁杂,针对这种,正则也提供了对应的量词功能,正则中的代表量词的特殊字符有多种写法,如{n}、{m,n}、{m,}、?、+、*等

{n}匹配n次,比如a{2},匹配aa

{m, n}匹配m-n次,优先匹配n次,比如a{1,3},可以匹配aaa、aa、a

{m,}匹配m-∞次,优先匹配∞次,比如a{1,},可以匹配aaaa...

?匹配0次或1次,优先匹配1次,相当于{0,1}

+匹配1-n次,优先匹配n次,相当于{1,}

*匹配0-n次,优先匹配n次,相当于{0,}

上面的[0-9][0-9][0-9]等同于[0-9]{3}

凡是表示范围的量词,都优先匹配上限而不是下限,即贪婪模式,

a{1, 3} // 匹配字符串'aaa'的话,会匹配aaa而不是a

在量词后面加上?,就可以开启非贪婪模式

a{1, 3}? // 匹配字符串'aaa'的话,会匹配a而不是aaa
6.字符边界 ^、$

上面有写到,在[]外使用^表示匹配开头的意思

$表示匹配结尾的意思

此外,\b表示单词的边界

^123   匹配123开头
123$  匹配123结尾
\b123、 123\b  匹配单词以123开头/结尾
7. 选择表达式 |

如果想匹配a或者b,可以使用字符集合[ab],

但是如果想匹配ab或者cd,则需要用到选择表达式 |

ab|cd
8. 分组

分组是正则中非常强大的一个功能,可以让上面提到的量词作用于一组字符,分组的语法是圆括号包裹(xxx)

(123){3}

分组不能放在字符集合[]中,分组中还可以使用选择表达式

(123|456){2} // 匹配 123123、456456、123456、456123
  • 分组捕获与分组引用

分组和捕获在正则表达式中有着密切的联系,一般情况下,分组即捕获,都用小括号完成:

() 表示捕获分组,() 会把每个分组里的匹配的值保存起来, 多个匹配值可以通过数字 n 来查看(n 是一个数字,表示第 n 个捕获组的内容)

但用 () 会有一个副作用,使相关的匹配会被缓存,此时可用 ?: 放在第一个选项前来消除这种副作用

(exp) :分组,并捕获该分组匹配到的文本
(?:exp) :分组,但不捕获该分组匹配到的文本

可参考https://www.cnblogs.com/ljhdo/p/10678281.html

9. 零宽断言

零宽断言用于查找在某些内容(但并不包括这些内容)之前或之后的东西

  • 正向先行断言 匹配表达式前面的位置 (?=表达式)
.*(?=abc)   匹配字符串中在abc之前的字符
  • 正向后行断言 匹配表达式后面的位置 (?<=表达式)
(?<=abc).*   匹配字符串中在abc之后的字符
  • 负向先行断言 匹配表达式不成立时前面的位置 (?!表达式)
.*(?!abc)   匹配字符串中不在abc之前的字符
  • 负向后行断言 (?<!表达式)
(?<!abc).*  匹配字符串中不在abc之后的字符

修饰符

默认正则是区分大小写,这可能并不是我们想要的,正则提供了修饰符

例:/xxx/gi // 最后面的g和i就是两个修饰符

  • i正则 不区分(ignore)大小写
    默认是区分大小写的,i可以忽略大小写

  • g正则 全局(global)匹配
    正常遇到第一个符合条件的即匹配成功,返回,
    加上全局修复符g,可以让其匹配到结尾位置,找到每个符合条件的都记录下来

  • m正则 多行(multi line)匹配
    使边界字符 ^ 和 $ 匹配每一行的开头和结尾,记住是多行,而不是整个字符串的开头和结尾
    /^future/gm g只匹配第一行以future开头的字符串 m匹配多行

  • s:特殊字符圆点
    .匹配中包含换行符 \n ,
    默认情况下的圆点 . 是匹配除换行符 \n 之外的任何字符,加上 s 修饰符之后, 匹配中包含换行符 \n

常用工具

语法检测 https://c.runoob.com/front-end/854/?optionGlobl=global

语法图形化 https://jex.im/regulex/#!flags=&re=%5E(a%7Cb)*%3F%24

参考:

https://www.runoob.com/regexp/regexp-syntax.html

https://zhuanlan.zhihu.com/p/28672572?group_id=883065970518790144

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 194,088评论 5 459
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 81,715评论 2 371
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 141,361评论 0 319
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,099评论 1 263
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 60,987评论 4 355
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,063评论 1 272
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,486评论 3 381
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,175评论 0 253
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,440评论 1 290
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,518评论 2 309
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,305评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,190评论 3 312
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,550评论 3 298
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 28,880评论 0 17
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,152评论 1 250
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,451评论 2 341
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,637评论 2 335

推荐阅读更多精彩内容