第十章 正则表达式的模式匹配
如同对象和数组,正则表达式也有两种创建方式,构造函数和正则表达式直接量。
var pattern = /s$/;
var pattern = new RegExp("s$");
// 上面两种方式是等价的
直接量字符
正则表达式中的所有字母和数字都是按照字面含义匹配的。比如/javaScript/可以匹配任何包含"javaScript"子串的字符串。同时,正则语法也支持非字母的字符匹配,这些字符需要通过反斜线''进行转义。正则的直接量字符包括:
字符 | 匹配 |
---|---|
字母和数字字符 | 自身 |
\o | NUL字符 |
\t | 制表符 |
\n | 换行符 |
\v | 垂直制表符 |
\f | 换页符 |
\r | 回车符 |
\xnn | |
\uxxxx | |
\cX |
而且许多标点符号也有特殊意义,包括:
^ $ . * + ? = ! : | \ / ( ) { } [ ]
如果想在正则表达式使用这些字符的直接量进行匹配,那么必须使用''进行转义。
字符类
将直接量字符单独放进方括号[]内就组成了字符类。字符类可以匹配包含的任意字符。所以/[abc]/就和字母'a','b','c'的任意一个都匹配。可以通过'^'来否定字符类,它匹配所有不包含在方括号内的字符。/[^abc]/匹配的就是'a','b','c'之外的所有字符。另外,使用连字符'-'来表示字符范围。匹配小写字母,使用/[a-z]/,匹配拉丁字母中的任何字母和数字,使用/[a-zA-Z0-9]/。
由于某些字符类很常用,所以语法使用了写特殊字符的转义字符来表示它们,具体见下表。
字符 | 匹配 |
---|---|
. | 除换行符和其他Unicode行终止符之外的任意字符 |
\w | 任何ASCII字符组成的单词,等价于[a-zA-Z0-9] |
\W | 等价于[^a-zA-Z0-9] |
\s | 任何Unicode空白符 |
\S | 任何非Unicode空白符的字符 |
\d | [0-9] |
\D | [^0-9] |
[\b] | 退格直接量 |
举个🌰,/[\s\d]/可以匹配任意空白符或者数字。
重复
在正则模式之后跟随用于指定字符重复的标记,下面是一些专门用于表示重复情况的特殊字符。
字符 | 含义 |
---|---|
{n,m} | 匹配前一项至少n次,但不能超过m次 |
{n,} | 匹配前一项n次或者更多次 |
{n} | 匹配前一项n次 |
? | 匹配前一项0或者1次,等价于{0,1} |
+ | 匹配前一项1次或者多次,等价于{1,} |
* | 匹配前一项0次或者多次,等价于{0,} |
举几个例子:
/\d{2,4}/ //匹配2~4个数字
/\w{3}\d?/ //匹配三个单词和一个可选的数字
/\s+javascript\s+/ //匹配前后带有一个或多个空格的字符串'javascript'
/[^(]*/ //匹配0个或多个非左括号的字符
//原书中是匹配一个或多个非左括号的字符,可能有误,或者我理解错了?
在使用'*'和'?'的时候要注意,他们可能匹配0个字符,所以允许什么都不匹配。例如:/a*/表示匹配0次或者多次字符串a,所以与字符串'bcd'也是匹配的,因为含有0个a。
选择、分组和引用
正则表达式的语法还包括指定选择项、子表达式分组和引用前子表达式的特殊字符。
其中字符“|”用于分隔供选择的字符。比如。/ab|cd/可以匹配'ab'也可以匹配'cd'。
需要注意的是,选择项的匹配次序是从左到右,直到发现了匹配项。如果左边的选项匹配,那么就会忽略右边的匹配项。这个操作有没有似曾相识?是的,就是js的短路运算(||)。因此,当/a|ab/匹配“ab”时,只会匹配第一个字符。
再一个字符就是圆括号"()"。一个作用是把单独的项组合成子表达式,以便可以像处理一个独立的单元那样用"|"、"*"、"+"或者"?"来对单元内的项进行处理。比如:/java(script)?/可以匹配'java',也可以匹配'javascript'。/(ab|cd)+|ef/可以匹配'ef',也可以匹配'ab'或'cd'一次或多次。
带圆括号的表达式的另一个用途是允许在同一正则表达式的后部引用前面的子表达式。
指定匹配位置
使用锚元素将模式定位在搜索字符串的特定位置上。其中最常用的是使用'^'匹配字符串的开始,使用'$'匹配字符串的结束。
任意正则表达式都可以作为锚点条件。如果在符号"(?="和")"之间加入一个表达式,它就是一个先行断言,用来说明圆括号内的表达式必须正确匹配,但并不是真正意义上的匹配。比如。要匹配一种常用的程序设计语言的名字,只在其后又冒号时才匹配。这时就可以使用/[Jj]ava([Ss]cript)?(?=\:)/。这个正则就只能匹配后面后冒号的字符串。
带有"(?!"的断言是负向先行断言,用以指定接下来的字符都不必匹配。
下表是正则表达式中的锚字符:
字符 | 含义 |
---|---|
^ | 匹配字符串的开头,在多行检索中,匹配一行的开头 |
$ | 匹配字符串的结尾,在多行检索中,匹配一行的结尾 |
\b | 匹配一个单词的边界,就是位于字符\w和\W之间的位置,或位于字符\w和字符串的开头或者结尾之间的位置 |
\B | 匹配非单词边界的位置 |
(?=p) | 零宽正向先行断言,要求接下来的字符都和p匹配,但不能包括匹配p的那些字符 |
(?!p) | 零宽负向先行断言,要求接下来的字符不与p匹配 |
修饰符
修饰符是放在"/"符号之外的,出现在第二条斜线之后。一共有三个修饰符,修饰符"i"用来说明模式匹配是不区分大小写的。修饰符"g"说明模式匹配是全局的。修饰符"m"用来在多行模式中执行匹配,在这种模式下,如果待检索的字符串包含多行,那么^和$锚字符除了匹配整个字符串的开始和结尾之外,还能匹配每行的开始和结尾。
用于模式匹配的String方法
String一共有4中使用正则表达式的方法,包括search()、replace()、match()和split()。
1.search()
search()的参数是一个正则表达式,返回第一个与之匹配的子串的起始位置,如果找不到匹配的子串,它将返回-1。举个例子:
"JavaScript".search(/script/i);
// 返回4
如果search()的参数不是正则表达式,首先会通过RegExp构造函数将它转换为正则表达式,search()方法不支持全局检索,因为会忽略正则表达式参数中的修饰符g。
2.replace()
该方法用以执行检索和替换操作。其中第一个参数是一个正则表达式,第二个参数是要进行替换的字符串。如果正则表达式中设置了修饰符g,那么源字符串中所有与模式匹配的子串都将替换成第二个参数指定的字符串;如果不带修饰符g,则只替换所匹配的第一个子串。如果replace()的第一个参数是字符串而不是正则表达式,那么replace()将直接搜索这个字符串,而不会向search()一样先转换为正则表达式。举个例子:
str.replace(/javascript/gi,"JavaScript");
//将所有不区分大小写的javascript替换成JavaScript
3.match()
match()方法的唯一参数就是一个正则表达式,返回的是一个由匹配结果组成的数组。如果该正则表达式设置了修饰符g,则该方法返回的数组包含字符串的所有匹配结果。比如:
"1 plus 2 equals 3".match(/\d+/g)
// 返回 ["1","2","3"]
如果没有设置修饰符g,那么就不会进行全局检索,只检索第一个匹配。但是即使match()执行的不是全局检索,也返回一个数组。这时,数组的第一个元素就是匹配的字符串,余下的元素则是正则表达式中用圆括号括起来的子表达式。
4.split()
该方法用以将调用它的字符串拆分为一个子串组成的数组,分隔符就是方法的参数。例如:
'123456'.split('');
// 将'123456'使用空字符串''进行分割
// 返回["1", "2", "3", "4", "5", "6"]
split()的参数也可以是一个正则表达式。