1.简介
- 正则表达式,是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种匹配逻辑。从而实现以匹配逻辑为核心的一系列搜索、提取、替换等功能。
- 正则表达式已经被广泛地应用在编程语言、编辑器、指令脚本当中,是工作中的一把利器。
-
先来系统地看一下正则表达式的语法(只列举了笔者认为常用的部分):
暂时对正则表达式使用没有概念也没关系,后面会有详细说明,这里先有一个大概的了解即可。
- 学习正则表达式时,有一个方便的正则语法验证工具非常重要。这里推荐https://regexper.com,它除了可以检查正则的语法,还能将我们的正则逻辑用图形化的方式表达出来。比如对用一个邮箱正则
^[\w-]+@[\w-]+(\.[\w-]+)+$
,图示如下:
2.基础
在基础部分,将为大家介绍如何使用字符匹配、位置匹配和次数匹配:
1.字符匹配
- 匹配任意字符 “.”
- 例如
a.c
的图示为:
- 也可以多个点连用,比如
a..c
:
当然,使用次数匹配(下文详细介绍)也可以达到相同的效果,a.{2}c
:
- 或逻辑 “|”
- “|”默认会将两边所有的字符作为参数。例如
1a|b3
:
如果想指定参数范围必须使用子表达式(下文详细介绍)1(a|b)3
:
- 字符集合 “[]”
- “[]”可以匹配几个特定字符中的一个。例如
1[abc]3
:
- “[]”也可以作用在字符组区间上。例如
1[a-c]3
:
类似的,[a-z]表示字母a到z之间的任意一个字母,[0-9]表示0到9之间的任意一个数字。 - “[]”和“^”搭配,可以表示非字符集的匹配。例如
1[^a-c]3
:
即,把^放在[]里最前面的位置,表示任意一个非[]中字符的字符。
- 转义、特定类型字符 “\”
- “\”在很多编程语言代表转义字符,在正则表达式中也是一样的。比如“.”是一个元字符(正则表达式中代表特殊含义的字符),表示任意一个字符。那如果想要表示“.”本身的含义,就需要写成“\.”。例如
a\.c
专指匹配“a点c”这三个字符的字符串:
- “\”在正则表达式中除了代表转义,还可以与其他字母组合,表示指定类型字符。例如“\d”表示任何数字,
a\dc
:
将字母大写,表示“非”的意思,例如任意一个非数字的字符,可以用“\D”表示,a\Dc
:
类似的有:
元字符 | 描述 |
---|---|
\d | 任何数字 (同 [0-9]) |
\D | 任何非数字 (同 [^0-9]) |
\w | 所有的文字数字式字符:大小写字母、数字和下划线 (同 [a-zA-Z0-9_]) |
\W | (同 [^a-zA-Z0-9_]) |
\s | 所有的空白字符 (同 [\f\n\r\t\v]) |
\S | 所有的非空白字符 (同 [^\f\n\r\t\v]) |
2.位置匹配
- 行边界匹配的元字符是“^”和“`:
3.次数匹配
- 出现0个或1个 “?”
- “?”表示一个字符可以不出现,或只出现一次。例如
ab?c
:
- 需要注意的是,“?”是贪婪匹配的(即优先匹配字符出现次数多情况)。例如下面的Java代码:
Pattern p=Pattern.compile("ab?");
Matcher m=p.matcher("ab111");
System.out.println("m.find(): " + m.find());
System.out.println("m.group(): " + m.group());
// 输出
m.find(): true
m.group(): ab
- 但是“?”表示出现0个或1个,也就是说在上面的代码中,对于“ab111”来说,“a”字符串也应该是“ab?”表达式下的匹配项。那如果才能匹配到“a”呢?这就需要用到“?”元字符的另一个含义了:懒匹配(即优先匹配字符出现次数少的情况)。
- 也就是说,“?”这个元字符比较特殊,它有两个含义,除了在次数匹配中表示出现0个或1个外,在匹配模式上,它表示使用懒模式。
- 所以上面Java代码的例子中,如果想要匹配到“a”这个字符串,需要将表达式改为“ab??”:
Pattern p = Pattern.compile("ab??");
Matcher m = p.matcher("ab111");
System.out.println("m.find(): " + m.find());
System.out.println("m.group(): " + m.group());
// 输出
m.find(): true
m.group(): a
- 出现1个或更多 “+”
- “+”表示一个字符至少出现一次。例如
ab+c
:
- 与表示0个或1个的“?”相同,"+"默认也是贪婪模式,如果想要懒模式,则要使用“+?”:
Pattern p = Pattern.compile("\\d+");
Matcher m = p.matcher("aaa2223bb");
System.out.println("m.find(): " + m.find());
System.out.println("m.group(): " + m.group());
p =Pattern.compile("\\d+?");
m = p.matcher("aaa2223bb");
System.out.println("m.find(): " + m.find());
System.out.println("m.group(): " + m.group());
// 输出
m.find(): true
m.group(): 2223
m.find(): true
m.group(): 2
- 出现0个或更多 “*”
-
"*"表示一个字符可以出现任意次。例如
ab*c
:
"*"也是贪婪模式的,用“*?”表示懒模式:
Pattern p = Pattern.compile("\\d*");
Matcher m = p.matcher("2223");
System.out.println("m.find(): " + m.find());
System.out.println("m.group(): " + m.group());
p =Pattern.compile("\\d*?");
m = p.matcher("aaa2223bb");
System.out.println("m.find(): " + m.find());
System.out.println("m.group(): " + m.group());
// 输出
m.find(): true
m.group(): 2223
m.find(): true
m.group():
- 通用次数匹配 “{}”
- “{}”是次数匹配当中最灵活通用的,它的用法如下:
表达式 | 描述 |
---|---|
{3} | 精确次数匹配,表示一个字符连续有3个 |
{3,} | 至少次数匹配,表示一个字符至少连续有3个 |
{3,5} | 区间次数匹配,表示一个字符连续有3到5个 |
- 所以?和{0,1}的功能是一样的,+和{1,}的作用是一样的。
- 我们以区间次数匹配为例,看一下
ab{3,5}c
的图示:
3.进阶
在进阶部分,将为大家介绍子表达式和后向引用:
1.子表达式
- 通过()括起来的就是子表达式。
- 为了说明子表达式的用途,先来看一个表示IPv4地址的表达式(为简单起见,不校验是否超过了256):
\d{1,3}\.\d{1,3}\.\d{1,3}\.\d{1,3}
,图示为:
- 从上面的表达式我们可以看到
\d{1,3}\.
重复了三遍,使用子表达式,可消除重复,表示为:(\d{1,3}\.){3}\d{1,3}
,图示为:
- 除了消除重复,子表达式还有另外一个重要的作用,那就是明确范围。在之前将逻辑或“|”元字符的时候,曾经提过,“|”会把自己两边所有的字符都作为参数,如果只想要部分字符作为参数,则可以使用子表达式。看下面两个表达式的区别:
-
19|20\d{2}
-
(19|20)\d{2}
2.后向引用
- 后向引用就是将前面的子表达式理解成变量使用。例如\1匹配模式中第一个子表达式,\2匹配第二个子表达式,\3匹配第三个。
- 来看一个例子:
System.out.println(Pattern.compile("<H([1-6])>.*?</H\\1>").matcher("<H1>html_code</H1>").matches());
System.out.println(Pattern.compile("<H([1-6])>.*?</H\\1>").matcher("<H1>html_code</H2>").matches());
// 输出
true
false
- 上面的Java代码,用同一个表达式对两段html代码进行了匹配性检查。第一段html代码“<H1>html_code</H1>”检查通过;而第二段html代码“<H1>html_code</H2>”没有通过,原因就是后向引用“\1”要求必须和前面的子表达式“([1-6])”内容相同。因为他们代表的是同一个变量。
end