正则表达式

1.简介

  • 正则表达式,是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种匹配逻辑。从而实现以匹配逻辑为核心的一系列搜索、提取、替换等功能。
  • 正则表达式已经被广泛地应用在编程语言、编辑器、指令脚本当中,是工作中的一把利器。
  • 先来系统地看一下正则表达式的语法(只列举了笔者认为常用的部分):


    正则表达式.png-31.4kB
    正则表达式.png-31.4kB

    暂时对正则表达式使用没有概念也没关系,后面会有详细说明,这里先有一个大概的了解即可。

  • 学习正则表达式时,有一个方便的正则语法验证工具非常重要。这里推荐https://regexper.com,它除了可以检查正则的语法,还能将我们的正则逻辑用图形化的方式表达出来。比如对用一个邮箱正则^[\w-]+@[\w-]+(\.[\w-]+)+$,图示如下:
    email.png-8kB
    email.png-8kB

2.基础

在基础部分,将为大家介绍如何使用字符匹配位置匹配次数匹配

1.字符匹配

  1. 匹配任意字符 “.”
  • 例如a.c的图示为:
    img.png-1.8kB
    img.png-1.8kB
  • 也可以多个点连用,比如a..c
    img.png-2kB
    img.png-2kB

    当然,使用次数匹配(下文详细介绍)也可以达到相同的效果,a.{2}c
    img.png-2.7kB
    img.png-2.7kB
  1. 或逻辑 “|”
  • “|”默认会将两边所有的字符作为参数。例如1a|b3
    img.png-1.9kB
    img.png-1.9kB

    如果想指定参数范围必须使用子表达式(下文详细介绍)1(a|b)3
    img.png-3.3kB
    img.png-3.3kB
  1. 字符集合 “[]”
  • “[]”可以匹配几个特定字符中的一个。例如1[abc]3
    img.png-2.5kB
    img.png-2.5kB
  • “[]”也可以作用在字符组区间上。例如1[a-c]3
    img.png-2.1kB
    img.png-2.1kB

    类似的,[a-z]表示字母a到z之间的任意一个字母,[0-9]表示0到9之间的任意一个数字。
  • “[]”和“^”搭配,可以表示非字符集的匹配。例如1[^a-c]3
    img.png-2.1kB
    img.png-2.1kB

    即,把^放在[]里最前面的位置,表示任意一个非[]中字符的字符。
  1. 转义、特定类型字符 “\”
  • “\”在很多编程语言代表转义字符,在正则表达式中也是一样的。比如“.”是一个元字符(正则表达式中代表特殊含义的字符),表示任意一个字符。那如果想要表示“.”本身的含义,就需要写成“\.”。例如a\.c专指匹配“a点c”这三个字符的字符串:
    img.png-0.9kB
    img.png-0.9kB
  • “\”在正则表达式中除了代表转义,还可以与其他字母组合,表示指定类型字符。例如“\d”表示任何数字,a\dc
    img.png-1.4kB
    img.png-1.4kB

    将字母大写,表示“非”的意思,例如任意一个非数字的字符,可以用“\D”表示,a\Dc
    img.png-1.7kB
    img.png-1.7kB

    类似的有:
元字符 描述
\d 任何数字 (同 [0-9])
\D 任何非数字 (同 [^0-9])
\w 所有的文字数字式字符:大小写字母、数字和下划线 (同 [a-zA-Z0-9_])
\W (同 [^a-zA-Z0-9_])
\s 所有的空白字符 (同 [\f\n\r\t\v])
\S 所有的非空白字符 (同 [^\f\n\r\t\v])

2.位置匹配

  • 行边界匹配的元字符是“^”和“”,分别用于表示行的开始和结束。例如`^abc`:
    img.png-2.2kB
    img.png-2.2kB

3.次数匹配

  1. 出现0个或1个 “?”
  • “?”表示一个字符可以不出现,或只出现一次。例如ab?c
    img.png-1.6kB
    img.png-1.6kB
  • 需要注意的是,“?”是贪婪匹配的(即优先匹配字符出现次数多情况)。例如下面的Java代码:
 Pattern p=Pattern.compile("ab?");
 Matcher m=p.matcher("ab111");
 System.out.println("m.find(): " + m.find());
 System.out.println("m.group(): " + m.group());

 // 输出
 m.find(): true
 m.group(): ab
  • 但是“?”表示出现0个或1个,也就是说在上面的代码中,对于“ab111”来说,“a”字符串也应该是“ab?”表达式下的匹配项。那如果才能匹配到“a”呢?这就需要用到“?”元字符的另一个含义了:懒匹配(即优先匹配字符出现次数少的情况)。
  • 也就是说,“?”这个元字符比较特殊,它有两个含义,除了在次数匹配中表示出现0个或1个外,在匹配模式上,它表示使用懒模式。
  • 所以上面Java代码的例子中,如果想要匹配到“a”这个字符串,需要将表达式改为“ab??”:
 Pattern p = Pattern.compile("ab??");
 Matcher m = p.matcher("ab111");
 System.out.println("m.find(): " + m.find());
 System.out.println("m.group(): " + m.group());

 // 输出
 m.find(): true
 m.group(): a
  1. 出现1个或更多 “+”
  • “+”表示一个字符至少出现一次。例如ab+c
    img.png-1.6kB
    img.png-1.6kB
  • 与表示0个或1个的“?”相同,"+"默认也是贪婪模式,如果想要懒模式,则要使用“+?”:
 Pattern p = Pattern.compile("\\d+");
 Matcher m = p.matcher("aaa2223bb");
 System.out.println("m.find(): " + m.find());
 System.out.println("m.group(): " + m.group());

 p =Pattern.compile("\\d+?");
 m = p.matcher("aaa2223bb");
 System.out.println("m.find(): " + m.find());
 System.out.println("m.group(): " + m.group());

 // 输出
 m.find(): true
 m.group(): 2223
 m.find(): true
 m.group(): 2
  1. 出现0个或更多 “*”
  • "*"表示一个字符可以出现任意次。例如ab*c

    img.png-1.9kB
    img.png-1.9kB

  • "*"也是贪婪模式的,用“*?”表示懒模式:

Pattern p = Pattern.compile("\\d*");
Matcher m = p.matcher("2223");
System.out.println("m.find(): " + m.find());
System.out.println("m.group(): " + m.group());

p =Pattern.compile("\\d*?");
m = p.matcher("aaa2223bb");
System.out.println("m.find(): " + m.find());
System.out.println("m.group(): " + m.group());

// 输出
m.find(): true
m.group(): 2223
m.find(): true
m.group(): 
  1. 通用次数匹配 “{}”
  • “{}”是次数匹配当中最灵活通用的,它的用法如下:
表达式 描述
{3} 精确次数匹配,表示一个字符连续有3个
{3,} 至少次数匹配,表示一个字符至少连续有3个
{3,5} 区间次数匹配,表示一个字符连续有3到5个
  • 所以?和{0,1}的功能是一样的,+和{1,}的作用是一样的。
  • 我们以区间次数匹配为例,看一下ab{3,5}c的图示:
    img.png-2.2kB
    img.png-2.2kB

3.进阶

在进阶部分,将为大家介绍子表达式后向引用

1.子表达式

  • 通过()括起来的就是子表达式。
  • 为了说明子表达式的用途,先来看一个表示IPv4地址的表达式(为简单起见,不校验是否超过了256):\d{1,3}\.\d{1,3}\.\d{1,3}\.\d{1,3},图示为:
    ip.png-2.9kB
    ip.png-2.9kB
  • 从上面的表达式我们可以看到\d{1,3}\.重复了三遍,使用子表达式,可消除重复,表示为:(\d{1,3}\.){3}\d{1,3},图示为:
    ip2.png-5kB
    ip2.png-5kB
  • 除了消除重复,子表达式还有另外一个重要的作用,那就是明确范围。在之前将逻辑或“|”元字符的时候,曾经提过,“|”会把自己两边所有的字符都作为参数,如果只想要部分字符作为参数,则可以使用子表达式。看下面两个表达式的区别:
  1. 19|20\d{2}
    year1.png-3.1kB
    year1.png-3.1kB
  2. (19|20)\d{2}
    year2.png-4.4kB
    year2.png-4.4kB

2.后向引用

  • 后向引用就是将前面的子表达式理解成变量使用。例如\1匹配模式中第一个子表达式,\2匹配第二个子表达式,\3匹配第三个。
  • 来看一个例子:
 System.out.println(Pattern.compile("<H([1-6])>.*?</H\\1>").matcher("<H1>html_code</H1>").matches());
 System.out.println(Pattern.compile("<H([1-6])>.*?</H\\1>").matcher("<H1>html_code</H2>").matches());
 // 输出
 true
 false
  • 上面的Java代码,用同一个表达式对两段html代码进行了匹配性检查。第一段html代码“<H1>html_code</H1>”检查通过;而第二段html代码“<H1>html_code</H2>”没有通过,原因就是后向引用“\1”要求必须和前面的子表达式“([1-6])”内容相同。因为他们代表的是同一个变量。

end

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 202,056评论 5 474
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 84,842评论 2 378
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 148,938评论 0 335
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,296评论 1 272
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,292评论 5 363
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,413评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,824评论 3 393
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,493评论 0 256
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,686评论 1 295
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,502评论 2 318
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,553评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,281评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,820评论 3 305
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,873评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,109评论 1 258
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,699评论 2 348
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,257评论 2 341