shell中的正则表达式和通配符
正则表达式
正则表达式包含以下一个或多个组成部分
字符集:一组字符
锚:表领了正则表达式在文本中要匹配的位置。例如^和$
修饰符:用于展开或者缩小正则表达式匹配文本行的范围。例如*,(),\。
正则表达式主要的内容
星号*
匹配前一个字符任意多次(含0)。
例如:“123*”表示匹配12+任意多次的3
点.
匹配除了换行以外的任意一个字符
例如:“12.”会匹配12+任意一个字符(包括空格),但不匹配12,因为这个位置少了一个字符
^
匹配一行的开头。也有可能表示否定一个字符集。
$
匹配行尾。
因此可知“^$”可以用于匹配空行
方括号[]
表示匹配括号中的一个字符。
例如:
“[xyz]”会匹配字符x或者y或者z
“[c-n]”匹配从字符c到n之间的任意一个字符
"[B-Pk-y]" 匹配从B到P 或从k到y的任意一个字符.
"[a-z0-9]" 匹配任意小写字母或数字.
"[^b-d]" 匹配除了从b到d范围内所有的字符. 这是正则表达式中反转意思或取否的一个例子。
反斜杠\
转义字符,使一个字符表示其字面上的意思。
尖角号(须转义)\<\>
表示单词的边界。
例如:“\<the\>”会匹配单词the,但是不会匹配them等。
正则表达式的扩展符号
问号?
匹配0个或者1个前面的字符
加号+
匹配1个或者多个前面的字符。与*相似,但是不匹配0个字符。
大括号\{\}(须转义)
指示前面正则表达式的匹配的次数。
例如“[0-9]\{5\}”精确匹配5个数字。
圆括号()
括起一组正则表达式用于做或操作之类。
竖线|
或操作,用于匹配一组字符。
例如:
“(0-5) | (a-c)”会匹配一个0-5的数字或者a-c的字母。
POSIX字符类
[:alnum:] 匹配字母和数字.等同于A-Za-z0-9.
[:alpha:] 匹配字母. 等同于A-Za-z.
[:blank:] 匹配一个空格或是一个制表符(tab).
[:cntrl:] 匹配控制字符.
[:digit:] 匹配(十进制)数字. 等同于0-9.
[:graph:]
(可打印的图形字符). 匹配 ASCII 码值的33 - 126之间的字符. 这和下面提到的[:print:]一样,但是不包括空格字符.
[:lower:] 匹配小写字母. 等同于a-z.
[:print:] (可打印字符). 匹配 ASCII码值 32 - 126之间的字符. 这和上面提到的[:graph:]
一样,但是增多一个空格字符。
[:space:] 匹配空白字符 (空格符和水平制表符).
[:upper:] 匹配大写字母. 等同于A-Z.
[:xdigit:] 匹配十六进制数字. 等同于0-9A-Fa-f.
通配符
Bash本身没有正则表达式的功能.在脚本里,使用正则表达式的是命令和软件包,例如sed和awk,它们可以解释正则表达式.
Bash所做的是展开文件名扩展,这就是所谓的通配(globbing) ,但它不是使用标准的正则表达式. 而是使用通配符. 通配解释标准的通配符:和?, 方括号括起来的字符,还有其他的一些特殊的字符(比如说^用来表示取反匹配).然而通配机制的通配符有很大的局限性. 包含有号的字符串将不会匹配以点开头的文件,例如.bashrc另外,通配机制的? 字符和正则表达式中表示的意思不一样.
通配符种类
星号*
匹配 0 或多个字符
问号?
匹配任意一个字符,但是必须有一个字符。
[list]
匹配 list 中的任意单一字符。注意只能有一个。
[!list]
匹配除了 list 中的任意单一字符。注意只能有一个。
[a-c]
匹配a到c的任一个字符
{string1,string2...}
匹配括号里面的任一个字符串。