Unix文本处理工具之awk

Unix命令行下输入的命令是文本，输出也都是文本。因此，掌握Unix文本处理工具是很重要的一种能力。awk是Unix常用的文本处理工具中的一种，它是以其发明者(Aho,Weinberger和Kernighan)的名字首字符命名的，是一种基于模式匹配检查输入然后将期望的匹配结果处理后输出到屏幕的文本数据处理工具。

1、awk命令格式

awk ‘模式 {操作}’ 文件1 文件2 ……

awk命令的工作过程是这样的：对于每一个输入文件，逐行对其进行检查，如果该行和awk命令参数的‘模式’部分匹配，则对该行执行命令参数‘{操作}’部分所代表的操作。下面是一个简单的例子：

$cat awk_test.txt
1 a a,b,d,f
2 b alsdjf,apple,kdjf
3 c 163.2.201.1
4 d www.google.com
5 e http://blog.csdn.net/xia7139
$awk 'NR==1{print}' awk_test.txt
1 a a,b,d,f

上面的例子中，用awk命令输出了awk_test.txt文件的第一行，其中命令的模式部分所用的NR是awk命令的内建变量，代表文件的行号。这样，便可以对所有行号为1的行进行打印输出。

2、语法说明

2.1 常用的内建变量

变量	含义
NR	当前处理行的行号
FS	字段分隔，默认为空格或TAB
$n	当前处理行的第n个字段
$0	当前处理行的全部内容
$NF	表示当前处理行的最后一个字段

这里要解释下字段的含义：在awk的使用中，字段分隔符将文件的一行分隔为各个部分，每一个部分称为一个字段，从左到右分别为第1个字段，……，第n个字段，其中，第0个字段是指这一整行。字段分隔符如果没有特殊指定，则默认为空格或tab制表符。

2.2 在字段中匹配

awk可以支持根据特定字段内容的匹配，操作符是~。该操作符的否定是!~，表示不匹配。下面是几个例子：

输出第三个字段包含a的行。

  $ awk '$3 ~ /a/ {print}' awk_test.txt 
  1 a a,b,d,f
  2 b alsdjf,apple,kdjf
  5 e http://blog.csdn.net/xia7139

输出第三个字段不包含a的行

  $ awk '$3 !~ /a/ {print}' awk_test.txt 
  3 c 163.2.201.1
  4 d www.google.com

2.3 awk变量

awk命令是支持变量的，定义变量的选项是-v，下面是一个例子。

打印第二个字段包含b的行

  $ var=b
  $ awk -v x=$var '$2 ~ x{print}' awk_test.txt 
  2 b alsdjf,apple,kdjf

打印第二个字段不包含b的行

  $ var=b
  $ awk -v x=$var '$2 !~ x{print}' awk_test.txt 
  1 a a,b,d,f
  3 c 163.2.201.1
  4 d www.google.com
  5 e http://blog.csdn.net/xia7139

但是，变量在//中不起作用：

$ var=b
$ awk -v x=$var '$3 ~ /x/{print}' awk_test.txt 
5 e http://blog.csdn.net/xia7139

可以认为awk -v x=$var '$2 ~ x{print}' awk_test.txt就相当于awk '$2 ~ /b/{print}' awk_test.txt,也就是说会将变量的值当作正则表达式匹配。下面的例子可以说明这个问题：

$ var=.
$ awk -v x=$var '$3 ~ x{print}' awk_test.txt 
1 a a,b,d,f
2 b alsdjf,apple,kdjf
3 c 163.2.201.1
4 d www.google.com
5 e http://blog.csdn.net/xia7139

$ var=\\\\.
$ awk -v x=$var '$3 ~ x{print}' awk_test.txt 
3 c 163.2.201.1
4 d www.google.com
5 e http://blog.csdn.net/xia7139

2.4 awk默认的行分隔符和列分隔符

awk中有两个特殊的变量ORS和OFS分别记录着其缺省的行分隔符，ORS的默认值为换行\n，OFS的默认值为空格。因此，默认的awk会用它们来分隔行和列。下面是几个例子：

当我们试图用=分隔各个字段时

  $ awk '{print $1,"=",$2,"=",$3}' awk_test.txt 
  1 = a = a,b,d,f
  2 = b = alsdjf,apple,kdjf
  3 = c = 163.2.201.1
  4 = d = www.google.com
  7 = d = www.google.com
  4 = d = www.googlecom
  5 = e = http://blog.csdn.net/xia7139

可以看到，这样=被作为awk的一个字段输出，和其它字段之间用空格隔开，实际上相当于" = "作为了分隔符分隔了各个原来的字段。

只用=分隔各个字段

这时候就需要将OFS置为空字符串，如下：

  $ awk 'BEGIN{OFS=""}{print $1,"=",$2,"=",$3}' awk_test.txt 
  1=a=a,b,d,f
  2=b=alsdjf,apple,kdjf
  3=c=163.2.201.1
  4=d=www.google.com
  7=d=www.google.com
  4=d=www.googlecom
  5=e=http://blog.csdn.net/xia7139

同理，可实现在行与行之间添加空行

  $ awk 'BEGIN{ORS="\n\n"}{print $1,"=",$2,"=",$3}' awk_test.txt | head -n 5
  1 = a = a,b,d,f
  
  2 = b = alsdjf,apple,kdjf
  
  3 = c = 163.2.201.1

2.5 awk中的BEGIN和END

BEGIN作用是执行一些初始化操作，END的作用是程序结束后执行扫尾的工作。

任何在BEGIN之后列出的操作（在{}内）将在Unix awk开始扫描输入之前执行，而END之后列出的操作将在扫描完全部的输入之后执行。因此，通常使用BEGIN来显示变量和预置（初始化）变量，使用END来输出最终结果。

下面是一个例子：

$ awk 'BEGIN{product=1}{print $1,"=",$2,"=",$3;product=product*$1}END{printf "product: %.3f\n",product}' awk_test.txt
1 = a = a,b,d,f
2 = b = alsdjf,apple,kdjf
3 = c = 163.2.201.1
4 = d = www.google.com
7 = d = www.google.com
4 = d = www.googlecom
5 = e = http://blog.csdn.net/xia7139
product: 3360.000
$

3、几个例子及其输出

3.1 下面的例子都是对上文中的awk_test.txt文件的操作

3.1.1 按行号操作

打印文件的1-3行

  $awk 'NR==1,NR==3{print}' awk_test.txt
  1 a a,b,d,f
  2 b alsdjf,apple,kdjf
  3 c 163.2.201.1

打印文件的第1行和第3行

  $awk 'NR==1||NR==3{print}' awk_test.txt
  或者是
  $awk '(NR==1)||(NR==3){print}' awk_test.txt
  1 a a,b,d,f
  3 c 163.2.201.1

只打印奇数行(偶数行)

  $awk '(NR%2)==1{print}' awk_test.txt
  1 a a,b,d,f
  3 c 163.2.201.1
  5 e http://blog.csdn.net/xia7139
  $awk '(NR%2)==0{print}' awk_test.txt
  2 b alsdjf,apple,kdjf
  4 d www.google.com

3.1.2 使用正则表达式

打印包含2的行

  $awk '/2/{print}' awk_test.txt
  2 b alsdjf,apple,kdjf
  3 c 163.2.201.1

打印以com结尾的行

  $awk '/com$/{print}' awk_test.txt
  4 d www.google.com

3.1.3 指定分隔，输出指定字段

打印第1-3行的第一个字段和第三个字段

  $awk 'NR==1,NR==3{print $1,$3}' awk_test.txt
  1 a,b,d,f
  2 alsdjf,apple,kdjf
  3 163.2.201.1

指定分隔符为.，输出第二个字段为csdn的行的第三个字段和整行

  $awk -F. '$2=="csdn"{print $3,$0}' awk_test.txt
  net/xia7139 5 e http://blog.csdn.net/xia7139

指定分隔符为.，输出每行的最后一个字段

  $ awk -F. '{print $NF}' awk_test.txt 
  1 a a,b,d,f
  2 b alsdjf,apple,kdjf
  1
  com
  net/xia7139

3.2 awk对文件中的行按重复次数排序

下面的文件是从数据库中导出的一些数据（一部分），但是后续发现有些字段不需要。而如果重新从数据库中导出生成的话，耗费的时间太长，这里就用到了awk命令了。

文件test.txt的内容如下，每行有三个字段，字段之间用“ ::: ”隔开：

11 ::: Thomas R. Dean ::: 54
14 ::: Johann van Rensburg ::: 1
75 ::: Arun G. Phadke ::: 13
81 ::: Tiffany M. Frazier ::: 2
84 ::: Sridhar R. Iyer ::: 1
95 ::: Leesa Murray ::: 11
96 ::: David S. Munro ::: 34
104 ::: David R. Lovell ::: 2
112 ::: Steffen Rusitschka ::: 3
161 ::: Peter Forbrig ::: 116

现在想只取出第后面的两个字段去掉前面的字段：

$ awk -F :::  '{print $2,$3}' test.txt
 Thomas R. Dean   54
 Johann van Rensburg   1
 Arun G. Phadke   13
 Tiffany M. Frazier   2
 Sridhar R. Iyer   1
 Leesa Murray   11
 David S. Munro   34
 David R. Lovell   2
 Steffen Rusitschka   3
 Peter Forbrig   116

发现前面有多余的不想要的空格，一点都不优雅。原来-F指定的分隔符是要将空格转义才能生效。

$ awk -F\ :::\  '{print $2,$3}' test.txt
Thomas R. Dean 54
Johann van Rensburg 1
Arun G. Phadke 13
Tiffany M. Frazier 2
Sridhar R. Iyer 1
Leesa Murray 11
David S. Munro 34
David R. Lovell 2
Steffen Rusitschka 3
Peter Forbrig 116

这样就好多了，但是，现在又想将上面的两个字段还是用原来的“ ::: ”隔开。

$ awk -F\ :::\  '{print $2,":::",$3}' test.txt
Thomas R. Dean ::: 54
Johann van Rensburg ::: 1
Arun G. Phadke ::: 13
Tiffany M. Frazier ::: 2
Sridhar R. Iyer ::: 1
Leesa Murray ::: 11
David S. Munro ::: 34
David R. Lovell ::: 2
Steffen Rusitschka ::: 3
Peter Forbrig ::: 116

Wow, it is beautiful!
下面如果发现有重复的话，可以进行进一步的去重。这里随意生成了一个有重复的test.txt来进行操作，其内容如下：

11 ::: Thomas R. Dean ::: 54
1411 ::: Johann van Rensburg ::: 1
106 ::: Peter Forbrig ::: 116 
141 ::: Johann van Rensburg ::: 1
143 ::: Johann van Rensburg ::: 1
75 ::: Arun G. Phadke ::: 13
844 ::: Sridhar R. Iyer ::: 1
149 ::: Johann van Rensburg ::: 1
81 ::: Tiffany M. Frazier ::: 2
84 ::: Sridhar R. Iyer ::: 1
95 ::: Leesa Murray ::: 11
96 ::: David S. Munro ::: 34
104 ::: David R. Lovell ::: 2
15 ::: Johann van Rensburg ::: 1
112 ::: Steffen Rusitschka ::: 3
12 ::: Steffen Rusitschka ::: 3
161 ::: Peter Forbrig ::: 116 
106 ::: Peter Forbrig ::: 116

首先对awk生成的结果排序：

$ awk -F\ :::\  '{print $2,":::",$3}' test.txt | sort
Arun G. Phadke ::: 13
David R. Lovell ::: 2
David S. Munro ::: 34
Johann van Rensburg ::: 1
Johann van Rensburg ::: 1
Johann van Rensburg ::: 1
Johann van Rensburg ::: 1
Johann van Rensburg ::: 1
Leesa Murray ::: 11
Peter Forbrig ::: 116
Peter Forbrig ::: 116
Peter Forbrig ::: 116
Sridhar R. Iyer ::: 1
Sridhar R. Iyer ::: 1
Steffen Rusitschka ::: 3
Steffen Rusitschka ::: 3
Thomas R. Dean ::: 54
Tiffany M. Frazier ::: 2

然后，进行去重，之所以进行排序，是因为uniq命令只能对相邻行进行去重。

$ awk -F\ :::\  '{print $2,":::",$3}' test.txt | sort | uniq 
Arun G. Phadke ::: 13
David R. Lovell ::: 2
David S. Munro ::: 34
Johann van Rensburg ::: 1
Leesa Murray ::: 11
Peter Forbrig ::: 116
Sridhar R. Iyer ::: 1
Steffen Rusitschka ::: 3
Thomas R. Dean ::: 54
Tiffany M. Frazier ::: 2

如果需要根据重复次数排序，可以用“awk -F\ :::\ '{print $2,":::",$3}' test.txt | sort | uniq -c | sort -rn”这里sort的-n选项是指定根据每行第一个字段的数字值的大小排序，比如30比4大，如果没有-n那么就是默认字典序排，4比30大。而unique中的-c选项是指定在每行之前加一个重复次数字段。
这里为了排序用sort -n先将数字字段放到前面，然后排序，排完之后，再将数字字段放到后面（实际上，可以用更加优雅的方法，直接指定按第二个字段排序就可以，这里用的是先颠过来，然后再倒回去的方法。

$ awk -F\ :::\  '{print $3,":::",$2}' test.txt | sort | uniq | sort -rn | awk -F\ :::\  '{print $2,":::",$1}'
Peter Forbrig ::: 116
Thomas R. Dean ::: 54
David S. Munro ::: 34
Arun G. Phadke ::: 13
Leesa Murray ::: 11
Steffen Rusitschka ::: 3
Tiffany M. Frazier ::: 2
David R. Lovell ::: 2
Sridhar R. Iyer ::: 1
Johann van Rensburg ::: 1

3.3 awk命令将文本文件中的数字相加

这里有一个文本文件，其中，每行的第二个字段是一个数字，现在想要将每行的数字加起来，应该如何操作呢？下面给出awk命令的版本：

$ cat awk_sum_test.txt
apple 1
google 2
sammung 3
moto 4
xiaomi 5
smartisan 6
oppo 7
huawei 8
coolpad 9
lenevo 10
$ awk '{sum+=$2}END{print sum}' awk_sum_test.txt 
55
$

从这个命令可以看出，awk命令的使用还是比较方便的。初次之外，要知道awk命令的语法十分复杂，上面说到的只是很少的一部分。从这个例子中的用法来看，我们也能够知道前面提到的awk命令的基本格式awk ‘模式 {操作}’ 文件1 文件2 ……中的，'模式 {操作}'单位实际上，是可以有多个的，也就是说可以是awk ‘模式 {操作}模式 {操作}... ...’ 文件1 文件2 ……。awk会逐个检查每个模式，然后对符合模式的行执行相应的操作。下面是一个例子：

$ awk '{sum+=$2}NR <5 1{print $1}END{print sum}' awk_sum_test.txt    
apple
google
sammung
moto
xiaomi
lenevo
55
$

实际上，这个例子中的问题也可以用linux shell下读取文件的方法来解决，只不过稍微有点麻烦。关于awk命令，个人认为只能是边用边学，以后遇到比较好的例子，还会贴在在这里。^_

最后编辑于：2017.11.27 04:39:25

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 202,056评论 5赞 474
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 84,842评论 2赞 378
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 148,938评论 0赞 335
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,296评论 1赞 272
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,292评论 5赞 363
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,413评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,824评论 3赞 393
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,493评论 0赞 256
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,686评论 1赞 295
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,502评论 2赞 318
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,553评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,281评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,820评论 3赞 305
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,873评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,109评论 1赞 258
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,699评论 2赞 348
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,257评论 2赞 341