linux || awk(2)筛选行和处理字段小结

awk正则

运算符 功能 示例 描述
^ 行首定位符 /^root/ 匹配所有已root开头的行
$ 行尾定位符 /root$/ 匹配所有已root结尾的行
. 匹配任意单个字符 /r..t/ 匹配r,然后任意两个字符,再以t结尾
* 匹配0个或多个前导字符 /a*ool/ 匹配0个或者多个a之后紧跟着ool的行,比如ool,aaool等
+ 匹配1个或者多个前导字符 /a+b/ 匹配一个或多个a+b的行,比如ab,aab等
匹配0个或多个前导字符 a?b/ 匹配b或者ab行
[] 匹配指定字符组内的任意一个字符 ^[abc] 匹配以字母a或b或c开头的行
[^] 匹配不在指定字符组内的任意一个字符 /[abc/ 匹配不以字母a或b或c开头的行
(..) 子表达字符 /(rool)+/ 表示一个或者多个rool组合,当有一些字符需要组合时,使用括号
| 或者的意思 /(root)|B/ 匹配root或者B的行
\ 转义字符 /a\/\// 匹配a//
~,!~ 匹配,不匹配的条件语句 $1~/root/ 匹配第一个字段包含root的所有字符
x{m} 重复字符x,m次 /root{2}/ 注意:root加括号和不加括号的区别,x可以表示字符串也可以只是一个字符,这里表示roott
x{m,} 重复字符x,至少m次 /root{2,}/ 表示rootroot
x{m,n} 重复字符x,至少m次 ,不多于n次 /root{2,3} 匹配2~3个root的行

pattern

1.正则表达模式 / /

pengzw@super-server:~$ cat test2.txt
A   B   C
Hello   word!
Write   a   word!
I   love    dog!
Good    good    study!

精确查询

pengzw@super-server:~$ awk '/word/{print $0}' test2.txt #匹配word的行
Hello   word!
Write   a   word!

模糊查询

pengzw@super-server:~$ awk '/o.*/{print $0}' test2.txt #匹配所有含有0的行,包括一个或多个o
Hello   word!
Write   a   word!
I   love    dog!
Good    good    study!

2.行范围模式

对行进行操作,用到内置变量。

内置变量
变量 描述
$n 当前记录的第n个字段,字段间由FS分隔,$n表示第n个域
$0 完整的输入记录,$0则表示所有域
ARGC 命令行参数的数目
ARGIND 命令行中当前文件的位置(从0开始算)
ARGV 包含命令行参数的数组
CONVFMT 数字转换格式(默认值为%.6g)ENVIRON环境变量关联数组
ERRNO 最后一个系统错误的描述
FIELDWIDTHS 字段宽度列表(用空格键分隔)
FILENAME 当前文件名
FNR 各文件分别计数的行号
FS 字段分隔符(默认是任何空格)
IGNORECASE 如果为真,则进行忽略大小写的匹配
NF 一条记录的字段的数目
NR 已经读出的记录数,就是行号,从1开始
OFMT 数字的输出格式(默认值是%.6g)
OFS 输出记录分隔符(输出换行符),输出时用指定的符号代替换行符
ORS 输出记录分隔符(默认值是一个换行符)
RLENGTH 由match函数所匹配的字符串的长度
RS 记录分隔符(默认是一个换行符)
RSTART 由match函数所匹配的字符串的第一个位置
SUBSEP 数组下标分隔符(默认值是/034)
内置变量.jpg

示例:

取拟南芥gff3文件的前十行为test.gff
== 字符双引号

pengzw@super-server:~$ cat test.gff
##gff-version 3
##annot-version TAIR10
Chr1    phytozomev10    gene    3631    5899    .   +   .   ID=AT1G01010.TAIR10;Name=AT1G01010
Chr1    phytozomev10    mRNA    3631    5899    .   +   .   ID=AT1G01010.1.TAIR10;Name=AT1G01010.1;pacid=19656964;longest=
Chr1    phytozomev10    five_prime_UTR  3631    3759    .   +   .   ID=AT1G01010.1.TAIR10.five_prime_UTR.1;Parent=AT1G0101

pengzw@super-server:~$ awk '$3 =="gene" {print $0 }' test.gff  #将第三列为gene的行输出到屏幕上
Chr1    phytozomev10    gene    3631    5899    .   +   .   ID=AT1G01010.TAIR10;Name=AT1G01010

打印两列 $4"\t"$5,需要制定分割符如"\t"

pengzw@super-server:~$ awk '$1 =="Chr1"  && $4 >= 1 && $5 <=5000  {print $0 }' test.gff 
Chr1    phytozomev10    five_prime_UTR  3631    3759    .   +   .   ID=AT1G01010.1.TAIR10.five_prime_UTR.1;Parent=AT1G01010.1.TAIR10;pacid=19656964

pengzw@super-server:~$ awk '$1 =="Chr1"  && $4 >= 1 && $5 <=5000  {print $4$5 }' test.gff 
36313759

pengzw@super-server:~$ awk '$1 =="Chr1"  && $4 >= 1 && $5 <=5000  {print $4"\t"$5 }' test.gff 
3631    3759

打印1到4行的内容

pengzw@super-server:~$ awk 'NR>=1 && NR<=4 {print $0}' test.gff
##gff-version 3
##annot-version TAIR10
Chr1    phytozomev10    gene    3631    5899    .   +   .   ID=AT1G01010.TAIR10;Name=AT1G01010
Chr1    phytozomev10    mRNA    3631    5899    .   +   .   ID=AT1G01010.1.TAIR10;Name=AT1G01010.1;pacid=19656964;longest=1;Parent=AT1G01010.TAIR10

两个正则/gff/,/gene/ {print $0},注意:正则1和正则2,都以第一次匹配到的行为准。

pengzw@super-server:~$ awk '/gff/,/gene/ {print $0}' test.gff
##gff-version 3
##annot-version TAIR10
Chr1    phytozomev10    gene    3631    5899    .   +   .   ID=AT1G01010.TAIR10;Name=AT1G01010

FS 设置成";"
RS 记录分隔符变量
OFS 输出字段分隔符
ORS 输出记录分隔符
多个输出可以指定相同的分割符号 print ,分割

pengzw@super-server:~$ awk 'BEGIN{FS=";";RS="\n";OFS="#"}{print $1,$2,$3,$4}' at.gff
##gff-version 3###
##annot-version TAIR10###
Chr1    phytozomev10    gene    3631    5899    .   +   .   ID=AT1G01010.TAIR10#Name=AT1G01010##
Chr1    phytozomev10    mRNA    3631    5899    .   +   .   ID=AT1G01010.1.TAIR10#Name=AT1G01010.1#pacid=19656964#longest=1
Chr1    phytozomev10    five_prime_UTR  3631    3759    .   +   .   ID=AT1G01010.1.TAIR10.five_prime_UTR.1#Parent=AT1G01010.1.TAIR10#pacid=19656964#
Chr1    phytozomev10    CDS 3760    3913    .   +   0   ID=AT1G01010.1.TAIR10.CDS.1#Parent=AT1G01010.1.TAIR10#pacid=19656964#
Chr1    phytozomev10    CDS 3996    4276    .   +   2   ID=AT1G01010.1.TAIR10.CDS.2#Parent=AT1G01010.1.TAIR10#pacid=19656964#
Chr1    phytozomev10    CDS 4486    4605    .   +   0   ID=AT1G01010.1.TAIR10.CDS.3#Parent=AT1G01010.1.TAIR10#pacid=19656964#
Chr1    phytozomev10    CDS 4706    5095    .   +   0   ID=AT1G01010.1.TAIR10.CDS.4#Parent=AT1G01010.1.TAIR10#pacid=19656964#
Chr1    phytozomev10    CDS 5174    5326    .   +   0   ID=AT1G01010.1.TAIR10.CDS.5#Parent=AT1G01010.1.TAIR10#pacid=19656964#

3.BEGDIN和END模式

BEGIN是在开始读取一个文件之前进行的操作,其后面的代码只会运行一次
END 指令和 BEGIN 正好相反,在 awk 读取并且处理完文件的所有内容之后,才会执行 END 后面的代码

pengzw@super-server:~$ cat test.gff
A   B   C   D   E   F   G   H   I
Chr1    phytozomev10    gene    3631    5899    .   +   .   ID=AT1G01010.TAIR10;Name=AT1G01010
Chr1    phytozomev10    mRNA    3631    5899    .   +   .   ID=AT1G01010.1.TAIR10;Name=AT1G01010.1;pacid=19656964;longest=1;Parent=AT1G01010.TAIR10
Chr1    phytozomev10    five_prime_UTR  3631    3759    .   +   .    ID=AT1G01010.1.TAIR10.five_prime_UTR.1;Parent=AT1G01010.1.TAIR10;pacid=19656964
pengzw@super-server:~$ awk 'BEGIN{print "C D"} NR>=2 {print $3"\t"$4}' test.gff 
C D
gene    3631
mRNA    3631
five_prime_UTR  3631
pengzw@super-server:~$ awk 'BEGIN{print "C D"} END{print"end"} NR>=2 {print $3"\t"$4}' test.gff
C D
gene    3631
mRNA    3631
five_prime_UTR  3631
end

4.action 筛选

awk的大括号里面的代码不仅仅只有打印的功能,还可以进行常规的算数运算
+ - 运算符

pengzw@super-server:~$ awk 'BEGIN{print "C D E"} END{print"end"} NR>=2 {print $3,$4,$5,$5-$4}' test.gff
C D E
gene 3631 5899 2268
mRNA 3631 5899 2268
five_prime_UTR 3631 3759 128
end

action中使用条件语句if,两个中括号,一个括号

  1. || 是或运算, 两边有一个为true,表达式就为true, 意为满足条件A或满足条件B。

  2. &&是与运算,两边都为true,表达式才为true,意为满足条件A且满足条件B。

### 且
pengzw@super-server:~$ awk '{if($3=="gene" && $4>="10"){print $3,$4,$5,$5-$4}}' test.gff
gene 3631 5899 2268

###或
pengzw@super-server:~$ awk '$3=="gene" || $3=="mRNA "  test.gff
输出不包含@符号的行
awk '!/@/' a.txt           # 输出不包含@符号的行
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 194,242评论 5 459
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 81,769评论 2 371
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 141,484评论 0 319
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,133评论 1 263
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,007评论 4 355
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,080评论 1 272
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,496评论 3 381
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,190评论 0 253
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,464评论 1 290
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,549评论 2 309
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,330评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,205评论 3 312
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,567评论 3 298
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 28,889评论 0 17
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,160评论 1 250
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,475评论 2 341
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,650评论 2 335