2020-12-04生物信息单行脚本

生信单行脚本

生信息有用的单行脚本 (and some, more generally useful).

来源
awk、sed基础
awk、sed生信单行程序
sort,uniq和cut等等
find,xargs,和GNU parallel
seqtk
GFF3 Annotations
其他有用的简称 .bashrc
更多...

Sources

Basic awk & sed

提取文件中的2, 4, and 5 列:

awk '{print $2,$4,$5}' file.txt

输出第五列等于abc123的行:

awk '$5 == "abc123"' file.txt

输出第五列不是abc123的行:

awk '$5 != "abc123"' file.txt

输出第七列以字母a-f开头的行:

awk '$7  ~ /^[a-f]/' file.txt

输出第七列不是以字母a-f开头的行:

awk '$7 !~ /^[a-f]/' file.txt

计算第二列不重复的值保存在哈希arr中 (一个值只保存一次):

awk '!arr[$2]++' file.txt

输出第三列的值比第五列大的行:

awk '$3>$5' file.txt

计算文件中第一列的累加值，输出最后的结果:

awk '{sum+=$1} END {print sum}' file.txt

计算第二列的平均值:

awk '{x+=$2}END{print x/NR}' file.txt

用bar替换文件中所有的foo:

sed 's/foo/bar/g' file.txt

消除行开头空和格制表符:

sed 's/^[ \t]*//' file.txt

消除行结尾的空格和制表符:

sed 's/[ \t]*$//' file.txt

消除行中开头和结尾的空格和制表符:

sed 's/^[ \t]*//;s/[ \t]*$//' file.txt

删除空行:

sed '/^$/d' file.txt

删除包含‘EndOfUsefulData’的行及其后所有的行:

sed -n '/EndOfUsefulData/,$!p' file.txt

awk & sed for bioinformatics

生信单行sed,awk

[返回]

Returns all lines on Chr 1 between 1MB and 2MB in file.txt. (assumes) chromosome in column 1 and position in column 3 (this same concept can be used to return only variants that above specific allele frequencies):

输出Chr为1在1M和2M之间的所有行。（假设）染色体在第一列，位点在第三列（基于同样的假设可以用来返回类似特定等位基因频率的变异）

cat file.txt | awk '$1=="1"' | awk '$3>=1000000' | awk '$3<=2000000'

Basic sequence statistics. Print total number of reads, total number unique reads, percentage of unique reads, most abundant sequence, its frequency, and percentage of total in file.fq:
基本序列统计。输出总的reads数，不重复的reads总数，不重复reads百分比，最大冗余的序列及其频度以及总占比百分数。

cat myfile.fq | awk '((NR-2)%4==0){read=$1;total++;count[read]++}END{for(read in count){if(!max||count[read]>max) {max=count[read];maxRead=read};if(count[read]==1){unique++}};print total,unique,unique*100/total,maxRead,count[maxRead],count[maxRead]*100/total}'

转换.bam为.fastq:

samtools view file.bam | awk 'BEGIN {FS="\t"} {print "@" $1 "\n" $10 "\n+\n" $11}' > file.fq

Keep only top bit scores in blast hits (best bit score only):
只取blast采样中的顶级位点的分数（最高的位点分）

awk '{ if(!x[$1]++) {print $0; bitscore=($14-1)} else { if($14>bitscore) print $0} }' blastout.txt

Keep only top bit scores in blast hits (5 less than the top):
只取blast采样中的顶级位点的分数（比顶级少于5的）

awk '{ if(!x[$1]++) {print $0; bitscore=($14-6)} else { if($14>bitscore) print $0} }' blastout.txt

分割多序列FASTA文件为单序列FASTA文件

awk '/^>/{s=++d".fa"} {print > s}' multi.fa

输出fasta文件中的每条序列的序列名称和长度

cat file.fa | awk '$0 ~ ">" {print c; c=0;printf substr($0,2,100) "\t"; } $0 !~ ">" {c+=length($0);} END { print c; }'

转化FASTQ文件为FASTA:

sed -n '1~4s/^@/>/p;2~4p' file.fq > file.fa

从第二行开始每四行取值（从FASTQ文件提取序列）。

sed -n '2~4p' file.fq

输出中剔除第一行：

awk 'NR>1' input.txt

输出20-80行:

awk 'NR>=20&&NR<=80' input.txt

计算二，三行列的和并追加到每行后输出

awk '{print $0,$2+$3}' input.txt

计算fastq文件平均reads的长度

awk 'NR%4==2{sum+=length($0)}END{print sum/(NR/4)}' input.fastq

转化VSF文件为BED文件

sed -e 's/chr//' file.vcf | awk '{OFS="\t"; if (!/^#/){print $1,$2-1,$2,$4"/"$5,"+"}}'

sort, uniq, cut, etc.

[返回开头]

输出带行号的内容:

cat -n file.txt

去重复行计数

cat file.txt | sort -u | wc -l

找到两文件都有的行（假设两个文件都是无重复行，重定向执行‘wd -l’计算同样行的行数）

sort file1 file2 | uniq -d

# 安全的方法
sort -u file1 > a
sort -u file2 > b
sort a b | uniq -d

# 用comm的方法
comm -12 file1 file2

对文件按照第九列数字顺序排序（g按照常规数值，k列）

sort -gk9 file.txt

找到第二列出现最多的字符串

cut -f2 file.txt | sort | uniq -c | sort -k1nr | head

从文件中随机取10行

shuf file.txt | head -n 10

输出所有三个所可能的DNA序列

echo {A,C,T,G}{A,C,T,G}{A,C,T,G}

Untangle an interleaved paired-end FASTQ file. If a FASTQ file has paired-end reads intermingled, and you want to separate them into separate /1 and /2 files, and assuming the /1 reads precede the /2 reads:

解开一列交错paired-end fastq文件。如果fastq文件有乱序paired-end reads，你想将其分离成单独的/1，/2的文件保存，这里假设/1 reads 在/2 前面：

cat interleaved.fq |paste - - - - - - - - | tee >(cut -f 1-4 | tr "\t" "\n" > deinterleaved_1.fq) | cut -f 5-8 | tr "\t" "\n" > deinterleaved_2.fq

Take a fasta file with a bunch of short scaffolds, e.g., labeled >Scaffold12345, remove them, and write a new fasta without them:

将一个fasta文件转成一系列短的scaffolds。比如，标签 ">Scaffold12345"，然后移出他们，保存一个去掉他们的新文件：

samtools faidx genome.fa && grep -v Scaffold genome.fa.fai | cut -f1 | xargs -n1 samtools faidx genome.fa > genome.noscaffolds.fa

Display hidden control characters:

显示一个隐藏的控制字符：

python -c "f = open('file.txt', 'r'); f.seek(0); file = f.readlines(); print file"

find, xargs, and GNU parallel

[返回]

通过 https://www.gnu.org/software/parallel/. 载 GNU parallel

搜索文件夹及其子目录中名称为 .bam 文件（目录也算）:

find . -name "*.bam"

删除上面搜到的文件列表(不可逆的危险操作，谨慎使用！删除之前请自习确认)

find . -name "*.bam" | xargs rm

将所有.txt 文件修改为.bak(例如在对*.txt做操作之前用于文件备份)

find . -name "*.txt" | sed "s/\.txt$//" | xargs -i echo mv {}.txt {}.bak | sh

Chastity filter raw Illumina data (grep reads containing :N:, append (-A) the three lines after the match containing the sequence and quality info, and write a new filtered fastq file):

对Illumina数据做Chastity过滤（grep 查询包含:N:，用（-A）选项第三列信息附加在匹配的包含一个序列质量信息后，并保存为一个新的fasta文件）

find *fq | parallel "cat {} | grep -A 3 '^@.*[^:]*:N:[^:]*:' | grep -v '^\-\-$' > {}.filt.fq"

通过parallel并行运行12个FASTQC任务

find *.fq | parallel -j 12 "fastqc {} --outdir ."

通过parallel给bam做索引，通过--dry-run打印测试这些命令，实际上并未做执行。
find *.bam | parallel --dry-run 'samtools index {}'

seqtk

[back to top]

Seqtk项目托管地址https://github.com/lh3/seqtk。Seqtk是一个快捷轻量的处理FASTA和FASTQ格式基因序列的工具。他可以是先FASTA和FASTQ无缝处理和转化，同时支持gzip格式的压缩文件。

把FASTQ转化为FASTA:

seqtk seq -a in.fq.gz > out.fa

转化ILLUMINA 1.3+ 格式FASTQ为FASTA，并且以小于20的mask bases获得小写字母(第一命令行)或者到N（第二）。
seqtk seq -aQ64 -q20 in.fq > out.fa
seqtk seq -aQ64 -q20 -n N in.fq > out.fa

折叠长FASTA/Q行，并且去除其注释：

seqtk seq -Cl60 in.fa > out.fa

转化多行FASTQ到四行FASTQ:

seqtk seq -l0 in.fq > out.fq

反转FASTA/Q序列:

seqtk seq -r in.fq > out.fq

用序列文件中的名称（比如name.1st）提取序列,一个虚列名一行:

seqtk subseq in.fq name.lst > out.fq

利用序列文件中的”reg.bed“r信息提取地理信息的序列:

seqtk subseq in.fa reg.bed > out.fa

编码‘reg.bed’地理信息到小写

seqtk seq -M reg.bed in.fa > out.fa

从两个大的paired FASTQ文件提取10000个read pairs（记得用同样的随机种子保持 paire）

seqtk sample -s100 read1.fq 10000 > sub1.fq
seqtk sample -s100 read2.fq 10000 > sub2.fq

利用Phred公式从两头修剪低质量bases:

seqtk trimfq in.fq > out.fq

从左端修剪5bp，从右端修剪10bp的。

seqtk trimfq -b 5 -e 10 in.fa > out.fa


seqtk seq -l0 -1 interleaved.fq > deinterleaved_1.fq
seqtk seq -l0 -2 interleaved.fq > deinterleaved_2.fq

GFF3 Annotations

[back to top]

输出GFF3文件中标注的所有的序列

cut -s -f 1,9 yourannots.gff3 | grep $'\t' | cut -f 1 | sort | uniq

检测GFF3文件中标注的所有性状类型。

grep -v '^#' yourannots.gff3 | cut -s -f 3 | sort | uniq

检测GFF3文件中标注的基因数量。

grep -c $'\tgene\t' yourannots.gff3

从GFF3文件中提取所有的基因ID

grep $'\tgene\t' yourannots.gff3 | perl -ne '/ID=([^;]+)/ and printf("%s\n", $1)'

输出GFF3文件每个基因的长度

grep $'\tgene\t' yourannots.gff3 | cut -s -f 4,5 | perl -ne '@v = split(/\t/); printf("%d\n", $v[1] - $v[0] + 1)'

FASTA头列转化为GFF格式（假设头的长度，附加在”_length“ ,和Velvet assembled transcripts)）

grep '>' file.fasta | awk -F "_" 'BEGIN{i=1; print "##gff-version 3"}{ print $0"\t BLAT\tEXON\t1\t"$10"\t95\t+\t.\tgene_id="$0";transcript_id=Transcript_"i;i++ }' > file.gff

Other generally useful aliases for your .bashrc

有用的别名(.bashrc)

[back to top]

提示符修改为user@hostname:/full/path/cwd/:$形式

export PS1="\u@\h:\w\\$ "

避免反复敲诸如cd ../../..的命令（也可以用[autojump](https://github.com/joelthelion/autojump），让你在飞速的转换目录

alias ..='cd ..'
alias ...='cd ../../'
alias ....='cd ../../../'
alias .....='cd ../../../../'
alias ......='cd ../../../../../'

向前和向后浏览

alias u='clear; cd ../; pwd; ls -lhGgo'
alias d='clear; cd -; ls -lhGgo'

覆盖文件时候，先确认

alias mv="mv -i"
alias cp="cp -i"  
alias rm="rm -i"

我最喜欢的”ls“别名

alias ls="ls -1p --color=auto"
alias l="ls -lhGgo"
alias ll="ls -lh"
alias la="ls -lhGgoA"
alias lt="ls -lhGgotr"
alias lS="ls -lhGgoSr"
alias l.="ls -lhGgod .*"
alias lhead="ls -lhGgo | head"
alias ltail="ls -lhGgo | tail"
alias lmore='ls -lhGgo | more'

对cut空格和逗号，分割文件

alias cuts="cut -d \" \""
alias cutc="cut -d \",\""

解压缩tar包

alias tarup="tar -zcf"
alias tardown="tar -zxf"

或者可以用更普遍的‘extract’函数

# 源于ABSG(Advanced Bash Scripting Guide)中 Mendel Cooper的建议

extract () {
   if [ -f $1 ] ; then
       case $1 in
        *.tar.bz2)      tar xvjf $1 ;;
        *.tar.gz)       tar xvzf $1 ;;
        *.tar.xz)       tar Jxvf $1 ;;
        *.bz2)          bunzip2 $1 ;;
        *.rar)          unrar x $1 ;;
        *.gz)           gunzip $1 ;;
        *.tar)          tar xvf $1 ;;
        *.tbz2)         tar xvjf $1 ;;
        *.tgz)          tar xvzf $1 ;;
        *.zip)          unzip $1 ;;
        *.Z)            uncompress $1 ;;
        *.7z)           7z x $1 ;;
        *)              echo "don't know how to extract '$1'..." ;;
       esac
   else
       echo "'$1' is not a valid file!"
   fi
}

使用别名"mcd"创建一个目录，并且cd到该目录

function mcd { mkdir -p "$1" && cd "$1";}

跳转到上级目录，并且列出其内容

alias u="cd ..;ls"

一个好看的grep

alias grep="grep --color=auto"

刷新你的.bashrc

alias refresh="source ~/.bashrc"

编辑你的.bashrc

alias eb="vi ~/.bashrc"

常用错误别称

alias mf="mv -i"
alias mroe="more"
alias c='clear'

使用 pandoc转化markdown文档为PDF格式:

# 用法: mdpdf document.md document.md.pdf
alias mdpdf="pandoc -s -V geometry:margin=1in -V documentclass:article -V fontsize=12pt"

对当前目录搜索关键词(ft "mytext" *.txt):

function ft { find . -name "$2" -exec grep -il "$1" {} \;; }

Etc

[返回]

重复运行上一条命令:

sudo !!

列出最近最常用的命令行参数(通常是文件)

'ALT+.' or '<ESC> .'

敲出了部分命令，删除这些输入，查你忘记的明亮，拉回命令，继续输入(<CTRL+u>删除光标之前的输入，<CTRL+y>恢复上个C-U删除字符)

<CTRL+u> [...] <CTRL+y>

跳到一个目录，执行命令，然后返回当前目录(()的用法)

(cd /tmp && ls)

记时秒表 (输入Enter or ctrl-d 停止):

time read

把上次执行的命令生成一个脚本

echo "!!" > foo.sh

重用上次命令的所有参数

!*

列出或者删除一个目录中所有不匹配的特定后缀的文件（例如，列出所有不是压缩的文件，删除所有不以.foo和.bar后缀的文件）

ls !(*.gz)
rm !(*.foo|*.bar)

利用上次的命令，但是不需要他的的参数（重新输入参数）:

!:- <new_last_argument>

激活一个快捷的编辑器，输入，编辑长的，复杂，巧妙的命令:

fc

输出一个特定的行（比如 42行）

sed -n 42p <file>

终结一个冻结的ssh session(会车换行，敲~键，在敲下.键）

[ENTER]~.

利用grep去除文件的空行，结果保存到新文件

grep . filename > newfilename

查找大文件（例如，大于500M的）

find . -type f -size +500M

利用截取列（例如，一个tab分割文件的第五个域）

cut -f5 --complement

查找包含特定字符的文件（-l 只输出文件名, -i 忽略大小写 -r 遍历子目录）

grep -lir "some text" *

最后编辑于：2020.12.04 19:05:38

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 199,519评论 5赞 468
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 83,842评论 2赞 376
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 146,544评论 0赞 330
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 53,742评论 1赞 271
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 62,646评论 5赞 359
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,027评论 1赞 275
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,513评论 3赞 390
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,169评论 0赞 254
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,324评论 1赞 294
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,268评论 2赞 317
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,299评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 32,996评论 3赞 315
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,591评论 3赞 303
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,667评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 30,911评论 1赞 255
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,288评论 2赞 345
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 41,871评论 2赞 341

2020-12-04生物信息单行脚本

2020-12-04生物信息单行脚本

生信单行脚本

contents

Sources

Basic awk & sed

awk & sed for bioinformatics

生信单行sed,awk

sort, uniq, cut, etc.

find, xargs, and GNU parallel

seqtk

GFF3 Annotations

Other generally useful aliases for your .bashrc

有用的别名(.bashrc)

Etc

推荐阅读更多精彩内容