ANNOVAR注释水稻基因组

软件：

1gffread

conda install -c bioconda gffread

gffread NIP-T2T.gff3 -T -o nip_t2t.gtf

2gffread #gff3 to gtf

gtfToGenePred #gtf to genePred (建库需要的文件)（下载： wget http://hgdownload.cse.ucsc.edu/admin/exe/linux.x86_64.v369/gtfToGenePred）

chmod+x gtfToGenePred

3annovar #注释主程序，只能通过发邮件获取（试试http://www.openbioinformatics.org/annovar/download/0wgxR2rIVP/annovar.latest.tar.gz）

建库

mkdir ricedb

数据包括：

all.con #基因组序列

all.gff3 #MSU的v7.0版本组装的注释文件（上面两个文件http://rice.uga.edu/index.shtml）

gff文件会报错所以第一步要转换成gtf文件

gffread AsianRiice_MSU.gff3 -T -o AsianRice_MSU.gtf

gtf文件转换成GenePred文件，利用GtfToGenePred工具，这里注意“-genePredExt”这个参数一定要加上

gtfToGenePred -genePredExt AsianRice_MSU.gtf Os_refGene.txt

获得的GenePred文件：生成转录组信息文件

../retrieve_seq_from_fasta.pl --format refGene --seqfle all.fa Os_refGene.txt --out Os_refGeneMrna.fa

完成。得到Os_refGeneMrna.fa。 Os_refGene.txt

注释：

perl table_annovar.pl ricedb/ --vcfinput --outfile fnal --buildver Os

注意#目前以上自建库只能基于gene注释#-geneanno 表示使用基于基因的注释一般是默认的#-dbtype refGene 表示使用"refGene"类型的数据库-out jpbc.anno 表示输出以jpbc.anno为前缀的结果文件

#Note:默认使用的为geneanno和refGene,这两个参数可以省略。#out:输出结果文件的前缀。#build:指定基因组构建版本。

假如vcf报错将vcf转化annovar

### 转annovar~/tools/annovar/convert2annovar.pl-format vcf4 sample.vcf>sample.annovar

###注释命令$>/public/home/fengting/tools/annovar/annotate_variation.pl-buildver gcf-geneanno sample.annovar -outfile sv.annovar ricedb/

sv.annovar结果文件。

ricedb/数据库存放地址

5.对于多样本合并的vcf文件注释

用convert2annovar.pl对vcf4文件进行转换成annovar的输入文件格式时，对于有两个及以上ALT碱基类型，不同的参数会导致不同的结果

比如2780070位点有两个ALT碱基

Chr1 2472436 . G T 22.72 PASS AC=2;AF=0.333;AN=6;BaseQRankSum=-0.262;DP=22;Dels=0.00;ExcessHet=0.4576;FS=0.000;HaplotypeScore=1.8128;MLEAC=2;MLEAF=0.333;MQ=23.58;MQ0=4;MQRankSum=-0.954;QD=11.36;ReadPosRankSum=-0.244;SOR=2.179 GT:AD:DP:GQ:PL 0/0:15,1:16:18:0,18,242 0/0:4,0:4:3:0,3,40 1/1:0,2:2:6:55,6,0

Chr1 2780070 . A C,T 1764.90 PASS AC=4,2;AF=0.667,0.333;AN=6;DP=46;Dels=0.00;ExcessHet=3.0103;FS=0.000;HaplotypeScore=0.0000;MLEAC=4,2;MLEAF=0.667,0.333;MQ=60.00;MQ0=0;QD=32.94;SOR=0.874 GT:AD:DP:GQ:PL 1/1:0,21,0:21:63:885,63,0,885,63,885 1/2:0,10,1:11:7:397,37,7,360,0,357 1/2:0,10,4:14:99:508,148,118,360,0,348

Chr1 5693321 . T G 616.12 PASS AC=4;AF=0.667;AN=6;BaseQRankSu

类型1 --format vcf4old

(base) fyx@huangji-5885H-V5:~/biosoft/annovar$perl convert2annovar.pl bo_r_s_3_snp.vcf -format vcf4old

Chr1 2472436 2472436 G T hom 22.72 22 23.58 11.36

Chr1 2780070 2780070 A C hom 1764.90 46 60.00 32.94

Chr1 5693321 5693321 T G hom 616.12 18 60.00 28.57

#转换时只有1型的ALT碱基保留下来，而2型的ALT碱基被过滤掉，其snp总行数与输入文件总行数相同

NOTICE: Read 730 lines and wrote 681 different variants at 681 genomic positions (681 SNPs and 0 indels)

NOTICE: Among 681 different variants at 681 positions, 0 are heterozygotes, 681 are homozygotes

NOTICE: Among 681 SNPs, 470 are transitions, 211 are transversions (ratio=2.23)

类型2 -format vcf4 -allsample -withfreq 等同于-format vcf4old --allallele

(base) fyx@huangji-5885H-V5:~/biosoft/annovar$perl convert2annovar.pl bo_r_s_3_snp.vcf -format vcf4 -allsample -withfreq

Chr1 2472436 2472436 G T 0.3333 22.72 2

Chr1 2780070 2780070 A C 0.6667 1764.90 14

Chr1 2780070 2780070 A T 0.6667 1764.90 14

Chr1 5693321 5693321 T G 0.6667 616.12 1

#在进行转换时ALT碱基的两种类型都会保留下来，并增加新增加一行，其总数比输入文件行数增多

NOTICE: Finished reading 730 lines from VCF file

NOTICE: A total of 681 locus in VCF file passed QC threshold, representing 710 SNPs (481 transitions and 229 transversions) and 0 indels/substitutions

NOTICE: Finished writing allele frequencies based on 2130 SNP genotypes (1443 transitions and 687 transversions) and 0 indels/substitutions for 3 samples

在转换时如果想保留其他列的信息可以添加参数 --includeinfo

接下来是提取相应区间的变异信息:

cat pav-gene-pos.txt | while read chr start end id

##awk '{if($3 == "'"$chr"'" && $3 == "gene" && $4 >= "'"${start}"'" && $5 <= "'"${end}"'")print } ' sample.anno.variant_function > tmp1.txt

awk '{if($3 == "'"$chr"'" && $4 >= "'"${start}"'" && $5 <= "'"${end}"'")print } ' sample.anno.variant_function > tmp1.txt

cat tmp1.txt |while read line1

echo $line1 >> res/"${id}".csv

done

##awk '$1 == "1" && $3 == "gene" && $4 >= 10000 && $5 <= 200000 {print $0} ' Arabidopsis_thaliana.TAIR10.31.gff3 > out.gff

done

该代码是一个shell脚本，它的作用是根据"pav-gene-pos.txt"文件中的位置信息对"sample.anno.variant_function"文件进行过滤，并将满足要求的行保存到文件中。

cat pav-gene-pos.txt | while read chr start end id：将文件"pav-gene-pos.txt"的内容逐行读取，并将每行的第一列数据赋值给变量"chr"，第二列赋值给变量"start"，第三列赋值给变量"end"，第四列赋值给变量"id"。

awk '{if($3 == "'"$chr"'" && $4 >= "'"${start}"'" && $5 <= "'"${end}"'")print } ' sample.anno.variant_function > tmp1.txt：使用awk命令过滤文件"sample.anno.variant_function"中的行。条件是第三列等于变量"chr"的值，并且第四列大于或等于变量"start"的值，第五列小于或等于变量"end"的值。过滤后的结果保存到tmp1.txt文件中。

cat tmp1.txt |while read line1：读取文件"tmp1.txt"的内容，逐行赋值给变量"line1"。

echo $line1 >> res/"${id}".csv：将变量"line1"的内容追加到名字为"${id}.csv"的文件中，该文件位于res目录下。

使用上述步骤来处理文件"pav-gene-pos.txt"中的每一行，直到所有行都处理完毕。

请注意，脚本中的注释行（以"##"开头的行）没有被执行，可以将它们删除。

最后编辑于：2024.05.13 12:14:51

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 203,271评论 5赞 476
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,275评论 2赞 380
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 150,151评论 0赞 336
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,550评论 1赞 273
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,553评论 5赞 365
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,559评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,924评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,580评论 0赞 257
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,826评论 1赞 297
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,578评论 2赞 320
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,661评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,363评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,940评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,926评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,156评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,872评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,391评论 2赞 342

ANNOVAR注释水稻基因组

推荐阅读更多精彩内容