SnpSift学习笔记(一)

欢迎关注"生信修炼手册"

除了filter功能外,snpsift还提供了许多实用的功能,本篇文章主要看下注释相关的几个功能。

1. annotate

annotate命令对输入的VCF文件进行注释,需要一个数据库的VCF文件,比如dbsnp等,通过在数据库中查找,将数据库VCF文件中的ID和INFO字段信息输出出来, 用法如下

java -jar SnpSift.jar annotate dbSnp132.vcf variants.vcf > variants_annotated.vcf

dbSnp132.vcf就是数据库对应的VCF文件,variants.vcf就是需要注释的VCF文件,输出结果通过重定向符号保存到variants_annotated.vcf文件中。

variants.vcf的内容如下

#CHROM  POS ID REF  ALT  QUAL FILTER  INFO
22 16157571 . T G 0.0 FAIL NS=53
22 16346045 . T C 0.0 FAIL NS=244
22 16350245 . C A 0.0 FAIL NS=192
22 17054103 . G A 0.0 PASS NS=404
22 17071906 . A T 0.0 PASS NS=464
22 17072347 . C T 0.0 PASS NS=464
22 17072394 . C G 0.0 PASS NS=463
22 17072411 . G T 0.0 PASS NS=464

默认情况下,会将数据库中的ID和INFO两个字段的信息都注释上去,输出结果如下

#CHROM POS ID REF ALT QUAL FILTER INFO
22 16157571 . T G 0.0 FAIL NS=53
22 16346045 rs56234788 T C 0.0 FAIL NS=244;RSPOS=16346045;GMAF=0.162248628884826;dbSNPBuildID=129;SSR=0;SAO=0;VP=050100000000000100000100;WGT=0;VC=SNV;SLO;GNO
22 16350245 rs2905295 C A 0.0 FAIL NS=192;RSPOS=16350245;GMAF=0.230804387568556;dbSNPBuildID=101;SSR=1;SAO=0;VP=050000000000000100000140;WGT=0;VC=SNV;GNO
22 17054103 rs4008588 G A 0.0 PASS NS=404;RSPOS=17054103;GMAF=0.123400365630713;dbSNPBuildID=108;SSR=0;SAO=0;VP=050100000000070010000100;WGT=0;VC=SNV;SLO;VLD;G5A;G5;KGPilot123

如果你只需要ID或者INFO中的一个,可以通过参数-id-info选择你需要的注释信息,示例如下

java -jar SnpSift.jar annotate -id dbSnp132.vcf variants.vcf > variants_annotated.vcf

添加了-id参数之后,就只会注释ID字段的信息了。

2. varType

varType命令会在INFO字段中加入突变类型的信息,共有以下5种突变类型

  1. SNP

  2. MNP

  3. INS

  4. DEL

  5. MIXED


如果输入的VCF文件中只包含了一个样本的突变信息,这个命令还会给出HOM/HET的信息,用法如下

java -jar SnpSift.jar varType  test.vcf | grep -v "^#" | head
20 10469 .  C  G  100.0 PASS  SNP;HOM  GT:AP 0|0:0.075,0.060
20 10492 .  C  T  100.0 PASS  SNP;HET  GT:AP 0|1:0.180,0.345
20 10575 .  C  CG 100.0 PASS  DEL;HET  GT:AP 0|1:0.000,0.000
20 10611 .  CG C  100.0 PASS  INS;HET  GT:AP 0|1:0.000,0.010
20 10618 .  GT TA 100.0 PASS  MNP;HET  GT:AP 0|1:0.020,0.030

3. gwasCat

gwasCat命令使用GWAS catalog数据库对输入的VCF文件进行注释,用法如下

java -jar SnpSift.jar gwasCat gwascatalog.txt test.vcf | tee test.gwas.vcf

GWAS Catalog数据库存储了相关疾病和性状的SNP关联分析结果,输出结果如下

1 1005806 rs3934834   C   T   .   PASS    AF=0.091;GWASCAT=Body_mass_index    
1 2069172 rs425277    C   T   .   PASS    AF=0.400;GWASCAT=Height
1 2069681 rs3753242   C   T   .   PASS    AF=0.211;GWASCAT=Reasoning  
1 2392648

在输出结果中,会给出患病的风险率和相关疾病或性状的描述信息

4. dbnsfp

dbnfsp 是一个综合性的数据库,收录了SIFT, Polyphen2, LRT, MutationTaster等多种算法预测的基因组变异对功能的影响。通过snpsfit的dbnsfp命令,可以用这个数据库对变异位点进行注释,用法如下

java -jar SnpSift.jar dbnsfp -v myFile.vcf > myFile.annotated.vcf

第一次运行时,会自动下载dbnsfp对应的数据库文件。自动下载的数据库文件是snpSift官方整理的,如果你发现不是最新版,也可以自己去dbnsfp的官网下载最新版,然后自己整理,命令如下

wget http://dbnsfp.houstonbioinformatics.org/dbNSFPzip/dbNSFP2.9.zip
unzip dbNSFP2.9.zip
(head -n 1 dbNSFP2.9_variant.chr1 ; cat dbNSFP2.9_variant.chr* | grep -v "^#" ) > dbNSFP2.9.txt
bgzip dbNSFP2.9.txt
tabix -s 1 -b 2 -e 2 dbNSFP2.9.txt.gz

5. phastCons

phastCons是一款计算保守区域的软件,通过snpsift的phastCons命令可以对变异位点进行保守区域的注释。

第一步下载数据库,命令如下

mkdir -p ~/snpEff/db/phastCons
cd ~/snpEff/db/phastCons
wget http://hgdownload.soe.ucsc.edu/goldenPath/hg19/phastCons100way/hg19.100way.phastCons/chr1.phastCons100way.wigFix.gz
...
wget http://hgdownload.soe.ucsc.edu/goldenPath/hg19/phastCons100way/hg19.100way.phastCons/chrY.phastCons100way.wigFix.gz

第二步,进行注释,命令如下

java -jar SnpSift.jar phastCons ~/snpEff/db/phastCons file.vcf > file.phastCons.vcf

6. geneSets

采用MSigDb数据库提供的基因集注释信息,对突变位点所在基因进行注释,用法如下

java -jar SnpSift.jar geneSets -v db/msigDb/msigdb.v3.1.symbols.gmt test.ann.vcf > test.eff.geneSets.vcf

输出结果会在INFO中新增一个MSigDb注释信息,示例如下

MSigDb=ACEVEDO_METHYLATED_IN_LIVER_CANCER_DN,CHR1P36,KEGG_OLFACTORY_TRANSDUCTION,REACTOME_GPCR_DOWNSTREAM_SIGNALING,REACTOME_OLFACTORY_SIGNALING_PATHWAY,REACTOME_SIGNALING_BY_GPCR

扫描关注微信号,更多精彩内容等着你!

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,271评论 5 476
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,275评论 2 380
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,151评论 0 336
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,550评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,553评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,559评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,924评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,580评论 0 257
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,826评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,578评论 2 320
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,661评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,363评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,940评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,926评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,156评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,872评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,391评论 2 342

推荐阅读更多精彩内容

  • 下班前一杯热乎乎的姜糖水直暖人心,Thank you.最近真的很充实很充实,上午练习讲课学习,下午一直忙到现在,都...
    浅的梦i阅读 506评论 0 2
  • 眼界决定着一个人的心胸,留住眼前人,事事终归人,若看过壮阔的瀑布,或宽广的海岸,我想你是不会留恋一湾浊水的。 小生...
    雨泽丨阅读 345评论 0 3
  • 年轻是理性思维中的创造潜力,是情感活动的一股不灭的朝气,是人生春色深处的一缕清风。 年轻,意味着甘愿放弃温馨浪漫的...
    MinePoppy阅读 113评论 0 0
  • 开出满山花骨朵儿开出一片相思海傻傻的我甜甜的你小小的云彩落青苔一步一徘徊 一个人静静地开从塞北到江南开到你的城市把...
    杨乌那希阅读 149评论 0 0