我有一些WGS和WES数据需要分析,看了很多博客和文章,对基本流程已经有了大概认识,但是实战的时候,却卡在的人的参考基因组的选择上。查阅了很多帖子和网站资料,最终还是决定记录一下我的选择。
1.参考基因组的选择
先打开UCSC下载参考人基因组的页面Index of /goldenPath/hg38/bigZips (ucsc.edu)
通过详细阅读网站关于基因组的说明(上图第一个红圈),我发现在做SNV分析时,hg38基因组与hg19基因组相比更适合,准确度更高而且更全面,具体可参照这个网站Human genome reference builds - GRCh38 or hg38 - b37 - hg19 – GATK (broadinstitute.org)的介绍说明
我还发现,ucsc网站给出了做BWA比对时参考基因组的选择方法(第二个红圈圈起来的),网址Which human reference genome to use? (lh3.github.io),打开发现,这是BWA比对软件的作者Li Heng给出的在用BWA做比对时,关于参考基因组的选择建议,并且给出了下载的ftp地址(上图所示),比如我选择hg38基因组的话,ftp下载地址为ftp://ftp.ncbi.nlm.nih.gov/genomes/all/GCA/000/001/405/GCA_000001405.15_GRCh38/seqs_for_alignment_pipelines.ucsc_ids/GCA_000001405.15_GRCh38_no_alt_analysis_set.fna.gz
这个ftp地址里同时还有已经建好的相应基因组的BWA index,因为我想自己敲代码创建一次,所以只下载了基因组,在服务器上直接用wget ftp://ftp.ncbi.nlm.nih.gov/genomes/all/GCA/000/001/405/GCA_000001405.15_GRCh38/seqs_for_alignment_pipelines.ucsc_ids/GCA_000001405.15_GRCh38_no_alt_analysis_set.fna.gz即可下载
2. 使用BWA对fasta格式的参考基因组文件构建索index
首先我将下载好的基因组文件重命名
mv GCA_000001405.15_GRCh38_no_alt_analysis_set.fna GRCh38_no_alt_analysis_set.fa
然后我创建了名为bwa_index.sh的shell脚本文件,命令如下:
#!/usr/bin/bash
bwa index -p hg38 GRCh38_no_alt_analysis_set.fa
提交后台运行此脚本,并记录运行日志和运行时间
nohup time sh bwa-index.sh >bwa_index.log 2>&1 &
我记录了一下,大概一个小时即可成功生成索引文件