构建非冗余rRNA数据库
参考riboPicker官网文档。
下载并安装riboPicker
wget https://excellmedia.dl.sourceforge.net/project/ribopicker/standalone/ribopicker-standalone-0.4.3.tar.gz
# 解压即可使用
tar -zxvf ribopicker-standalone-0.4.3.tar.gz
主要为了使用该软件自带的格式化脚本; 自带的bwa程序版本是0.5.9-r16.
下载并格式化数据
SILVA数据库
# 下载SILVA数据库,目前最新版本r132
wget https://www.arb-silva.de/fileadmin/silva_databases/current/Exports/SILVA_132_SSURef_tax_silva_trunc.fasta.gz
wget https://www.arb-silva.de/fileadmin/silva_databases/current/Exports/SILVA_132_LSURef_tax_silva_trunc.fasta.gz
gunzip *gz
# 格式化SILVA数据库序列
perl formatSilvaData.pl SILVA_132_SSURef_tax_silva_trunc.fasta ssr132
perl formatSilvaData.pl SILVA_132_LSURef_tax_silva_trunc.fasta slr132
RDP数据库
# 下在RDP数据库genbank格式文件,最新版本11.5
wget http://rdp.cme.msu.edu/download/current_Bacteria_unaligned.gb.gz
wget http://rdp.cme.msu.edu/download/current_Archaea_unaligned.gb.gz
wget http://rdp.cme.msu.edu/download/current_Fungi_unaligned.gb.gz
# 合并所有文件
cat *gb.gz > all_11.5.gb
# 格式化
perl formatRdpData.pl all_11.5.gb rdp1105
GreenGenes数据库
wget http://greengenes.lbl.gov/Download/Sequence_Data/Greengenes_format/greengenes16SrRNAgenes.txt.gz
gunzip greengenes16SrRNAgenes.txt.gz
perl formatGreengenesData.pl greengenes16SrRNAgenes.txt gg
Rfam数据库
下载RF00001和RF00002两个family的序列.
# 格式化序列文件
perl formatRfamSeqs.pl RF00001.fasta.txt rfam5s141
perl formatRfamSeqs.pl RF00002.fasta.txt rfam58s141
合并数据库
cat ssr132.fasta slr132.fasta rdp1105.fasta gg.fasta rfam5s141.fasta rfam58s141.fasta > all.fa
# prinseq软件,rrnadb.fasta即为非冗余rRNA数据库
prinseq-lite.pl -log -verbose -fasta all.fa -derep 12345 -out_good rrnadb -out_bad all_reps