1.下载三个index:
2.重命名为:
hisat2_grcm38_genome_index/genome [1-sam]
hisat2_grcm38_genome_snp_tran_index/genome_snp_tran [1-sam]
hisat2_mm10_genome_index/genome [1-sam]
3.hisat2比对命令:
hisat2 -p 10 -x ../hisat2_grcm38_genome_index/genome -1 R1.fq -2 R2.fq -S 1.sam
hisat2 -p 10 -x ../hisat2_grcm38_genome_snp_tran_index/genome_snp_tran -1 R1.fq -2 R2.fq -S 2.sam
hisat2 -p 10 -x ../hisat2_mm10_genome_index/genome -1 R1.fq -2 R2.fq -S 3.sam
4.比对率:
嘿嘿:比对发现转录本的比对率高
5.查看sam文件寻找差异:
6.看chr有哪些?
结论:基因组还是有差别的,也就是说后续的gtf不能混用!
7.下载查看gtf:
gencode:
axel -n 50 ftp://ftp.ebi.ac.uk/pub/databases/gencode/Gencode_mouse/release_M19/gencode.vM19.chr_patch_hapl_scaff.annotation.gtf.gz
gencode.vm19.GRCm38.all.ano.gtf
ensembl:
axel -n 20 ftp://ftp.ensembl.org/pub/release-94/gtf/mus_musculus/Mus_musculus.GRCm38.94.chr_patch_hapl_scaff.gtf.gz
ensembl.GRCm38.94.all.ano.gtf
NCBI:
wget -c ftp://ftp.ncbi.nih.gov/genomes/M_musculus/GFF/ref_GRCm38.p4_top_level.gff3.gz
ncbi.GRCm38.p4.all.ano.gff3
UCSC:
结论:
hisat2-GRCm38-index比对后:
若无--add-chrname,则肯定用enseml的gtf
若加了--add-chrname,则用gencode的gtf改造“+chr”/或者ensembl改造也行“+chr”
hisat2-mm10-index比对后:
使用UCSC的gtf
就转录本而言,其实用哪个都行...
8.下载查看fasta:
gencode:
axel -n 100 ftp://ftp.ebi.ac.uk/pub/databases/gencode/Gencode_mouse/release_M19/GRCm38.p6.genome.fa.gz
GRCm38.p6.genome.fa
ensembl:
axel -n 100 ftp://ftp.ensembl.org/pub/release-94/fasta/mus_musculus/dna/Mus_musculus.GRCm38.dna_sm.toplevel.fa.gz
Mus_musculus.GRCm38.dna_sm.toplevel.fa
ucsc:
axel -n 30 ftp://hgdownload.soe.ucsc.edu/goldenPath/mm10/bigZips/chromFa.tar.gz
cat *.fa > mm10.fa
查看具体序列:
结论:三者大部分相同,也有略微不同
gencode和ucsc有chr
ensembl没有chr
相比较而言,gencode和ensembl比较像,但是基本的fasta并不影响。
总结论:
使用哪个基因组的fasta都ok
使用gencode和ensembl的gtf也是一样的
差别在chr这块