作为一个从没有做过转录组上游分析的小白,以前都是直接用公司的数据,今天终于要自己动手比对基因组了!
环境搭建
- 首先下载mamba,相对conda来说更快,再也不怕conda卡在solving environment啦!
wget https://github.com/conda-forge/miniforge/releases/latest/download/Mambaforge-Linux-x86_64.sh
bash Mambaforge-Linux-x86_64.sh
- 装好mamba后下载必须的生信软件
mamba install -c bioconda -y bwa samtools blast blat bedtools fastqc multiqc trimmomatic hisat2
比对参考基因组
- 这里以工具hisat2为例,其他的转录组比对工具还包括STAR,Bowtie2,BWA,Tophat等
- 下载人的参考基因组并解压
# hg38
wget ftp://ftp.ebi.ac.uk/pub/databases/gencode/Gencode_human/release_38/GRCh38.primary_assembly.genome.fa.gz
gunzip GRCh38.primary_assembly.genome.fa.gz
# mm10
wget ftp://ftp.ebi.ac.uk/pub/databases/gencode/Gencode_mouse/release_M25/GRCm38.primary_assembly.genome.fa.gz
gunzip GRCm38.primary_assembly.genome.fa.gz
- 使用hisat2建立索引
# hg38
hisat2-build -p 20 GRCh38.primary_assembly.genome.fa hg38_index
# mm10
hisat2-build -p 20 GRCm38.primary_assembly.genome.fa mm10_index
- 比对参考基因组
hisat2 -p 50 -x /home/txm/genome/hg38_index -U A149od_1.fq.gz -S A149od_1_hg38_aligned.sam
- sam转为二进制的bam
samtools view -bS A149od_1_hg38_aligned.sam -o A149od_1_hg38_aligned.bam
- 排序bam文件
samtools sort A149od_1_hg38_aligned.bam -o A149od_1_hg38_aligned_sort.bam
- 为bam文件创建索引
samtools index A149od_1_hg38_aligned_sort.bam
转录本定量
这里以StringTie为例,其他的转录组比对工具还包括Salmon,Kallisto,Cufflinks等
- 下载人的基因组注释文件并解压
# hg38
wget https://ftp.ebi.ac.uk/pub/databases/gencode/Gencode_human/release_38/gencode.v38.annotation.gtf.gz
gunzip gencode.v38.annotation.gtf.gz
# mm10
wget https://ftp.ebi.ac.uk/pub/databases/gencode/Gencode_mouse/release_M25/gencode.vM25.annotation.gtf.gz
gunzip gencode.vM25.annotation.gtf.gz
- 使用stringtie进行转录本定量
stringtie A149od_1_hg38_aligned_sort.bam -o A149od_1_hg38_transcript.gtf -e -G /home/txm/genome/gencode.v38.annotation.gtf -A A149od_1_hg38_abundance.tsv -p 10
输出的tsv文件即可用于下游分析
参考
http://www.aais.pku.edu.cn/clshpc/quession/shownews.php?id=109
https://www.jianshu.com/p/c9434353b648