基于HI-C,将contig挂载到scaffold水平,同时可对contig进行纠错。
具体可见:Ghurye, J., Pop, M., Koren, S., Bickhart, D., & Chin, C. S. (2017). Scaffolding of long read assemblies using long range contact information. BMC genomics, 18(1), 527. Link
1. 安装
依赖
## 建p y2.7的环境
conda create -n py2.7 python=2.7
conda activate py2.7
## 安装networkx模块
pip install networkx==1.11
## 安装SALSA (安装最新即可)
git clone https://githup.com/marbl/SALSA.gti
cd SALSA
make -j8
2. 简单使用
所需要文件
- HI-C reads 比对到contig的bam文件
- contigs.fa
- GFA文件(可不要)
bam文件也可以使用其他HI-C挂载软件所得,均可。
bam mem -SP5M -t 10 contig.fa HiC.R1.fq.gz HiC.R2.fq.gz \
| samtools view -hF 256 - \
| samtools sort -@ 10 -o alignment.bam -T tmp.ali
samtools index alignment.bam
运行SALSA
# bam -->bed
bamToBed -i read.fastq.gz.sorted.bam >alignment.bed
# sort
sort -k4 alignment.bed >tmp && mv tmp alignment.bed
# SALSA
run_pipeline.py -a contigu.fa -l contig.fa.fai -b \
alignment.bed -e AAGCTT -o scaffolds
一些参数说明:
- -m : 选择yes,则对contigs进行纠错
- -e:酶切位点,根据自己实际情况写,Mbol: GATC; HinDIII: AAGCTT。
- -o 输出文件
最终结果,在scaffold中,最主要的两个文件就是
- scaffolds_FINAL.agp
- scaffolds_FINAL.fasta
感觉效果一般,我个人不推介