【202301】
Q:write a genome assembly and annotation pipeline for each step with bioinformatic tool references
A:基因组组装与注释流程如下:
- 原始数据处理:
- 长度过滤:使用Trimmomatic(http://www.usadellab.org/cms/?page=trimmomatic)对长度过短的读长进行过滤。
- 去重:使用FASTX-Toolkit(http://hannonlab.cshl.edu/fastx_toolkit/)对重复的读长进行去重。
- 合并:使用PEAR(https://sco.h-its.org/exelixis/web/software/pear/)将同一样品的读长进行合并。
- 基因组组装:
- De novo组装:使用SPAdes(http://cab.spbu.ru/software/spades/)或ABySS(https://www.bcgsc.ca/platform/bioinfo/software/abyss)对原始数据进行De novo组装。
- 参考比对:使用BWA(http://bio-bwa.sourceforge.net/)或Bowtie2(http://bowtie-bio.sourceforge.net/bowtie2/index.shtml)将组装结果与参考基因组进行比对。
- 基因预测:
- 基因预测:使用AUGUSTUS(http://bioinf.uni-greifswald.de/augustus/)或SNAP(http://snap.cs.berkeley.edu/)对比对结果进行基因预测。
- 基因注释:
- 序列比对:使用DIAMOND(https://github.com/bbuchfink/diamond)或BLAST(https://blast.ncbi.nlm.nih.gov/Blast.cgi)将预测出的基因序列与已知数据库(如UniProt,NCBI NR等)进行比对。
- 功能分配:使用InterProScan(https://www.ebi.ac.uk