基因组结构注释主要包括三个方面:从头注释(de novo prediction)、同源注释(homology-based prediction)以及基于转录组数据注释(transcriptome-based prediction)。每一种方法都有自己的优缺点,所以最后需要对多个预测结果进行整合分析,从而获得完整的基因结构。除此之外,通过近源物种共线性比对,也可以对研究物种的基因组进行基因注释。
01. 从头注释
- Augustus (准确度较高)
- GeneMark-EX (准确度较高)
- FGENESH (收费)
- SNAP
- GlimmerHMM
- Genscan
02. 同源注释
- miniprot (准确度较高)
- Blat + GenomeThreader (准确度较高)
- Blat + GeneWise
- Exonerate
03. 基于转录组注释
- HISAT2 + StringTie + TransDecoder
- Hisat2 + Scallop + TransDecoder
- Trinity + PASA
- Portcullis
- PsiCLASS (多个转录组数据)
04. 基于基因组比对
05. 整合预测结果
- BRAKER + TSEBRA
- MAKER3
- BIND and MIND workflows
- EVidenceModeler(EVM)
- minos
- REAT
06. 构建Augustus训练模型
07. 重复序列注释
参考链接
https://www.jianshu.com/p/931e9821c45a
https://github.com/harvardinformatics/GenomeAnnotation