PGA-Plastid Genome Annotator
Qu X-J, Moore MJ, Li D-Z, Yi T-S. 2019. PGA: a software package for rapid, accurate, and flexible batch annotation of plastomes. Plant Methods 15:50
一、操作环境配置
1、Windows、Linux、Mac操作系统都可以
2、安装Perl 5编程语言
(1)Windows系统下推荐下载ActivePerl或者Strawberry Perl。
(2)Linux系统下Perl 5安装步骤。
(3)Mac系统下Perl 5安装步骤。
3、安装本地Blast最新版本
(1)Windows系统可以安装ncbi-blast-2.9.0+-win64.exe。
根据说明直接安装,自动加入到环境变量。
(2)Linux系统可以安装ncbi-blast-2.9.0+-x64-linux.tar.gz,Mac系统可以安装ncbi-blast-2.9.0+-x64-macosx.tar.gz。
通过以下命令加入到环境变量。
vim ~/.bashrc
export PATH=/xxx/xxx/blast-2.9.0+/bin:$PATH
source ~/.bashrc
安装完本地Blast之后在命令行输入以下命令检测安装是否成功。
blastn -version
4、安装PGA
(1)Windows系统下直接下载,解压后直接运行。
(2)Linux系统和Mac系统下可以用以下命令下载,加入环境变量,并使脚本PGA.pl处于可读可写可执行状态。
git clone https://github.com/quxiaojian/PGA.git
vim ~/.bashrc
export PATH=/xxx/xxx/PGA:$PATH
source ~/.bashrc
chmod a+rwx PGA.pl
通过以下命令测试PGA安装是否成功。
perl PGA.pl
如果安装成功则出现以下使用信息,展示每个参数的赋值介绍。
Usage:
PGA.pl -r -t [-i -p -q -o -f -l]
Copyright (C) 2019 Xiao-Jian Qu
Please contact <quxiaojian@sdnu.edu.cn>, if you have any bugs or questions.
[-h -help] help information.
[-r -reference] required: (default: reference) input directory name containing GenBank-formatted file(s) that from the same or close families.
[-t -target] required: (default: target) input directory name containing FASTA-formatted file(s) that will be annotated.
[-i -ir] optional: (default: 1000) minimum allowed inverted-repeat (IR) length.
[-p -pidentity] optional: (default: 40) any PCGs with a TBLASTN percent identity less than this value will be listed in the log file and
will not be annotated.
[-q -qcoverage] optional: (default: 0.5,2) any PCGs with a query coverage per annotated PCG less or greater than each of these two values (<1,>1)
will be listed in the log file.
[-o -out] optional: (default: gb) output directory name.
[-f -form] optional: (default: circular) circular or linear form for FASTA-formatted file.
[-l -log] optional: (default: warning) log file name containing warning information for annotated GenBank-formatted file(s).
二、测试
PGA软件包包含两个例子,一个用Amborella作为参考注释Rosa,另一个用Zamia作为参考注释Dioon,可通过以下命令进行测试。通常情况下只使用-r和-t两个必选参数,其它参数是可选参数,会自动赋予默认值,因此下面两条命令是等价的。如果对可选参数足够了解,可以自由调整可选参数的赋值。
perl PGA.pl -r test/angiosperms/reference -t test/angiosperms/target
或者
perl PGA.pl -r test/angiosperms/reference -t test/angiosperms/target -i 1000 -p 40 -q 0.5,2 -o gb -f circular -l warning
三、注意事项
1、如何选择参考?
参考叶绿体基因组的注释质量是一个最重要的前提。假设研究对象是蔷薇科,推荐使用软件包中提供的无油樟(Amborella)作参考注释蔷薇科的一个研究类群,然后根据log文档用Geneious整体检查一下基因的注释质量,再用这两个类群做参考,一个无油樟,一个蔷薇科的类群,来注释蔷薇科的其它类群,分别为了保证注释基因的数目完整以及亲缘关系更近。另外,只用蔷薇科的这个类群作为参考也可以,前提是能保证自己的参考不缺少基因,否则蔷薇科的其它类群注释完后同样会缺少基因。
2、能否注释不完整的叶绿体基因组?
需要人为界定注释对象的完整程度。假设注释对象只是缺少很小一段序列,仍然可以使用完整的叶绿体基因组作为参考进行注释;假设注释对象缺少很大一段序列,推荐使用progressiveMauve比对完整的参考叶绿体基因组和不完整的注释对象,然后截取参考叶绿体基因组中共线性的区段作为新的参考来注释不完整的注释对象。
3、能否注释异养植物的叶绿体基因组?
假设注释对象是丢失部分基因的异养植物,仍然可以用完整的叶绿体基因组作为参考进行注释。针对假基因,PGA提供了判断的参数-q,即注释基因的长度与参考基因的长度之间的比值,阈值的选择会影响假基因的判断,需要根据log文档以及参考叶绿体基因组仔细检查假基因的存在情况。