1. Glimmer是什么
Glimmer软件采用马尔科夫模型识别微生物中的蛋白编码基因,主要是针对细菌,古菌和病毒。该软件由The Institute for Genomic Research开发,已经用于上千个细菌,古菌,病毒基因组的注释。不过该软件最终结果只是基因的位置信息,需要额外程序将基因从基因组上提取出来,并翻译成对应的氨基酸序列。
软件的官网 http://ccb.jhu.edu/software/glimmer/index.shtml
2. Glimmer安装
wget http://www.cbcb.umd.edu/software/glimmer/glimmer302.tar.gz
#停止正在进行的wget操作 Ctrl + Z
tar -zxvf glimmer302.tar.gz #解压缩命令
#tar -zcvf 压缩文件名 .tar.gz 被压缩文件名
cd glimmer3.02/src
make #编译
但是,安装软件难以一帆风顺。
3. 安装Trouble Shooting
3.1 报错1:
解决方案:
vi Common/gene.cc
#将文件中的446行char * p 改成 const char * p
#保存退出
:wq
3.2 报错2:
解决方案:
vi ICM/icm.cc
#将1986行char * p 改成 const char * p
#保存退出
:wq
之后在/glimmer3.02/bin下可以找到可执行文件,即说明编译完成。
4. Glimmer的使用
4.1 将一个fasta格式文件中的多条序列合并成一条
sed -e '/>/d' /Users/kimhan/Desktop/final_set_img_fnas/2795386064.fna | tr -d 'n' | awk 'BEGIN {print ">1"}{print $0}' > /Users/kimhan/Desktop/1.fna
4.2 创建训练模型
Glimmer一般使用三种方法创建训练模型:
a. 用亲缘关系很近的物种的基因;
b. 用自身序列创建的ORF数据;
c. 用基因组本身的已知信息。
这里我们采用自身数据作为训练数据。
测试数据下载:
链接:https://pan.baidu.com/s/1OTh1PDGTnRfdlCGc1M1VSQ 密码:orox
4.2.1 产生长的ORF数据
long-orfs -n -t 1.15 /Users/kimhan/Desktop/genome1.fna /Users/kimhan/Desktop/1.longorfs
4.2.2 提取数据集
extract -t /Users/kimhan/Desktop/genome1.fna /Users/kimhan/Desktop/1.longorfs > /Users/kimhan/Desktop/run1.train
4.2.3 生成预测模型
build-icm -r /Users/kimhan/Desktop/run1.icm < /Users/kimhan/Desktop/run1.train
4.3 基因预测
glimmer3 -o50 -g110 -t30 /Users/kimhan/Desktop/genome1.fna /Users/kimhan/Desktop/run1.icm run1
4.4 提取预测序列
extract -t /Users/kimhan/Desktop/genome1.fna run1.predict > /Users/kimhan/Desktop/predict1.fasta
5. 注意
要注意/glimmer3.02/bin下的可执行文件软链至/usr/local/bin,避免出现command not found的报错
ln -s /Users/kimhan/glimmer3.02/bin/glimmer3 /usr/local/bin