基因组信息统计,首先是对基本信息的统计,这些基本信息包括一个基因组的N50、N90、每个染色体或者scaffold的GC含量,N的比例以及每个染色体的各个碱基的个数。功能使用如下:
需要将基因组序列文件进行格式化,将格式化后的序列文件(fa文件,注意不是fai文件)放入位置1,然后设置保存位置并命名(位置2),然后点击相应按钮可以完成功能。
接下来是各个染色体或者scaffold的信息统计,包括染色体ID,基因ID,每个基因的起始位置,终止位置。
考虑到有些同学可能只是关注某个染色体或者scaffold,这个时候需要提取某个染色体或者scaffold的gff信息,功能的实现只要输入染色体ID,然后放入文件即可点击按钮提取。
在获得某个染色体的gff文件后,可以按按钮提取特定染色体基因数量、内含子数量以及CDS数量。
与之前功能使用类似,只要按照界面提示进行操作即可。首先是将格式化的基因组序列文件放入位置1,然后将含有要提取的基因的ID文件放入位置2(一个基因ID一行且应与GFF文件mRNA那一行的ID对应)。将gff文件放入位置3,填入要提取的启动子长度(位置4,默认的2000bp,如果不是这个长度,需要额外设定),填入保存位置并命名(位置5),点按钮“promoters”提取启动子序列,点击“full-length sequences” 提取基因全长,包括UTR区、内含子以及外显子。如果不需要UTR区,需要将GFF文件格式化,填入位置6,然后设定保持位置并命名(位置7),点击按钮即可。如果提取的有问题,不妨参考前面的文章“GENE模块---从基因组中提取启动子,UTR序列,引物设计及限定引物所产生的区域”,特别是关于对gff文件要求那里!