从基因组中提取启动子序列,UTR序列往往是费时费力的过程。SPDE的gene模块是专门为那些从事纯粹实验工作的老师与学生设计。其具体过程如下:
点击SPDE的gene模块(如红色箭头所示):
在第二个板块中,用户可以提取启动子序列(①),不含UTR区基因全长(②),含有UTR区的基因全长(③)以及提取UTR区(④):
其使用过程只需要按照软件表面的提示输入相应内容即可。
第一个框中提示的是基因ID:请大家注意,这里的基因ID指的是GFF/GFF3文件mRNA这一行所对应的ID,如下图所示:
第二框提示的是启动子长度,给大家默认提取的是2000 bp长度,对启动子克隆而言,该长度足够。因此,如果你想提取的确实是2000 bp,那么该位置不需要输入数值,但,如果有其他长度需求,那么想提取多长,就输入多长即可,例如输入1500:
第三框,提示的是输入原始的GFF/GFF3文件。那么,这个文件就是原始的GFF文件,其基本形式应该是或者类似这样子:
第四框,提示的是输入格式化的基因组序列文件。基因组序列文件指的是标明每条染色体或者scaffold上有哪些序列的文件,例如:
而格式化的意思是需要将你的基因组序列文件进行处理,生成一个可利用的索引文件(即fai文件)。该过程的实现放在了SPDE的format模块,如下:
会生成一个后缀为fai的文件,在这里,同学们需要注意,刚刚上面所说的第四个框中放入的文件是基因组序列文件而不是生成的这个fai文件,大家可以将fai文件理解成一本书的目录而我们想要阅读的并不是书的目录而是书的内容,但目录的存在可以使我们更方便的找到想要的内容,仅此而已。所以,正式放入的应该是基因组序列文件。另外,需要对放入的ID补充一点:SPDE默认的ID是gff文件中关键词mRNA所对应的后面的ID,如下图所示:
ID指的是等号之后,分号之前的部分。用gff文件时请大家检查三个问题:一个是gff文件第一列所注明的染色体ID是否与你基因组文件格式化后产生的fai文件中的ID是一致的?第二个是你的gff文件里是否有关键词mRNA(如果没有的话可以批量替换一下)?第三个是你所使用的ID是否是正确的?给大家提供了一个只需要输入ID就可以从基因组文件中提取序列的方法,方便的同时也对文件格式有严格的要求。有些感慨,鱼与熊掌不可兼得。不过,在后续的版本中会考虑另外的形式以解决这个问题。
当上述四个框按照提示放入正确的文件或者信息后,只要点击相应的按钮,就可以在右侧的框中看到相应的序列,例如:
在提取启动子后,大家可能要设计引物进行克隆。在第一个模块的第三个部分,安排了引物设计功能。这部分的核心是primer3程序。基本用法只需要按照界面提示进行即可,有以下几个点,请大家注意:
第一框中是放入基因序列,那么只需要将你的序列拷贝进来即可。在NCBI或者拟南芥的Tail数据库,大家经常可以看到这种类型的序列:
前面有数字,序列与序列间有空格。这种序列大家并不需要额外处理,直接拷贝就好。在程序设计的过程中已经考虑到这个问题,SPDE会自动帮大家去除这些额外的东西。
第二框中是输入PCR产物的长度。这里放入的一定是一个范围,例如,150-250。两个数字中间由英文状态的短横线连接。如果只放入150,这样的单个数字是无法得到结果的。原因很简单,假设序列长度就是150 bp而你放入150,那么引物就只能一头一尾的20 bp左右的序列,这种情况根本没有设计的必要。
第三框是可选选项,不是必须填写的。这个框的作用是为了限定引物产生的区域。输入的数据格式是F端引物起始位置+逗号+长度+逗号+R端引物起始位置+逗号+长度。例如,我想要在序列的100到300 bp产生我的F端引物而将R端引物设计在序列的450到600 bp这个区间内,那么这个时候,你的输入内容应该是:100,200,450,150。注意要在英文状态下输入。如果,我只想限定F端引物在100到300bp,而R端引物随意,那么这个时候该如何设定呢?例如:100,200,,。请注意,虽然你的R端随意,数字不需要写,但逗号需要保留。如果F端随意而R端需要限定,那么方法雷同。另外,需要注意的是,这个限定的范围不应该超过你输入的PCR产物的长度。假设你的PCR产物长度是100 bp而你输入的限定条件是100,200,450,150。这个限定所产生的产物的最短长度应该是150 bp。这与你的PCR产物长度是冲突的,这个时候会出现错误。
第四框是产生控制文件。这个控制文件里的内容是已经经过调整的、关于引物设计的各类参数,请大家安心,SPDE中所设计的引物,已经经过了qPCR验证,一般情况下是没有问题的。但,考虑到可能某些同学对引物有特殊的设计需求,因此决定将这个控制文件还是提供给大家。在产生控制文件后,如果还是需要对参数进行调整,那么只需要在产生的控制文件的相应部分更改,然后保存即可。控制文件的产生是点击按钮“generate the control file” 完成的,如下:
建议大家也将文件的名字直接命名成control.txt就好。当然,如果对引物参数(例如,GC含量,Tm值范围)没有特殊需求,那么在设计完引物后,将该文件直接删除就好。简单点儿说就是,控制文件可能不需操作,但一定要有。
完成这些之后,点击下面的设计引物按钮,那么就会在右侧的框中显示设计的结果,如下:
当然,除了上述功能,第一模块还提供了其他一些小的功能,方便大家日常的一些序列处理,这些序列处理包括:
将DNA转为RNA;计算输入序列的长度;计算GC含量;将序列反向;翻译DNA序列;将序列反向互补。最后一个是移除额外信息。针对的仍然是像NCBI中的这种带有大量额外字符的序列(如上数第十图)。结果是序列前面的数字和序列中的空格将被全部去除并且将不同行的序列归到一行中。想要使用哪个功能,直接点击该功能前的圆圈即可。
补充:最近经常有同学向我询问全长引物的设计方法。这里包括两种不同的方案。如果没有所研究物种的基因组序列,没什么好说的,这种情况都不需要设计,直接从ATG和终止密码子起分别向后及向前截取大约20bp,然后注意终止密码子那段反向互补就可以,可能有同学要问了,如果这样设计的不行怎么办,答案是没办法,当然也可以硬做,去网上搜一下兼并引物的设计方法,然后一点儿一点儿扩增试试看。在我看来基因组序列是分子生物学很重要的一个基础,如果没有这个基础,还想做分子生物学这真的会是项大工程~,所以目前这么多人测基因组也不是没有原因。第二种是有基因组序列。前面提到SPDE可以提取UTR区。所以整个思路是利用SPDE提取UTR区,5‘和3’端都要,然后将它们分别贴到ATG和终止密码子两端,将序列长度(当然是从ATG到终止密码子,不包括你贴进来的UTR区)设定为引物的产物长度,然后用SPDE设计。完成后检验左右两段引物是否跨越了整个序列区,如果跨越就用它就好,如果没有跨越那么产物长度不变,然后规定一下一端引物所必须在的区域,设计后看另一端差了多少,那么可以先用这对引物扩增,得到产物后,将PCR产物作为模板,把差的那些序列直接接到引物上(注意如果是R端引物需要反向互补),再扩增。这种方法可能出现的尴尬情况是没有找到UTR区或者只能找到一段(比如只能找到5‘端的),这种情况也正常,并不是所有基因都有UTR区~这种情况,要不就先规定一端引物所在区域,该怎么做怎么做,然后用PCR产物为模板,通过不断向引物添加需要的序列来将这段延长~总之,既然序列都知道了,想把这段序列克隆出来应该是问题不大的,只是有些序列需要费点儿事~