许多重要的农艺性状为数量性状,由多个基因位点控制。利用传统的分子标记技术进行基因定位,常常需要花费较长的时间和大量的人力物力。2012年日本岩手大学(Iwate university)的科学家Ryohei Terauchi 和他的团队在Nature biotechnology上发表了Mutmap方法,该方法利用混池重测序可以快速实现基因定位,大大提高了遗传定位的效率。
并在Iwate biotechnology research center上发布了mutmap的pipeline和protocol。
网站地址:http://genome-e.ibrc.or.jp/home/bioinformatics-team/mutmap
1 利用Mutmap进行基因定位的原理
1)对已有参考基因组的野生型材料进行诱变,产生突变体材料,例如使用EMS进行诱变处理。
2)利用突变后代进行自交,直到得到纯合稳定的突变后代。对携带重要农艺性状或感兴趣的性状的纯合突变体进行研究。
3)将选出来的突变体与野生型进行杂交,产生的F1进行自交产生F2(>100),对F2植株进行表型鉴定。
4)在F2群体中,大部分的位点的野生型/突变体SNP、Indels的分离比为1:1,但是在纯合突变表型的F2个体中与控制表型的位点连锁越紧密的SNP出现突变体型的SNP的概率越高,突变体型的SNP概率范围为50%~100%。
5)将F2群体中表现为突变体表型的植株进行混池测序(Sequence the bulked DNA)。
6)利用SNP index=含有突变体型SNP的reads数目/所有比对到该位点的reads数,SNP index值越趋近于1,该SNP与目的基因位点连锁越紧密,SNP index 值越趋近于0.5,该SNP与目的基因位点距离越远。
7)测序深度、突变体混池群体大小、表型分裂和鉴定都会影响最终SNP index的结果。作者在supplementary data中利用统计学方法对这些因素进行分析,帮助判断哪些SNP index值较高的SNP为假阳性位点。
7.1)混池测序植株数目和测序深度的影响(Fig S 1)
假设n为进行bulk sequencing 的植株数,G为测序深度。通过统计学分析可以得出,测序深度G一定时,增加n可以显著将降低SNP index的变异程度,当n一定时增加G,虽然也可降低SNP index的变异程度,但降低的水平较小。
因此可以通过增加混池测序植株数目n或提高测序深度,来降低假阳性出现的概率。
7.2)表型鉴定误差的影响(Fig S 2)
在混池测序时,应准确选取突变表型的植株。如果将表型为野生型的个体混入,就会降低casual SNP 的 index值,从而造成假阴性的错误。为此作者假设错误表型个体混入的植株数目为j,混池测序植株数目为n,测序深度为G。从图A可知,G和n固定,随着j的增大,SNP index逐渐向左移,且方差变大。由图B可知,n和j固定增加测序深度,可以显著降低方差,且high SNP index数量增加。由图C可知,j/n固定,随着n的增加,SNP index的分布变化不大。
由此,当池中混入野生型个体时,应提高测序深度G来降低假阴性的概率。
此外,作者还指出,使用全基因组较少的SNP数目,可以提高准确性,因此应选取高质量的SNP位点进行后续分析。casual SNP附近出现的high SNP index的SNP cluster,可以帮助判断casual SNP的真实性。
2 利用Mutmap方法对水稻浅绿色叶片突变体进行遗传分析
作者利用Mutmap方法对
3 分析流程
所有分析操作均在Mutmap protocol中,此处仅写出主要步骤及注意事项。
1)Protocol、pipeline及数据下载
1.1)protocol和pipeline:http://genome-e.ibrc.or.jp/home/bioinformatics-team/mutmapa
1.2)日本晴参考基因组:
https://rapdb.dna.affrc.go.jp/download/archive/irgsp1/IRGSP-1.0_genome.fasta.gz
http://rice.plantbiology.msu.edu/pub/data/Eukaryotic_Projects/o_sativa/annotation_dbs/pseudomolecules/version_7.0/all.dir/all.chrs.con
1.3)野生型测序数据和突变体混池测序数据:
建议使用lftp进行下载
如:lftp ftp://ftp.ddbj.nig.ac.jp/ddbj_database/dra/fastq/DRA000/DRA000499 -e "mirror -c --parallel=3;exit"
2)数据压缩及重命名
重命名的规则*_[0~9]_[1,2]_sequence.txt.gz
其中*为样品的名称或自己想要的标记(可将后续操作中anyname、mybulk目录修改为*),[0~9]为测序时flow cell的编号,[1,2]此处只能填写1或2,为双端测序的read1和read2。
3)参数设置
3.1)建立原始文件链接
在/myhome/MutMap_test/1.qualify_read/anyname和cd /myhome/MutMap_test/1.qualify_read/mybulk目录下,利用ln -s分别建立原始测序数据链接 。
3.2)添加参考基因组fasta文件
cp public.fasta /myhome/MutMap_test/downloaded_fasta/
3.3)编辑config.txt修改pipeline参数
按照protocol中的要求修改~/MutMap_test/config.txt中的参数。
3.4)运行Bat_make_common.fnc.sh文件
./myhome/MutMap_test/Bat_make_common.fnc.sh
运行后,会在/disk5/mwang/mutmap/MutMap_test/1.qualify_read/anyname(和mybulk)/q30p90/下产生sep_pair目录,对于后续运行重要。
4)通过SNP替换产生野生型的参考基因组
第一步,利用BWA将过滤后的野生型双端测序数据比对到日本晴基因组上。
第二步,用比对产生的SNP对日本晴参考基因组进行替换,产生野生型的参考基因组。
第三步,将被过滤的reads