缘起
在我的课题中,我们使用了BSA结合全基因组重测序的方法寻找候选基因。本人乃生信小白一枚,可是对生物信息学非常感兴趣,一直想学一些生信分析。索性就以此为切入点,开始了自学生信的漫漫长路。从最简单的Linux操作,到生信软件的安装和使用,又学了一点Perl、Python和R的语法,花费了近两个月的课余时间(主要是晚上10:00之后),终于跑通了MutMap的Pepline。
生信分析不是我们课题组的强项,以前更没有人做过类似的项目,没有人指导,只能靠自己慢慢摸索,中间数次想要放弃。一路走来,摸爬滚打,走了好多弯路,所幸坚持了下来,取得了阶段性胜利,深感自学生信的不易与艰辛。现在把我的学习成果做一个简单的回顾和总结,希望对刚跳入BSA分析大坑的小白有所帮助。
初步计划本教程分为三个部分:原理篇,流程篇和实践篇。此为第一部分。
在传统的遗传学研究中,寻找突变基因最经典的的方法就是图位克隆,通过寻找和突变表型紧密连锁的Marker,一步步缩小突变基因在染色体上的区域,缩小到足够小的时候,再进行突变基因及突变位点的排查和确认。图位克隆需要较大的分离群体,少则几百,多则几千甚至上万,还需寻找大量的marker,费时又费力。
随着测序技术的快速发展,测序成本越来越低。利用BSA(bulk-segregant analysis,分离群体分组分析)的原理,结合高通量全基因组重测序技术,以基因组中的SNP和Indel为marker,通过比对和计算SNP的频率,可以寻找和突变表型紧密连锁的染色体区域,并最终确认突变位点。其中,在植物中应用最经典的一个例子就是MutMap,并在此基础上发展出了MutMap+,MutMap-gap和QTL-seq,以应对不同分离群体的基因定位需求。
什么是BSA
说到底,MutMap及类似的方法都是利用了BSA的原理。那什么是BSA呢?
BSA(分离体分组混合分析法或混合分组分析法,又称 集团分离分析法,Bulked Segregant Analysis)分析法首次由Michlmore等提出并成功地在莴苣中筛选出与目的基因相连锁的标记。该方法首先从一对具有目标基因的表型差异的亲本所产生的任何一种分离群体中,根据目标基因的表型分别选取一定数量的植株,构成 2个亚群或集团。将每群的 DNA等量混合,形成两个相对性状 的“基因池”(gene pool),然后用合适的分子标记对两个基因池进行分析,在两群间表现多态性的分子标记遗传上与目标性状基因座位相连锁。在获得了与目标基因相连锁的分子标记以后,可以利用某一作图群体进行分析以便进一步检测所得分子标记与目标性状基因的连锁程度,以及其在某已知分子图谱中或染色体上的位置,这样才能完成真正意义上的对基因的标记定位。由于建池时使用了特定的分离群体,并且在分组时仅对目标性状进行选择,这样可以保证其他性状的遗传背景基本相同,两个基因池之间理论上就应主要在目标基因区段存在差异,因此两基因池又被称为近等基因池,这就排除了环境及人为因素的影响,使研究结果更为准确可靠¨。BSA法克服了很多作物难以得到近等基因系的限制,并且比近等基因系法省时省力,是一种非常实用的基因标记定位的方法,应用非常广泛。
可与BSA相结合用于基因定位的分子标记有多种,常用的分子标记有 RFLP(限制性片段长度多态性,Restriction Fragment Length Polymorphism),RAPD(随机扩增多态性 DNA,Random Amplified Polymorphism DNA),AFLP (扩增片段长度多态性,Amplified Fragment Length Polymorphism),SSR(简单重复序列,Simple Sequence Repeats)SSR等。——百度百科
在传统的图位克隆中,我们一般先利用BSA原理进行粗定位,寻找和突变表型连锁的marker,再在附近设计新的marker,利用作图群体进行精细定位,一步步缩小和突变表型连锁的染色体区段,直到鉴定出突变基因。MutMap的原理和图位克隆本质上是一样的,只不过把我们常规使用的marker换成了SNP,把通过PCR和酶切进行多态性鉴定,换成了用重测序的方法直接对SNP的多态性进行分析。
MutMap的原理
MutMap比较适合对EMS诱变的隐性突变基因进行分析。通过EMS诱变和自交得到纯合体后,将突变体和其亲本回交得到F1,F1自交得到的F2后代会出现表型的分离,得到野生型表型群体和突变体表型群体。对这两个群体的DNA分别进行等量混合,得到野生型DNA混池和突变体DNA混池。将两个混池分别进行DNA测序,利用MutMap pepline进行数据分析,计算SNP在突变体混池和野生型混池出现的频率,即可得到和突变表型连锁的染色体区段和可能的突变位点。
如果突变为隐性,根据遗传学定律,在F2群体中,大多数的SNP会以野生型类型:突变体类型=1:1的比例进行分离,而导致突变体表型的SNP,在突变体混池中是纯合的。因此,当我们对测序结果进行分析后,在突变体混池中,只有causal SNP及其紧密连锁的SNP会出现100%的突变体类型,并且离causal SNP越近突变体类型SNP的纯合度越高,而其他的无关位点,突变体型SNP和野生型SNP的比例接近1:1。
为了方便分析,作者定义了一个参数SNP-index,即突变体类型的SNP所占的比例,那么在突变位点,SNP-index为1,越往两侧,SNP-index越小,并最终接近于0.5。对SNP-index进行滑窗作图后,就会出现一个峰,该处就是连锁区域。在附近进行候选基因的筛选和排查,可以比较容易找到突变基因。