BSA(Bulked Segregant Analysis),集群分离分析或分离群体分组分析法。
两个特点:
1. 混池
2. 性状分离
所以,BSA可以称之为分析有性状分离的群体分析方法。
BSA能做啥?
性状控制基因的初步定位
BSA的基本原理
- 通过具有相对性状的一对亲本杂交,在其任一分离后代群体中,根据个体表型(或基因型)的极端差异,选取一定量个体,将其DNA等量混合,构建两个基因池(pool)。
- 由于两个混池只对性状做了选择,这两个池表型上是一对相对性状,遗传上也只存在目标基因(或与其紧密连锁的区域)的差异。
- 两池间的DNA差异片段即可看做是与目标性状连锁的分子标记。
- 由于是连锁,只能定位到目的基因周围一定范围的区域,所以是初步定位。
BSA的发展
- QTL-seq(数量性状)
- MutMap(点突变性状)
- InDel-seq(InDel突变性状)
- 转录组BSA
适用性状
- 质量性状:有无的性状
- 数量性状:有主效QTL(BSA可分析);无主效QTL(BSA不可分析)
BSA群体构建
- 常用群体:F2,RILs
- 群体分类:
-暂时性分离群体:自交或近交后其遗传组成会发生变化,无法永久使用,如F1, F2, BC1群体等。
-永久性分离群体:株系内个体间的基因型是相同且纯合,自交或近交后遗传组成不会改变,可永久使用,如RIL、DH等。
BSA基本步骤
- 选择合适亲本构建遗传群体;
- 调查表型,选取极端表型的个体构建DNA混池;
- 对极端混池及亲本进行高通量测序,关联分析;
- 结合物种的参考基因组序列,对定位区间基因做功能注释。
混池测序需要注意的问题
- 保证群体适用
- 最好为F2/Ril/Nil群体
- 如为BC1或F1群体,亲本的目标位点必有一个为杂合位点,混池间差异较小,效果一般。
- 保证表型鉴定正确
- 极端表型选择(5-10%)
- 要保证混池间除目标性状外,无其他性状差异
- 保证每个混池的样本数,保证样本选取时的随机性和代表性
- 要保证足够的样本数
- 一般建议要求每个混池的样本数达到30或50,这样才能保证测序推算得到的基因频率具有代表性。如果某些实验无法凑够足够的样本数,或表型鉴定存在错误,那么这个方法的效果将大打折扣。
定位精度的影响因素
- 标记密度对定位精度的影响逐渐弱化
- 传统标记时代,标记数不足,是限制精度主要因素
- 高通量标记时代,标记数已经饱和
- 染色体片段的重组程度,成为基因定位精度的决定性因素。
- 不同物种重组率差异,定位精度不同。
- 不同区域的片段重组率有差异,同一个物种不同位置的QTL定位精度也不同。
BSA信息分析的原理
- 精髓:两个混池间,等位基因频率的差异
如何判定SNP是否关联?
- 欧式距离(ED)法
- 四种碱基作为维度
- 测序差异造成深度的偏倚
- 使用频率代替深度
-
越接近目标位点的ED值,越接近于1
-
SNP-index法
SNP index的计算是对子代池中SNP的一种统计方法,其原理是利用测序reads对每个碱基位点的碱基进行统计,以某一亲本或参考基因组为参考,统计子代池中和亲本或者参考基因组在某一个碱基位点相同或者不相同的reads条数,计算不相同reads条数占总条数的比例,即为该碱基位点的SNP index。对于有两个子代池数据的项目,我们会过滤掉两个池中SNP-index均小于0.3的点。对于过滤后的SNP index我们会利用滑窗口的方式统计某窗口中所有SNP的SNP-index的平均值作为该窗口的SNP-index,一般默认参数是1Mb的窗口,10kb滑动。按照上述方法分别计算两个子代池的SNP-index,然后在计算两个子代池的SNP-index的差值即为delta SNP-index。