Yousry A. El-Kassaby, Fikret Isik, and Ross W. Whetten. Modern Advances in Tree Breeding. Trevor Fenning (auth.) T F (eds. . 2014. Challenges and Opportunities for the World’s Forests in the 21st Century. 1st ed. Springer Netherlands.
摘要
传统的树木改良方案是需要广泛资源的长期努力。他们需要建立交配设计,在多个地点安装后代测试,以评估父母及其在大地理区域的后代,长时间监测这些测试,并最终分析测量结果以评估经济特征。大多数树种育种计划都遵循经典的经常选择方案,从而产生多种繁殖和生产群体。这个过程虽然取得了明显的成效,但在长期以来一直保持不变。丰富的,可靠的和大多数越来越多的负担得起的遗传标记的可用性为日前的育种方法带来了巨大的变化。在本章中,我们重点关注四个重要的遗传标记依赖方法,具有直接或间接改变当代树种育种方法的潜力。这些包括谱系重建,无谱系模型,关联遗传学和基因组选择。
1介绍
树木育种计划是资源和时间依赖的努力。选择和测试阶段经常在广泛的地区进行大量试验,需要频繁和长期的监测和评估。树木改良的最低强度方法是一种相互移植的方法,称为种源测试(Callaham 1964),用于确定再造林的优良种子来源。产地测试允许通过对潜在的目标种植区进行现场测试来评估源自物种自然范围内多个位置的多个种子来源。这个过程有助于确定优良的种子来源及其适应性,使其种子安全转移到新的种植地点(Rehfeldt 1983)。种源测试的重点是获取种子来源的精确知识及其在测试场所的表现(Konig 2005)。这个过程是一个简单的群体改善方法,因为测试材料的系谱或家谱通常是未知的。种源测试的主要成就是描述安全种子转移的区域,称为种子区(Campbell 1986)。
第一个也是最简单的谱系已知的测试使用风媒授粉/开花授粉的家系(也称为半同胞家系,因为他们的后代分享种子供体的基因型)。作为部分系谱方法的风媒授粉测试允许在家系内和家系间进行选择,因此预期比种源检测产生更大的收益。新西兰辐射松树改良方案是采用这种方法最为显着的方案(Burdon and Shelbourne 1971)。【优点】该方法的主要吸引力在于其简单性和适用性,可用于测试大量家系;然而,它通常被认为是完全谱系测试的跳板(Jayawickrama和Carson 2000)。应该说,【缺点】风媒授粉测试充满了不能被检验或实现的假设,并且经常导致个体育种价值估计的不准确(Namkoong 1966)。
使用完整系谱(即具有已知家谱的个体)是树种育种计划中最常见的测试模式(White et al。,2007)。通过实施受控授粉的交配设计创建的结构化谱系的形成提供了对家系的更好的控制,并且最终准确估计遗传参数,如性状遗传和亲本和后代繁殖值(Namkoong et al。 1988)。应该说,成功完成结构化系谱是一个需要时间和巨大努力的精心设计的过程。轮回选择方案是使用完整系谱系统时使用的最常见的育种框架(Allard 1960)。
2系谱重建
结构化谱系设计(全系和半同胞家系)构成了大多数树种育种计划的支柱,从而获得了令人印象深刻的收获和更好的近亲繁殖和遗传多样性管理(White et al。2007)。 Lambeth等人(2001)介绍了混合繁殖和谱系重建的思想。 El-Kassaby和Lstib?rek(2009)通过对一组父母中自然发生的杂交的后验分析,进一步实现了这一想法。他们创造了“无育种育种”(BwB)的方法,并提出了分子标记,SSRs在这种情况下的利用和谱系重建模型(见Jones和Ardren 2003进行审查),以绕过昂贵和耗时的繁殖阶段。经常使用断开的部分拨号配对方案来创建用于产生测试所需的后代的结构化谱系(Namkoong等,1988)。 BwB概念使用来自63个亲本的大型松树种子种子园(El-Kassaby,未发表))的大块种子样品进行了说明,并可与断开的部分二元设计进行比较。有了这么多的父母和六父母计划的实施,预期会产生153名全体同胞家系(7名6人母亲和3名7位母语部分拨号单位)。然而;当进行系谱重建时,共组建了446名全同胞家系,没有进行任何控制的交配(图1)。与经典断开的部分拨号相比,产生的交配更有效率,因为创建了更多的交配。
此外,El-Kassaby等(2011)通过应用两个不同的步骤来扩展BwB概念并提高了方法的效率:(1)使用每个父母具有大样本量的简化半同胞后代测试,(2)限制DNA指纹的后代取样和家系重建,从一个子集的父母,而不是整个亲子群体的随机抽样的后代。与多个全同族家系相比,半同胞家系在测试中的使用预计将简化后代测试设计。预期来自种子父母子集的后代的随机样本预计将大多数未采样的父母作为父亲(即父系半亲和全同胞家系)捕获,因此可以估计它们的育种值。最后,包括来自全同胞和半同胞家系的所有后代表型信息预计将增加估计的遗传参数的精确度;然而,应该说,与全同胞家系相比,半同胞个体的育种价值估计不太准确。 El-Kassaby等人(2011年)经验性地测试了这一概念,并评估了从41个亲本的西部落叶松种子种子园中只有15个种子供体(即半同胞家系)产生的后代。在这个实验中,每个半同胞家系由400个幼苗代表,使总实验样品量达到≈6,000。他们随机抽样1500单株,不论其半同胞家系的名称,用于DNA指纹图谱和谱系重建。如预期的那样,产生了不平衡的交配结构,反映了父母繁殖产出的变化(图2)。
有趣的是,在种子园里,所有41名父母都组装了交配的后代,表明谱系重建成功地将未抽样的父母作为花粉供体,即使后代取样仅限于15只种子供体。数据分析中最有趣的观察结果是综合分析(1,500 FS + 4,500 HS)与单独常规全同胞家系(1,500人)的高度育种值之间的一致性。这对父母和春天都是观察到的(图3)。 FS和HS联合分析的巨大优势是1,500名FS个体将剩余的4500个HS与父本和母本及其半亲和同胞家系联系起来所起的作用(图3)。此外,El-Kassaby等(2011)表明,如果用于指纹图谱和系谱重建的个体的随机抽样减少到约三分之一(即较少的分型努力),个体的育种值精确度没有显着变化。谱系重建是在需要后代家谱的后验或不适用于控制授粉的物种的情况下的有效方法。使用源自种子种子园或繁殖植物园的种植园树木的谱系重建可以立即将其转化成后代试验试验(Hansen和McKinney,2010)。虽然这种方法需要对景观上的种植园多边形进行良好的GIS跟踪(参见Ding et al。2012),但也需要严格的空间分析来解释现场异质性(参见Cappa等人2011)。
3无系谱模型
从根本上说,育种育种是为了利用小学重建来组装半同胞和全同胞家系,进行标准的类内相关分析,以估计定量遗传学参数,如性状遗传性,亲本和后代育种值(Falconer and Mackay 1996)。在谱系重建不可行的情况下,分子遗传标记提供了估计定量遗传参数的替代方法。基于状态相同的标记也是后裔相同的假设,可以使用分子标记来估计任何一组个体之间的“基于标记的成对关系”(Li et al.1993; Queller and Goodnight 1989; Lynch and Ritland 1999; Wang 2002)。使用“基于标记的成对关系”创造了在实验或自然环境中研究驯养和未驯养物种的机会,并且不存在谱系,从而允许估计非结构化群体中的遗传参数。已经开发了高效的方法来为一组个体使用高密度标记信息来估计其实现的关系矩阵(vanRaden,2008)。该矩阵用于代替在定量遗传学分析中所需的经典基于谱系的分子关系矩阵。这种方法允许使用基因组最佳线性无偏预测方法估计定量遗传参数,如狭义遗传力和育种值,如下文更详细描述的(Zapata-Valenzuela等人2011; El-Kassaby等人2012; Porth等人2012)。
实现的关系矩阵成功地用于估计非结构黑色棉花群体中的狭义遗传力,育种价值和遗传和表型相关性(El-Kassaby等,2012; Porth等,2012)。更有趣的是Kláp?tě等人的研究(2013),其中将无系谱模型与基于标记的成对关系模型进行比较。令人惊讶的是,Pearson的产品时刻和Spearman在两种方法中产生的西方落叶松后代育种值之间的等级相关性是非常显着的,表明生成的基于DNA的成对关系矩阵确实是经典谱系矩阵的有效替代(Fig 4)。这种方法进一步扩展,以适应由Korecky等人从遗传标记和常规谱系生成的信息的混合物。 (2013年)。这种方法是独一无二的,因为分别由遗传标记和谱系产生的历史和当代共同遗传的组合不能通过任何方法单独实现。因此,组合两个数据集有望提高估计的遗传参数的准确性,因为当使用分子标记时,精确地考虑了结构谱系中经常被忽略的孟德尔采样项。分子标记的可用性有望提高繁殖效率。使用密集分散的SNP数据估计个体之间实现的关系,预计将导致更大的亲属关系解决,并为古典育种工作提供机会改进。
4标记-性状关联
具有成本效益的分子遗传标记系统的可用性为分析育群体体中测定的表型性状的遗传基础打开了大门。经典的定量遗传学方法,无论是基于种源,系谱还是实现的关系矩阵,都是基于Fisher(1918)提出的“无限小模型”。费舍尔模型调和了研究显示不断变化的数量性状的遗传学家的不同观点,以及研究单个基因控制的离散角色的遗传学家,假设连续变异是许多不同基因的累积效应对表型具有相等的加和效应。这种模式在近一个世纪以来非常有用,最近的出版物已经回顾了支持该模型主要特征的大量证据(Hill et al。2008; Stranger et al。2011)。该模型对于了解林木育种计划中表型变异的基因分子遗传机制和对基于基因型信息准确预测个体遗传优势感兴趣的育种者的努力具有重要意义。 15年前描述的称为“关联遗传学”的分析方法(Lander和Schork 1994; Risch和Merikangas 1996)作为用于表征人类疾病遗传基础的基于家系的联系映射方法的替代方法。使用人类生物医学遗传学领域的关联遗传学比在任何其他领域进行了更多的工作,并且已经了解了该方法的优缺点(由Stranger等人2011; Rowe和Tenesa 2012综述)。 Neale和Savolainen(2004)回顾了关联遗传学的关键要求,并提出了针叶树群体(以及其他受风花授粉的森林树种)为合作遗传学的合适实验材料。 White et al。描述了关联遗传学在树种育种中的应用。 (2007,pp。543-547)和Wilcox等(2007年);将简要概述为现状讨论的阶段。
关联遗传学的基本概念是测试个体中遗传标记基因座上的等位基因状态与该个体的表型之间的统计学关系,对于群体中的许多个体。这种关联的价值在于它们可以帮助确定表型变异的分子基础,这反过来可能提供用于标记辅助育种的分子标记(Neale和Savolainen,2004)。检测关联的power是几个参数的函数,包括群体结构的存在(Neale和Savolainen 2004),测试群体中连锁不平衡的程度,测试群体的大小以及表型变异占比例通过涉及感兴趣的表型的每个致病基因变体。测试与表型相关联的遗传变异体可能是已知的基因,被认为在控制研究中的表型(“候选基因”方法)中起作用,或者可以基于群体中的等位基因频率来选择和基因组分布(“全基因组”方法)。与任何统计测试程序一样,如果进行相同假设的多次测试,假阳性(I型)误差很可能,除非对所做测试的校正次数进行校正。 Risch和Merikangas(1996)在人类基因组中的一百万个单核苷酸多态性(SNP)基因座的实验测试中提出了5×10 -8的全基因组意义的阈值。更近期的出版物对于不同的人SNP基因座稍微改进了这一估计(Li等,2012)。连锁不平衡(LD),不同位点的等位基因状态之间的非随机关联影响多重检测的独立性,因此多次检测的校正应考虑所分析的基因座中LD的模式。
早在道格拉斯冷杉连锁不平衡研究中,基于来自32个单倍体巨型巨噬细胞样品的18个基因的相对较小的样本,得出每个基因含有2-3个独立的“haploblock”的遗传变异,每个基因的4-5个SNP位点需要对每个基因的遗传变异进行充分的采样(Krutovsky和Neale 2005)。这项研究集中在转录区域,因为当时可用的资源相对较少,用于分析任何针叶树种类的基因组DNA的非转录区域。确定与人类GWA研究中的目标性状显着相关的大多数SNP是非编码序列(内含子中为45%,间质区域为43%; Hindorff等,2009),表明,表型变异必须包括非编码基因组DNA序列的分析。幸运的是,目前正在进行参考基因组测序项目,用于火炬松,白云杉和挪威云杉(可搜索的摘要见https://pag.confex.com/pag/xx/webprogram/start.html)和参考文献基因组序列已经可用于杨树(Tuskan等人2006)和桉树油(可在http://phytozome.net/上获得),因此基因组序列信息将更容易用于将来的模型模拟遗传变异。
确定适当的样本量和遗传基因座数以便在关联研究中达到特定水平的功能需要评估影响功效的几个群体参数(Ball 2005; Spencer et al。2009)。座位的遗传效应的大小,引起作用的等位基因群体的频率,以及因果等位基因和附近遗传标记(例如SNP)之间的LD的程度是这些参数中的一些。人类的关联研究主要集中于疾病相关表型,遗传效应的大小通常表示为杂合子中疾病发生的可能性与最常见等位基因纯合子的疾病可能性的比率(基因型风险比率,Risch和Merikangas 1996,或等位基因的相对风险,Spencer等人,2009)。人类基因组中连锁不平衡的结构足够复杂,模拟是模拟实验功效对样本大小,相对风险和等位基因频率的依赖性的最普遍的方法(Spencer等人,2009)。这种模拟表明,对于较低的风险等位基因频率,每个等位基因的风险较低,以及测试的遗传变异基因座数量较少,功效较低。对于每个等位基因1.5的相对风险,当风险等位基因频率小于10%时,测定一百万个SNP位点的阵列仅提供5000个样本量的约50%的功效(Spencer等人,2009)。每个等位基因1.5的相对风险大致相当于表型变异的5%,尽管该等价基因受群体中等位基因频率的影响;迄今为止在人类全基因组关联研究中检测到的相对较少的基因座具有大的影响(Stranger等,2011)。这表明,如果无穷小模型是准确的,那么关联遗传学研究将不够强大,不足以检测占森林中复杂性状的表型变异的很大比例的个别基因。树种育种计划感兴趣的一些特征,如抗绦虫丝状锈病,由具有主要作用的个体基因控制(Wilcox等,1996);关联遗传学方法非常适合分析这些特征。
高度生长是许多树种育种计划中的一个重要表型,因此人们关联遗传学分析高度的结果令人感兴趣。杨等(2010)报道,将所有SNP作为随机效应在混合线性模型中的联合分析,其中包含从标记基因组得到的关系信息,解释了在小于4,000个体的样本群体中几乎高达一半的遗传变异,尽管通过对183,727个体(Lango Allen等人,2010)的组合群体中的关联研究进行荟萃分析鉴定的所有180个位点一起解释了高度遗传变异的约14%。这两组的分析方法之间的差异在于Yang等将注意力集中于创建预测模型,而不用担心识别特定的位点,而Lango Allen等人采用更经典的关联方法,使用严格的统计方法来减少假阳性结果的可能性,并识别与高度生长机械相关的位点和途径。由Lango Allen等人鉴定的许多基因座可以分为具有对生长和发育的认识影响的生物学途径,并且在许多情况下,每个基因鉴定出多种遗传变异(Lango Allen等,2010)。这种称为等位基因异质性的现象在关联分析中降低功效,因为相同的表型可能是由于多种不同的遗传变异,即使在相同的功能基因。在影响相同表型的基因内发生多种遗传变异会造成表型相互作用的可能性;基因间或紧密连锁的基因之间的上位相互作用可导致从关系较近的个体与关系较远个体估计的遗传力之间的差异(Haig 2011;Würschumet al。2012; Zuk等,2012)。通过将变体分组成功能基因,将基因组织成途径,并用基因表达数据整合遗传途径来分析关联遗传学数据的方法可以为理解表型变异提供额外的力量,如果可以采取路径结构和基因的建模方法可以开发出表达模式(Cookson等人2009; Bennett等人2012; Kreimer等人2012; O'Hagan等人2012)。另一种方法,类似于Yang等人(2010),将所有SNP基因座作为随机效应纳入关联分析;据报道,这种方法可以克服传统的连锁分析和家畜关联分析方法的缺点(Kemper等,2012)。这一类型的分析与基因组选择有很多相似之处,本章稍后讨论。
二等位SNP位点minor等位基因的等位基因频率对关联遗传学研究的力量有重大影响(Spencer et al。2009; Stranger et al。2011)。在超过900个火炬松树中测定的3000多个SNP样品中的大多数SNP位点具有小于15%的等位基因频率(Eckert等人,2010)。不相关群体样本中的这种低等位基因频率有助于在传统的关联遗传学研究中达到极大样本量的要求,以达到重要意义。只有样品量超过5000,标记等位基因频率接近致病变异等位基因频率,才能够检测出具有较大影响的等位基因(Ball 2005; Stranger等,2011)。从较少数量的父母下降的结构性群体可以通过增加父母样本中发生的罕见等位基因的频率来减少这个问题。这一策略已被用于开发玉米嵌套关联映射(Yu et al。2008; McMullen et al。,2009),并且开发了在交配设计中产生的群体中产生的群体结构的方法(Yu et al。2006)。综合使用NAM群体和282个近交系的更典型的相关群体,可以鉴定影响玉米籽粒组成的几种SNP(Cook等,2012)。一旦参考基因组序列可用,并且可以为精英群体的父母容易地开发单倍型信息,类似的策略可能在森林树种育种计划中变得可行。
了解基因表型变异的分子机制不是育种计划的主要目标 - 相反,目标是在具有预测能力识别高遗传优势个体的育群体体中产生遗传变异模型。增加理解分子机制的研究可以有助于长期发展预测遗传模型,而研究重点发展繁殖群体复杂性状遗传模型的研究在短期内具有更快的价值。了解分子机制在人类生物医学遗传学中可能具有挑战性(Peters和Musunuru 2012),并且对于育种计划感兴趣的大多数树木将更具挑战性。关联遗传学方法可以有助于对由相对较少数量的基因控制的性状的机制的基本了解,但由许多相同和小效应的基因控制的性状将使用该方法分析是非常昂贵的。
5基因组选择
5.1背景
育种者感兴趣的许多特征是多基因,由许多具有小效应的基因控制(Hill等人,2008)。这些小效应基因对复杂性状改善的成功至关重要(Crosbie等,2003)。几十年来,植物和动物育种者依赖于亲属之间的表型和相似性来捕获由这些小效应基因解释的遗传变异。用于改善复杂性状的方法是“黑盒子”,因为育种者不知道复杂性状的潜在遗传结构,例如控制性状的基因的数量及其在基因组中的位置。自1950年代以来,树种育种者采用了这些方法。树木特征改良的成功效相对较低,因为林木繁殖-检验-选择周期需要多年才能完成,树木繁殖后勤复杂。繁殖者长期以来一直在寻求分子标记来克服挑战并提高选择效率(Neale和Savolainen,2004)。从20世纪70年代末开始,已经探索了数量性状位点(QTL)作图和后期候选基因方法作为解释复杂性状基因架构的工具。这个想法是,如果利用标记追踪对性状有很大影响的等位基因(生物模型),则可以用它们来选择育群体体中的优良基因型。这个概念称为标记辅助选择(MAS)。然而,QTL定位和候选基因方法在大多数植物和动物育种计划中用于改善数量性状的用途有限。主要原因包括产生大量标记的成本,以及大多数数量性状由许多QTL控制的观察,每个QTL都具有很小的影响,如通过无穷小模型所预测的。个体QTL通常仅解释总体差异的一小部分(<5%),个别家系发现的标记特征关联在整个体群中不可重复(Goddard和Hayes 2009; Neale 2007)。 QTL测绘实验对于发现农业和林业重要数量性状的遗传结构是有用的,但重点是确定与表型相关的遗传基因座。在育种方面,恰恰相反,重点是预测个体或品系的遗传优点,而不是发现个体基因。遗传优点的一个很好的预测因子不一定要确定潜在的基因(Goddard和Hayes,2009)。需要的是大量的标记物来填充基因组并探索这些标记物与许多具有较小效应的QTL之间的LD。这种方法称为基因组选择(GS)或全基因组选择。自从Meuwissen等人引入了这个概念以来, (2001),由于DNA测序技术和计算能力的提高,GS已经改变了范式。
GS与传统的MAS大大对比,因为在GS中没有确定用于选择的重要标记子集。相反,GS共同分析了一个群体中的所有标记,试图用密集的全基因组标记覆盖率解释总遗传变异,通过求和标记效应来预测个体的育种价值(Meuwissen等,2001)。这个想法是,如果我们用高密度标记物填充基因组,我们可以捕获标记或标记单元型之间的LD和因果多态性。这种联系在不同的家系中是一致的(Meuwissen等人2001)。随着DNA测序技术的进步和基因分型的有效性,GS已成为奶牛育种中的一个现实(Goddard和Hayes,2009)。许多家畜饲养计划现在通常将GS应用于市场公牛(Hayes等人2009)。基因组选择过程从培训群体开始。通过GS选择建立下一个育种周期的候选人。随着新表型和标记数据的积累,训练可以迭代进行(Heffner et al。2011)。
5.2森林树木的实证实例
林木育种计划仍处于与自然群体遗传差异很小的育种检验和选择周期的第一阶段。如果成功,基因组选择对林木育种的影响可能远远大于其他作物或动物育种计划。对林木基因组选择的一些早期实证研究令人鼓舞。例如,在克隆的火炬松群体中,GS的准确度在0.55和0.88之间变化,与通过常规表型选择实现的准确度相符(Resende等,2012)。同样的,Isik et al。 (2011)报道了基于亲戚和表型数据相似度的基因组估计育种值,其可靠性高于育种值。这些研究估计了个体标记效应,并总结出系数以估计树木的基因组估计育种值。或者,可以使用较小的标记子集来使用个体共享的等位基因的频率来估计实现的基因组关系(Legarra和Misztal 2008)。 然后,由系谱产生的添加遗传关系矩阵由基因组关系矩阵代替,以预测基因组估计的育种值。基因组BLUP(GBLUP)可能是森林树种育种计划的有力工具。这种模型可以捕捉全同胞家系中的孟德尔分离效应,而不是使用平均加性遗传关系的情况。例如,Zapata-Valenzuela等人(2011)显示,使用GBLUP的基因组估计育种值的准确度与传统的基于谱系的BLUP方法相当。在同一研究中,使用GBLUP和古典BLUP(Henderson 1984)估计了培训群体的育种价值。在没有表型的情况下,当使用经典的BLUP时,来自交配的同胞具有相同的中期亲本育种值(图5)。然而,基于SNP标记的基因组关系矩阵允许从单个交配预测同胞的不同遗传值。
5.3统计机器
经典线性混合模型不能有效地处理大量的标记作为预测因子,因为预测因子(p)的数量大于用于解释表型方差的数据点数(n)。这么大的p和小n的效应导致缺乏自由度。大量标记物的统计分析近年来一直处于非常活跃的研究领域,文献中提出了许多统计学方法(Gianola et al。,2009)。标记物或单体型的作用可以通过同时包含模型中的所有标记来估计,但挑战是估计标记效应的差异。已经提出了最佳的线性无偏预测(BLUP)方法和脊回归方法来估计单个标记效应(Meuwissen等人,2001; Whittaker等人,2000)。这些方法假设标记从具有期望$N\sim(0,\sigma_g2)$的群体中采样,每个标记解释相同$(\sigma_g2/n)$的遗传变异量。而不是将标记分类为显着的或没有影响,脊回归和BLUP将所有标记效应收缩到零(Meuwissen等,2001)。这不是一个现实的假设,因为不管标记与特征位点的关联如何,所有的标记都会在同一水平上向着平均值收缩。贝叶斯方法有一种自然的方式来考虑模型中所有未知数的不确定性(例如,Gianola等人2009),并且当与马尔可夫链蒙特卡罗的力量和灵活性相结合时,贝叶斯方法可以应用于几乎任何参数统计模型。 Meuwissen等(2001)介绍了贝叶斯(BayesA)和贝叶斯(BayesB),并将其与原始论文中的BLUP方法相比较。在贝叶斯A中,所有标记都解释了遗传变异的一小部分,并且由每个标记解释的方差可以根据缩放的倒置卡方分布如先前而变化。方法BayesB通过将高比例(π)的标记缩小到零来校正贝叶斯A的缺点。引入贝叶斯C,Cπ和D和Dπ来解决先验者对BayesA和BayesB观察到的估计的不良影响。 Habier等人(2011)得出结论,替代贝叶斯方法的准确性是相似的,并且在所有特征和训练数据大小方面都没有一个优于所有其他方法。 GS的统计方法的选择有时是实用性,时间性和易用性的问题。经验和模拟数据的例子表明,贝叶斯方法有效提高预测的准确性,但增加通常是最小的,除非有关性状中遗传变异的很大一部分由几个基因座控制。
5.4森林树种育种中GS的挑战
尽管基因分型技术的效率有所提高,但对于林木来说,基因分型仍然是昂贵的。例如,尽管成本正在下降,但Illumina SNP基因分型平台的成本在2012年之前就花费了大约150美元。美国和其他国家的几个实验室正在研究替代基因分型技术,例如通过测序进行基因分型(Baird et al。2008; Elshire et al。2011; Peterson et al。2012; Poland et al。2012; Truong et al。2012 ),我们预计到2013年基因分型成本可能会低于50美元。
由于这些群体中的创始人数量相对较小(<30),标记与性状位点之间的LD是很大,由于群体的深度系谱和有效的群体规模小。树木育种群体仍处于起步阶段。系谱结构仍然很浅,连锁不平衡非常低(Neale和Savolainen,2004)。由于减数分裂重组,在一代中检测到的标记特征相可能不能保留在随后的一代中。要使GS成功,需要有良好结构的群体(有效群体数量小,多代)。针叶树是北半球育种计划的主要目标,具有大而复杂的基因组。 GS需要全基因组的密集覆盖以追踪与表型相关的许多QTL。可能需要更多的标记来填充针叶树的基因组。 Grattapaglia和Resende(2011)提出,有效群体规模大于30,需要20个标记/ cM。森林在实施GS方面有一些优势。群体众多,可以轻松放在一起。每个家系都有大量的进步(几百个),投入和时间都很少。由于有效的实验设计和个体的克隆,表型可能非常准确。
在美国北卡罗来纳州立大学树木改良计划中,已经提出了一个关于火炬松群体的GS计划(图6)。在图中给出的图中6,该过程开始于创建一个具有小于50个父母的有效群体数量(Ne)的培训群体。在这个例子中,使用了20个父母。 20名创始人之间的相关性是可取的,因为这将使基于标记的模型更有力地通过追踪群体中的历史LD来预测GEBV。从20名父母的全同胞交配中可以对约1000人进行基因分型。该后代群体经过现场测试,获得育种价值可以获得1000个个体的绝育育种值或调整为固定效应的表型值,以用作基于标记的模型(M1)的新“表型”。
有不同的方法来验证标记的预测能力。可以使用来自相同杂交(已知表型和基因型)的另外500个后代作为验证群体。或者,可以使用子集的一小部分随机抽样或选择每个全同胞家系中子代子集来验证模型M1。这一步是证明该模型具有预测能力的概念证明,并不一定是GS的应用。为了利用GS方法的好处,我们需要从培训群体中挑选所选择的个体,获得种子,并使用M1进行选择决策。这可以称为“跨代”GS应用程序。当更多的基因型和表型数据作为育种进展(M2)可用时,M1模型可以进行再培训。 GS培训模型将具有更多的可靠性,因为新的数据被包括在内,可以用于多代。
6结论
由于DNA测序技术的进步和投资决定了几种商业上重要的森林树种的参考基因组序列,森林树种中具有成本效益的遗传标记的可用性正在迅速扩大。这些资源有可能从根本上改变树种育种方案对其繁殖群体遗传变异特征的方式,几个研究小组正在积极地开展在实践育种计划中应用这些工具的方法。分子标记已经成为群体管理应用的有用工具,如验证杂交,细胞重建和克隆的明确识别。已经报道了各种森林树种的几种性状的关联遗传学结果,并将这些结果应用于实际的育种计划中。开发更复杂的分析方法,能够整合SNP测定检测到的遗传变异分析与基因表达模式,代谢物水平和表型测量的变化,可以提供能够基于分子测定法更准确地预测遗传价值的新工具。遗传价值的预测模型是基因组选择方法的中心目标,在育群体体中具有适当的LD模式的牲畜和作物物种已经显示出相当大的希望。森林树种繁殖群体的LD可能与牲畜或作物种类有非常不同的模式,可能需要新的基因组选择方法,以便该方法在应用树种育种计划中充分发挥潜力。