作者:童蒙
编辑:amethyst
大豆是一种非常重要的油料和蛋白质来源。为了研究其基因组多样性,需要构建高质量的泛基因组。作者denovo组装了26个代表性的大豆,同时对2898个大豆进行了重测序,结合之前发表的基因组,构建了一个graph-base genome,并且进行相应的分析,得到了许多二代测序不能被发现的遗传变异。通过研究SV和转录组的变化,可以更好的发掘性状背后的基因。
背景介绍
01 泛基因组介绍
- 单个参考基因组不能代表一个物种的所有遗传多样性,从而会限制遗传变异的鉴定,尤其是SV和CNV。
- 传统的linear reference不能很好地展示不同的allele和大的SV,而graph-base genome可以很好地解决这个问题。
- graph-base genome:小编以为是一种以图论来表示的基因组数据结构。
- PAV:presence/absence variant , 一个变异是否存在或者确实与某个基因组中。
02 大豆的介绍
- 重要的油料作物,驯化历史约5000年。
- 参考基因组有Wm82,ZH13,W05。不同的品种间,发现有许多的PAV和CNV,说明一个基因组不能代表所有的种群。
03 文章创新点
- 三代测序组装了26个基因组
- 构建了graph-base genome
- 找到了许多二代无法发现的变异与基因融合
材料与方法
采样与实验
- 组装:26个品系的单个植株,建20K的文库,进行Sequel I 测序,同时进行二代测序
- 光学图谱:使用嫩叶子,用酶DLE-1
- Hi-C辅助组装:使用MboI和DpnII酶。
- 重测序:2027个样品。
RNA-seq和miRNA-seq:9个样品的叶、花、种子,采集不同时期的进行测序,大家可以借鉴一下。
A, root from growth stage V1;
B, stem from growth stage V1;
C, young leaf from growth stage V1;
D, mature leaf from growth stage R1;
E, old leaf from growth stage R4;
F, flower from growth stage R1;
G, pod and seed before 4 weeks;
H, seed at 6 weeks;
I, seed at 8 weeks。
分析内容
- 变异检测与进化分析:使用ZH13作为参考基因组,进行变异检测,并进行绘制进化树。
- 基因组组装:使用canu组装,二代测序进行校正;HERA从来合并pacbio和bionano的结果,使用Hi-C进行辅助组装。
- 重复序列分析和基因注释:使用denovo和同源比对来鉴定重复序列。使用LTR_STRUC来鉴定LTR反转座子,RepeatMasker来查找重复序列,使用SoyTEdb来注释TE元件,ShortStack来预测miRNA,cmscan来预测SnRNA和snoRNA,tRNA-scan-SE来预测tRNA。使用Augustus、同源预测和转录本来预测基因,用MAKER进行整合,用PASA来预测可变剪接。
- 共线性分析:使用MUMmer4,利用Wm82和W05来进行分析;同时也进行了WGD和PAV的分析。
- SV鉴定:检测PAV、CNV,同时使用vg构建图基因组。
- 遗传变异鉴定:计算SNP密度、dN,dS和π。
- 基因和miRNA表达分析。
- Core and Dispensable Gene Family Clustering:使用OrthoMCL 鉴定core gene family。
- CHS基因单元分析。
- 基因融合分析。
结果
01 组装的结果
使用2898个重测序,每个13x,获得了31M个SNP;并且构建进化树,将2898个accession分成6个大类。组装结果都还是很好的,见下图。重复序列的占比也都比较稳定,在55%左右,基因数目也比较恒定。
02 鉴定核心和非必须基因集
定义了softcore gene(存在于25个个体中的基因家族)、dispensable gene(存在于2个个体中的)、private gene(只存在于1个个体中的),结果比例如下图。虽然dispensable gene和private gene的个数多,但是在单个样品中比例不高。可以看出core gene和softcore gene在50%左右,dispensable gene为50%左右。
core gene有更高的domain比例,同时π和dn/ds也比较低,说明core gene更保守,这个很容易解释。
03 鉴定SV
- 鉴定了总共723k个PAV事件,长度在1kb-2kb之间,总共大概4.71Gb的序列,平均每个个体167M。PAV是基因组大小差异的主要的来源。
04 构建图基因组
SV也可以分为core,softcore,dispensable,private。发现重复区域中富含SV。
构建了一个图基因组,然后使用图基因组,来鉴定sv。precision、recall和F1分别为0.94,0.75,0.83。还是一个比较高的检测效力。
05 研究基因结构的变化
- 基因结构的变化是主要表型的来源,同时融合基因也是基因进化的一方面。
- 此外还研究了SV与驯化的关系,以及与转录组表达的关系。
展望
建立了一个pan-genome,为后续的研究提供了很好的基础。
这是一篇经典的文章,里面内容很丰富很详实,值得多读几遍。里面涉及了一些功能的内容,由于小编对这块不熟悉,就没有去解读了。大家如果想继续了解,可以去阅读原文。
参考文献
Liu Y , Du H , Li P , et al. Pan-Genome of Wild and Cultivated Soybeans[J]. Cell, 2020, 182(1).