随着基因组测序爆炸性增长,比较基因组学已逐渐成为每个物种尤其是首次被破译基因组的物种的必备研究内容之一。那么什么是比较基因组学呢?比较基因组学是通过对系统发育中的代表性物种之间的基因和基因家族的比较分析、构建系统发育图谱, 来揭示基因、基因家族的起源和功能及其在进化过程中复杂化和多样化的机制。比较基因组学研究有助于进一步阐明物种进化的分子基础, 探索基因起源机制, 从基因进化的角度研究基因序列与功能的关系。
一、物种选择
这么多的物种中该选择哪些来进行研究呢?又应该怎么挑选呢?“好的”比较基因组研究一般需要遵循以下几点:
(1)顾名思义,最重要的是这些物种要有参考基因组(即需要有蛋白质序列文件以及基因注释文件)。基因组常用的数据下载网站有以下三种:
- NCBI(https://www.ncbi.nlm.nih.gov/);
- ENSEMBLE(http://asia.ensembl.org/index.html);
- Phyzome(https://phytozome.jgi.doe.gov/pz/portal.html)。
(2)为了研究的准确性,尽量选择基因组组装连续性好的物种。若要用作共线性分析,则该物种的基因组需要为染色体水平。
(3)与研究目的物种的亲缘关系不宜太远、数目不宜过多(通常在6-10个左右)。物种越多,物种间亲缘关系越远,将使得可获取的单拷贝直系同源基因数目越少,影响进化树的准确性。
(4)可从分类系统选择,将更好的从亲缘关系水平寻找近缘物种。
(5)可从已发表近缘物种基因组文章中的进化树内进行挑选,以此作为参考;或是直接从基因组发表网站上进行挑选,从而避免所选物种无基因组数据而反复挑选查找的麻烦。
(6)为了避免基因家族扩张与收缩分析结果受到干扰,所分析物种的倍性最好保持一致,异源多倍体通常会拆成亚基因组对应的蛋白质序列进行分析,例如陆地棉AADD,则需要分为AA与DD分别进行。当然,不拆开亚基因组也可以,例如2019年Nature Communications上发表的异源四倍体糜子基因组就与二倍体谷子、高粱等一同分析(Zhou C et al.,Nature communications. 2019)。
(7)需要含有关心的物种:这些物种与目标物种具有相似/相反的生物功能,通过物种间的比较可以解释说明一定的生物问题,同时也利于后续基因家族功能故事阐述。
(8)全基因组复制事件加上前期已有研究物种或是研究较为清晰的物种作为比对(葡萄或无油樟可作为内参)。
- ① 外群物种要比研究物种先从祖先物种中分化出去;
- ② 外群物种与研究物种的亲缘关系不宜太远;
- ③ 基因组组装质量较好。
目前,外群物种的选取可以从文献调研、分类系统查找、项目经验等三种途径进行获取。寻找已发表基因组的近源物种文章。文章正文或附录中的系统进化树,最外面的物种即为外群物种。
(10)分析中需要借助于化石时间矫正得到有分化时间的物种树,因此需要进化树分支上某一物种具有化石信息,为了分析的准确性,最好能在每个大分支内有一个化石信息。常用的化石信息查询网站:TIMETREE website (http://timetree.org/)
二、分析内容
(1)基因家族聚类
基因家族(gene family),是来源于同一个祖先,由一个基因通过基因重复而产生两个或更多的拷贝而构成的一组基因,它们在结构和功能上具有明显的相似性,编码相似的蛋白质产物。对物种的蛋白序列进行家族分类,对获得基因家族进行注释;对本物种的特有基因家族进行GO和KEGG富集分析。物种共有基因家族中的单拷贝同源基因数目,用于系统发育树的构建等分析。Veen图中非重叠区与重叠区的数量分别表示几个物种间特有基因家族和共有基因家族的数量。
(2)系统进化分析
通过与其它种基因组进行比较,挖掘目的物种与不同种间的系统进化关系。利用单拷贝蛋白序列建进化树,通过外群的加入,使无根树转为有根树。
(3)分化时间分析
通过与其它种基因组进行比较,挖掘不同种间的系统进化关系。根据各类生物间的亲缘关系的远近,把各类生物安置在有分枝的树状的图表上,简明地表示生物的进化历程和亲缘关系。借助于化石时间矫正,可以得到有分化时间的物种树,从而获得物种之间的亲缘关系和分歧时间,有利于阐明物种的进化历史。
(4)基因家族扩张收缩
在比较基因组学中往往要研究具有某一类功能或者控制某性状的基因家族在所研究的物种上是变多了还是变少。这就需要对基因家族进行收缩与扩张分析。通过目标物种和近源物种之间的进化关系,模拟推算共同祖先的状态,然后两者都和祖先比较,进而确定收缩和扩张的基因家族使用带有分歧时间的进化树和基因家族聚类之后的结果,通过出生死亡率模型估计每个分枝的祖先的基因家族成员个数,从而预测出该物种基因家族相对于祖先的收缩和扩张情况。
(5)选择压力分析
选择压力是指外界施加给某物种生物进化过程中的压力,使得物种适应自然环境。在遗传学中,Ka/Ks或者dN/dS表示的是异义替换(Ka)和同义替换(Ks)之间的比例。一般认为,同义突变不受自然选择,而非同义突变则受到自然选择作用。如果Ka/Ks>1,则认为有正选择效应。如果Ka /Ks=1,则认为存在中性选择。如果Ka/Ks<1,则认为有纯化选择作用。
如发表于《Molecular Plant》文章杂草稻基因家族聚类图例所示:ka/ks值在1.4到1.5之间,杂草稻(WR04-6)比野生稻(w1943)含有更多的基因;明杂草稻基因组中的基因可能积累了比栽培稻更多的功能突变,这意味着杂草稻的半驯化导致了杂草的进化。
(6)基因组共线性分析
线性暗示两个物种来源与共同的祖先序列,有着相似的功能。通过对物种内或者物种间共线性相关联,来确定物种内部或者物种间的结构变异,揭示物种染色体进化,研究物种内部多倍化等事件。
主要应用:
- 结构变异的挖掘;
- 基因组组装准确性验证(与已发表比较验证);
- 观察全基因组复制事件;
- 功能基因组学研究(有相同生物学功能);
如发表于《Nature Genetics》陆地棉与海岛棉基因组文章。图例所示:海岛棉染色体D05和陆地棉D12中均存在大的染色体臂间倒位,暗示这些变异出现在多倍化之后;两个四倍体相对于G. raimondii 共有一些结构变异,例如染色体D09中两个四倍体发生了大的反转。
如发表于《Genome Biology》开心果基因组文章事例所示:每个无油樟区域对应三个开心果区域,每个开心果区域对应有两个毛果杨区域,暗示了开心果在毛果杨之外又发生了一次独立的复制事件。
(7)全基因组复制事件
多倍化(polyploidy)或全基因组加倍(whole genome duplication, WGD)事件使基因组内的所有基因都发生重复,为生物进化提供了原始的遗传材料,被认为是进化的加速器。全基因组复制事件在真菌或动植物中都有发生,是基因组中基因数量变化、基因新功能的形成、基因重排等的重要推动力。
由于在同一基因组上共线性的染色体片段中有旁系同源的基因集,因此可以通过这些成对的共线性片段追溯目的物种曾经的复制事件。通过研究全基因组复制事件,可以确定物种发生全基因组倍增时间, 茶树全基因组复制事件(Ks)(Xia E et al. Molecular Plant.2020)同时也通过分化时间的比对来判断复制是发生在分化之前还是分化之后。
常用方式:KS/4DTVKS:全基因组加倍事件会产生大量的同源基因,反映在Ks值上便是会有大量的Ks值接近的同源基因对的产生,Ks值峰就对应了全基因组加倍事件的存在。
4DTV:如果密码子的第三个位点无论是哪种核苷酸,均编码同样的氨基酸,则称这个位点为4倍简并位点。较多的基因对数存在4倍简并位点,说明基因组多样性较多(or冗余基因较多),可能此刻发生了物种分化或者基因组复制。
三、尾声
随着分析技术的不断成熟,再加上无需其他额外材料收集以及测序分析与实验工作,基因组结合比较基因组学分析是目前快速基因组文章发表的一个重要小途径,也是一些新破译基因组物种所不可或缺的分析内容之一。当然也正是因为分析的成熟,若想要冲刺高分杂志还需要结合其他组学手段,讲述一段较为完整的生物故事。