一文读懂比较基因组学

随着基因组测序爆炸性增长,比较基因组学已逐渐成为每个物种尤其是首次被破译基因组的物种的必备研究内容之一。那么什么是比较基因组学呢?比较基因组学是通过对系统发育中的代表性物种之间的基因和基因家族的比较分析、构建系统发育图谱, 来揭示基因、基因家族的起源和功能及其在进化过程中复杂化和多样化的机制。比较基因组学研究有助于进一步阐明物种进化的分子基础, 探索基因起源机制, 从基因进化的角度研究基因序列与功能的关系。

一、物种选择

这么多的物种中该选择哪些来进行研究呢?又应该怎么挑选呢?“好的”比较基因组研究一般需要遵循以下几点:

(1)顾名思义,最重要的是这些物种要有参考基因组(即需要有蛋白质序列文件以及基因注释文件)。基因组常用的数据下载网站有以下三种:

(2)为了研究的准确性,尽量选择基因组组装连续性好的物种。若要用作共线性分析,则该物种的基因组需要为染色体水平。

(3)与研究目的物种的亲缘关系不宜太远、数目不宜过多(通常在6-10个左右)。物种越多,物种间亲缘关系越远,将使得可获取的单拷贝直系同源基因数目越少,影响进化树的准确性。

(4)可从分类系统选择,将更好的从亲缘关系水平寻找近缘物种。

被子植物系统发育海报(http://www.plantgateway.com/chinese/)

(5)可从已发表近缘物种基因组文章中的进化树内进行挑选,以此作为参考;或是直接从基因组发表网站上进行挑选,从而避免所选物种无基因组数据而反复挑选查找的麻烦。

图片
网站查询方法图例(https://phytozome.jgi.doe.gov/pz/portal.html)

(6)为了避免基因家族扩张与收缩分析结果受到干扰,所分析物种的倍性最好保持一致,异源多倍体通常会拆成亚基因组对应的蛋白质序列进行分析,例如陆地棉AADD,则需要分为AA与DD分别进行。当然,不拆开亚基因组也可以,例如2019年Nature Communications上发表的异源四倍体糜子基因组就与二倍体谷子、高粱等一同分析(Zhou C et al.,Nature communications. 2019)。

(7)需要含有关心的物种:这些物种与目标物种具有相似/相反的生物功能,通过物种间的比较可以解释说明一定的生物问题,同时也利于后续基因家族功能故事阐述。

(8)全基因组复制事件加上前期已有研究物种或是研究较为清晰的物种作为比对(葡萄或无油樟可作为内参)

\color{red}{(9)进化树选取外群物种,主要基于三个原则:}

  • 外群物种要比研究物种先从祖先物种中分化出去
  • 外群物种与研究物种的亲缘关系不宜太远
  • 基因组组装质量较好

目前,外群物种的选取可以从文献调研、分类系统查找、项目经验等三种途径进行获取。寻找已发表基因组的近源物种文章。文章正文或附录中的系统进化树,最外面的物种即为外群物种。

香雪球基因组进化树(Huang L* et al*.Horticulture Research. 2020)

(10)分析中需要借助于化石时间矫正得到有分化时间的物种树,因此需要进化树分支上某一物种具有化石信息,为了分析的准确性,最好能在每个大分支内有一个化石信息。常用的化石信息查询网站:TIMETREE website (http://timetree.org/)

二、分析内容

(1)基因家族聚类
基因家族(gene family),是来源于同一个祖先,由一个基因通过基因重复而产生两个或更多的拷贝而构成的一组基因,它们在结构和功能上具有明显的相似性,编码相似的蛋白质产物。对物种的蛋白序列进行家族分类,对获得基因家族进行注释;对本物种的特有基因家族进行GO和KEGG富集分析。物种共有基因家族中的单拷贝同源基因数目,用于系统发育树的构建等分析。Veen图中非重叠区与重叠区的数量分别表示几个物种间特有基因家族和共有基因家族的数量。

板蓝根基因家族聚类(Kang M *et al*.Horticulture Research. 2020)

(2)系统进化分析
通过与其它种基因组进行比较,挖掘目的物种与不同种间的系统进化关系。利用单拷贝蛋白序列建进化树,通过外群的加入,使无根树转为有根树

(3)分化时间分析
通过与其它种基因组进行比较,挖掘不同种间的系统进化关系。根据各类生物间的亲缘关系的远近,把各类生物安置在有分枝的树状的图表上,简明地表示生物的进化历程和亲缘关系。借助于化石时间矫正,可以得到有分化时间的物种树,从而获得物种之间的亲缘关系和分歧时间,有利于阐明物种的进化历史。

马兰及其近缘种分化时间(分支数字表示分化时间范围)(Xu W *et al*., Plant Journal.2020)

(4)基因家族扩张收缩
在比较基因组学中往往要研究具有某一类功能或者控制某性状的基因家族在所研究的物种上是变多了还是变少。这就需要对基因家族进行收缩与扩张分析。通过目标物种和近源物种之间的进化关系,模拟推算共同祖先的状态,然后两者都和祖先比较,进而确定收缩和扩张的基因家族使用带有分歧时间的进化树和基因家族聚类之后的结果,通过出生死亡率模型估计每个分枝的祖先的基因家族成员个数,从而预测出该物种基因家族相对于祖先的收缩和扩张情况。

二倍体芋头及其近缘种基因家族扩张收缩(红色表示扩张数目,蓝色表示收缩数目)(Yin J *et al*., Mol Ecol Resour.2020)

(5)选择压力分析
选择压力是指外界施加给某物种生物进化过程中的压力,使得物种适应自然环境。在遗传学中,Ka/Ks或者dN/dS表示的是异义替换(Ka)和同义替换(Ks)之间的比例。一般认为,同义突变不受自然选择,而非同义突变则受到自然选择作用。如果Ka/Ks>1,则认为有正选择效应。如果Ka /Ks=1,则认为存在中性选择。如果Ka/Ks<1,则认为有纯化选择作用。

如发表于《Molecular Plant》文章杂草稻基因家族聚类图例所示:ka/ks值在1.4到1.5之间,杂草稻(WR04-6)比野生稻(w1943)含有更多的基因;明杂草稻基因组中的基因可能积累了比栽培稻更多的功能突变,这意味着杂草稻的半驯化导致了杂草的进化。

杂草稻基因对Ka/Ks值的频率分布(Sun J *et al*.,Molecular Plant. 2019)

(6)基因组共线性分析
线性暗示两个物种来源与共同的祖先序列,有着相似的功能。通过对物种内或者物种间共线性相关联,来确定物种内部或者物种间的结构变异,揭示物种染色体进化,研究物种内部多倍化等事件。

主要应用:

  • 结构变异的挖掘;
  • 基因组组装准确性验证(与已发表比较验证);
  • 观察全基因组复制事件;
  • 功能基因组学研究(有相同生物学功能);

如发表于《Nature Genetics》陆地棉与海岛棉基因组文章。图例所示:海岛棉染色体D05和陆地棉D12中均存在大的染色体臂间倒位,暗示这些变异出现在多倍化之后;两个四倍体相对于G. raimondii 共有一些结构变异,例如染色体D09中两个四倍体发生了大的反转。

陆地棉和海岛棉D亚基因组与雷蒙德氏棉(DD型)基因组共线性分析(Wang M *et al*.,Nature genetics. 2018)

如发表于《Genome Biology》开心果基因组文章事例所示:每个无油樟区域对应三个开心果区域,每个开心果区域对应有两个毛果杨区域,暗示了开心果在毛果杨之外又发生了一次独立的复制事件。

开心果与无油樟及毛果杨共线性(Zeng lin* et al*.,Genome Biology.2019)

(7)全基因组复制事件
多倍化(polyploidy)或全基因组加倍(whole genome duplication, WGD)事件使基因组内的所有基因都发生重复,为生物进化提供了原始的遗传材料,被认为是进化的加速器。全基因组复制事件在真菌或动植物中都有发生,是基因组中基因数量变化、基因新功能的形成、基因重排等的重要推动力

陆地植物基因组复制历史(Wu S *et al*., Molecular plants. 2019)

由于在同一基因组上共线性的染色体片段中有旁系同源的基因集,因此可以通过这些成对的共线性片段追溯目的物种曾经的复制事件。通过研究全基因组复制事件,可以确定物种发生全基因组倍增时间, 茶树全基因组复制事件(Ks)(Xia E et al. Molecular Plant.2020)同时也通过分化时间的比对来判断复制是发生在分化之前还是分化之后。

常用方式:KS/4DTVKS:全基因组加倍事件会产生大量的同源基因,反映在Ks值上便是会有大量的Ks值接近的同源基因对的产生,Ks值峰就对应了全基因组加倍事件的存在

茶树全基因组复制事件(Ks)(Xia E *et al.* Molecular Plant.2020)

4DTV:如果密码子的第三个位点无论是哪种核苷酸,均编码同样的氨基酸,则称这个位点为4倍简并位点。较多的基因对数存在4倍简并位点,说明基因组多样性较多(or冗余基因较多),可能此刻发生了物种分化或者基因组复制。

小白菜全基因组复制事件(4DTV)(Li Y* et al*., Horticulture Research. 2020)

三、尾声

随着分析技术的不断成熟,再加上无需其他额外材料收集以及测序分析与实验工作,基因组结合比较基因组学分析是目前快速基因组文章发表的一个重要小途径,也是一些新破译基因组物种所不可或缺的分析内容之一。当然也正是因为分析的成熟,若想要冲刺高分杂志还需要结合其他组学手段,讲述一段较为完整的生物故事。

转自:https://mp.weixin.qq.com/s/WFe7UnihC8aR0yHB4gz8fA

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,098评论 5 476
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,213评论 2 380
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 149,960评论 0 336
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,519评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,512评论 5 364
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,533评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,914评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,574评论 0 256
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,804评论 1 296
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,563评论 2 319
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,644评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,350评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,933评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,908评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,146评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,847评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,361评论 2 342

推荐阅读更多精彩内容