三代Pacbio和Nanopore测序技术的快速发展推动了比较基因组学领域的进步,泛基因组构建和结构变异识别成为该领域研究前沿。其中,共线性分析是比较基因组学的重要组成部分,主要用于描述同一染色体上基因的位置关系。同时随着泛基因组的快速发展,越来越多基因组间结构变异的积累被发现。然而目前快速识别基因组共线性和遗传结构变异的工具仍然匮乏。因此,开发简单易用的可视化工具快速比较不同基因组之间遗传变异对揭示物种遗传多样性具有重要意义。
2022年4月15日,Journal of Genetics and Genomics在线发表广西大学陈玲玲教授/宋佳明副教授团队题为“GenomeSyn: a bioinformatics tool for visualizing genome synteny and structural variations”的研究论文。该研究开发了一种用于基因组共线性构建和可视化的生物信息学工具,方便基因组共线性和结构变异区域的鉴定分析,为泛基因组下游分析提供了新工具。
共线性的定义
所谓的共线性主要是用来描述同一染色体上基因的位置关系,也就是指由同一祖先型分化而来的不同物种间基因的类型以及相对顺序的保守性(即基因的同源性+基因的排列顺序)。共线性片段的大小与物种之间的分化时间有很大关系:分化时间较短的物种间,积累的变异较少,会保留更多从祖先遗传下来的特征;相反的,分化时间较长的物种间由于变异积累而导致共有的特征变少,反而获得较短的共线性片段
。此外,基因同源又可以分为直系同源和旁系同源。直系同源基因指存在于祖先基因组中,随后因为物种分化,分别遗传给不同的后代,这些基因在结构和功能上有很高的相似性。旁系同源基因指同一基因组中由于基因复制而产生的的同源基因,这些基因往往变异较大,从而可能出现功能变异。
共线性分析是比较基因组中必不可少的分析策略,因为它允许分析物种间大尺度和小尺度的分子进化事件。
全基因组比对需要消耗的计算机内存很大,而且运行时间较长。另外,由于基因组复制事件广泛存在,尤其是植物基因组,可能无法很好地区分旁系同源基因,容易产生大量的假阳性比对结果。因此,选择合适的基因组比对软件尤其重要。目前比较成熟的基于全基因组共线性比对分析的软件有:MUMmer、progressiveMauve、Mugsy、LAST、Lastz、Cactus。
文章链接:
git链接:
测试数据下载:
wget https://cbi.gxu.edu.cn/GenomeSyn//download_example/ && mv index.html rice.zip
软件下载使用:
wget https://cbi.gxu.edu.cn/GenomeSyn//download_example/ && mv index.html rice.zip
# add the environment for running GenomeSyn
$ source ./install.sh
###自己的配置
source ~/.bashrc
测试数据代码:
GenomeSyn -g1 rice_MH63.fa -g2 rice_ZS97.fa
运行结果:
报错及解决:
缺少svglib模块
解决方法是删掉GenomeSyn /miniconda3/bin里的pip文件,将可以用的pip链接过来:
ln -s ~/miniconda3/bin/pip ~/soft/GenomeSyn-1.2.6/GenomeSyn-1.2.6/miniconda3/bin
再次安装就可以:
GenomeSyn -t 3 -g1 rice_MH63.fa -g2 rice_ZS97.fa -cf1 rice_MH63vsZS97.delta.filter.coords
GenomeSyn -t 3 -g1 rice_MH63.fa -g2 rice_ZS97.fa -cf1 rice_MH63vsZS97.delta.filter.coords -cen1 rice_MH63_centromere.bed -cen2 rice_ZS97_centromere.bed -tel1 rice_MH63_telomere.bed -tel2 rice_ZS97_telomere.bed -TE1 rice_MH63_repeat.bed -TE2 rice_ZS97_repeat.bed -PAV1 rice_MH63_PAV.bed -PAV2 rice_ZS97_PAV.bed -NLR1 rice_MH63_NLR.bed -NLR2 data/rice_ZS97_NLR.bed -r MH63 -q ZS97 -GD1 rice_MH63_nonTEgene.gff3 -GD2 rice_ZS97_nonTEgene.gff3 -GC1 rice_MH63_GC_10000.bed -GC2 rice_ZS97_GC_10000.bed -GC_win 100000 -TE_min 40
GenomeSyn -t 3 -n3 12 -g1 rice_MH63.fa -g2 \
rice_ZS97.fa -g3 rice_R498.fasta -cf1 \
rice_MH63vsZS97.delta.filter.coords -cf2 \
rice_MH63vsR498.delta.filter.coords -cen1 \
rice_MH63_centromere.bed -cen2 rice_ZS97_centromere.bed \
-cen3 rice_R498_centromere.bed -tel1 \
rice_MH63_telomere.bed -tel2 rice_ZS97_telomere.bed -tel3 \
rice_R498_telomere.bed -TE2 data/rice_ZS97_repeat.bed -PAV1 \
rice_MH63_PAV.bed -PAV2 rice_ZS97_PAV.bed -NLR1 \
rice_MH63_NLR.bed -NLR2 rice_ZS97_NLR.bed -r MH63 -q1 ZS97 \
-q2 R498 -GD1 rice_MH63_nonTEgene.gff3 -GD2 \
rice_ZS97_nonTEgene.gff3 -GD3 rice_R498_IGDBv3_coreset.gff \
-GC2 rice_ZS97_GC_10000.bed -GC_win 100000 -TE_min 40
关于软件中使用的svglib包:
链接:
svglib · PyPI
软件下载链接:
GenomeSyn (gxu.edu.cn)
参考链接:
GenomeSyn (gxu.edu.cn)
https://mp.weixin.qq.com/s/BsgQmCPPSrzCnLf989_kIA