对于多基因组CRE鉴定,文献给予了方法,
To identify orthologues of the 52,169 sugar glider candidate cis-regulatory elements across the
15 other diprotodont genomes
examined in our study, we used a comparative annotation approach. First, we annotated conserved coding genes in each species by lifting-over gene model from the high-quality RefSeq annotation of the koala genome to each other genome using LiftOff v.1.6.3 (parameters: -d 4). We then conducted a second lift-over of sugar glider candidate cis-regulatory elements to each other species using the same procedure but with the addition of a flanking sequence to improve candidate cis-regulatory element mappability and reduce the chances of multi-mapping (parameter: -flank 1). We next used synteny anchoring63 to validate candidate orthologues of sugar glider candidate cis-regulatory elements. For each of the 15 non-sugar-glider marsupial genomes, we created a list of candidate cis-regulatory element orthologues and their flanking genes (excluding genes that were not annotated in the reference sugar glider genome). Then, for each candidate cis-regulatory element orthologue in each species, we compared the identities of their flanking genes to those in the sugar glider genome. We considered elements to be orthologues of their reference sugar glider candidate cis-regulatory element candidate if (1) the first flanking gene, upstream or downstream, matched that in the sugar glider genome and (2) if those flanking genes in the target species were no greater than four times the distance from the candidate cis-regulatory element measured in the sugar glider genome. Candidate cis-regulatory element orthologues that passed this synteny check were then extracted from their respective genomes using gffread (v.0.12.7)64.
为了在研究中考察的另外15种有袋目动物基因组中鉴定出52,169个蜜袋鼯候选顺式调控元件的同源基因,采用了比较注释的方法。
这种方法通常涉及比较不同物种之间的基因组序列,寻找在进化过程中保持一致的基因或调控元件,以确定它们在各个物种间的对应关系。通过这种方式,可以识别出在不同物种中具有相似功能的顺式调控元件。
步骤如下:
1、首先,使用LiftOff v.1.6.3工具(参数:-d 4)将考拉基因组的高质量RefSeq注释转移(lifting-over)到其他每个物种的基因组,以此来注释每个物种中的保守编码基因。在这个过程中,"-d 4"参数意味着如果一个基因在目标基因组中与源基因组的位点最大相差4个碱基,该基因仍然被认为是相同的。这种方法有助于识别在不同物种间高度保守的基因,并为后续分析提供了基础。
2、接着,使用同样的方法对蜜袋鼯的候选顺式调控元件进行了第二次转移,但在此次操作中,添加了侧翼序列(parameter: -flank 1),以提高候选顺式调控元件的映射能力,同时减少多映射的可能性。这里的"-flank 1"参数表示在顺式调控元件两侧各取1个碱基的序列,这有助于提高映射的准确性。
3、随后,利用染色体共线性(synteny anchoring)方法来验证蜜袋鼯候选顺式调控元件的同源。染色体共线性是指在进化过程中,基因在染色体上的相对顺序和方向在不同物种间是保守的。对于这15种非蜜袋鼯的有袋动物基因组,为每一种创建了一个候选顺式调控元件同源物的列表,以及它们相邻的基因(排除了在参考蜜袋鼯基因组中未注释的基因)。这个过程的目的是为了构建一个包含所有可能的顺式调控元件及其对应同源基因的数据库,以便后续分析。通过排除在蜜袋鼯参考基因组中没有注释的基因,可以确保分析基于可靠且可比的数据,从而提供更精确的顺式调控元件功能和保守性的洞察。
4、然后,对于每种物种中的每一个候选顺式调控元件同源物,比较了它们相邻基因的身份与蜜袋鼯基因组中的基因。如果满足以下条件,视为这些元素是其参考蜜袋鼯候选顺式调控元件的同源:
(1). 第一个邻近基因匹配:无论上游还是下游,目标物种中的第一个邻近基因与蜜袋鼯基因组中的对应基因相匹配。这表明尽管可能有基因排列的变化,但顺式调控元件与特定基因的关系在进化上是保守的。
(2). 距离限制:目标物种中的这两个邻近基因到候选顺式调控元件的距离不超过蜜袋鼯基因组中测量距离的四倍。这确保了尽管基因组可能有所变化,但元件与基因之间的相对位置关系仍然在可接受的范围内。
通过这种同源性检查后,使用gffread(v.0.12.7版本)从各自物种的基因组中提取出这些候选顺式调控元件同源物。gffread是一个强大的工具,可以解析GFF/GFF3格式的注释文件,并根据需要从中提取特定区域。
Candidate cis-regulatory element orthologues across all species were then combined into a multi-fasta file and aligned using MAFFT v.7.453 (parameters: --adjustdirectionaccurately --localpair --maxiterate 1000).
接下来,将所有物种的候选顺式调控元件同源物合并成一个多FASTA文件。然后,使用MAFFT v.7.453软件对这些序列进行对齐。在MAFFT中,选择了以下参数:
--adjustdirectionaccurately:确保反向互补的DNA序列正确对齐。
--localpair:使用局部对齐策略,这适用于不完全保守的区域或只关注局部同源性的场景。
--maxiterate 1000:设置最大迭代次数为1000次,以确保获得高质量的对齐结果,尤其是对于长序列或复杂对齐。
通过这一对齐过程,可以比较不同物种间的顺式调控元件序列,识别出高度保守的区域,这些区域可能在调控基因表达方面具有重要的功能。此外,还可以发现可能的变异,这些变异可能影响到顺式调控元件的功能,进而影响基因表达和物种的表型差异。
文献:
Emx2 underlies the development and evolution of marsupial gliding membranes | Nature