众所周知,人类有二十三对染色体,其中第二十三对是决定性别的。2020年7月14日,科学家们首次获得人类X染色体的完整序列,让我们来看看吧!
经过科学家近二十年的努力,人类染色体基因组序列迄今为止是最准确和完整的脊椎动物基因组序列,但仍有数百个未知的空白或缺失的DNA序列。这些缺口通常包含重复的DNA片段,非常难以测序,但是这些重复片段却是控制人类遗传信息变异最丰富的区域之一,可能隐藏着理解人类生物学和疾病很重要的信息。
为了避免分析正常人体细胞中两个染色体发生的DNA变异,在新研究中研究人员没有对来自正常人类细胞的X染色体进行排序,而是使用了一种特殊的细胞类型——有两个相同的X染色体。它比一般的男性细胞(XY)多一条X染色体,同时又能避免分析典型的女性细胞(XX)时会遇到的两条染色体的序列差异的问题。
人类基因组非常长,包含约60亿个碱基。任何DNA测序仪器都无法一次性完全读取所有的碱基信息。因此,简单来说,研究人员需要把基因组分成更小的片段,就像把把一幅图画切割成拼图的一小块。然后,再对每一块的信息进行分析,最后把这些短片段拼回到整幅图中去。
在这幅“拼图”中,DNA重复序列在基因组中非常普遍,它们一直是巨大的挑战。大多测序技术只能制造出长度很小的“短片段读取”,重复序列就会导致许多看起来几乎完全相同的短片段出现。这就好像在拼图中出现了一大片蓝天,这里的每一块看起来并没有什么不同,但又没有线索告诉我们这些片段是如何拼接在一起。
但现在,测序技术取得了长足的进步。纳米孔测序技术可以获得包含数十万个碱基对的“超长读取”,这样的长度可以跨越覆盖整个重复区域,从而绕过了一些复杂的挑战。新的突破正是由能够实现“超长读取”的新测序技术实现的。借助这些技术,团队制造出了一个全基因组的组装,它在连续性、完整性和准确性等方面超过了之前所有人类基因组组装,甚至在某些指标上超越了当前人类参考基因组。
接下来,剩余的中断部位就是在着丝粒,也可以理解成染色体两条“腿”交叉的地方。这是一个出了名的难题,因为这里存在着大量重复DNA。在X染色体中,着丝粒包含的高度重复的DNA区域跨越了310万个碱基对。团队成功识别出了重复序列中的变异,将它们作为标记,用这些变异来排列长段的读取,再将它们连接在一起,从而完成了整个着丝粒区域。下一步则是利用来自多种测序技术的数据的完善策略,从而确保序列中每个碱基的准确性。
纳米孔测序除了能提供超长读取之外,还可以检测被甲基化修饰的碱基——这是一种“表观遗传”的变化,也就是说,它不会改变序列,但对DNA结构和基因表达有着重要影响。通过绘制X染色体上甲基化模式的图谱,研究人员能够证实之前的一些观察,并揭示着丝粒内甲基化模式的一些有趣的趋势。
研究人员相信,我们已经来到了“一个完整基因组序列的时代”。我们也希望在不远的将来,随着科技的发展,我们可以解决一个又一个的难题,成就一番事业。
今天的长图就到这里啦!谢谢大家!