转座因子 Transposon
一段DNA顺序可以从原位上单独复制或断裂下来,环化后插入另一位点,并对其后的基因起调控作用,此过程称转座。这段序列称跳跃基因或转座子。转座子是存在于染色体DNA上可自主复制和位移的基本单位。
- I型转座子( 复制-粘贴 )
I型转座子转座中间体是RNA。I型转座子又被称为逆元件(Retro element)。该型转座子会先被转录为RNA,然后该RNA被逆转录,再次成为DNA,才被插入到目标位点中 - II型转座子( 剪切-粘贴 )
II型转座中间体是DNA,转座子序列的两端是两段直接重复序列(direct repeat,简称dR),与它们接壤的是反向重复序列(invert repeat,简为iR),即“回文”序列。然后才是中间的插入序列(Insert sequence,简为IS)。
转座酶
执行转座功能的酶,通常由转座子编码,识别转座子两端的特异序列,能把转座子从相邻序列中脱离出来,再插入到新的DNA靶位点,无同源性要求。
Tn5转座子结构
转座子包括两端的反向重复序列和中间的转座基因。反向重复序列是转座酶结合的位置,中间的转座基因就是基因间来回跳跃的基因片段。
Tn5 全长约5.8kb,由编码三个抗生素(新霉素、博莱霉素、链霉素)的核心序列和两条倒置的IS50 序列组成,其中IS50R和IS50L的序列高度同源,只有IS50L的一个碱基存在突变。IS50具有19bp的倒置末端(外末端outsideend,OE和内末端inside end,IE),两倒置末端有7个bp不同,此倒置末端是转座酶(Tnp)的作用位点。IS50L和IS50R均含有编码转座酶(TnP)以及转座阻遏蛋白(lnh)的基因,但由于IS50L中的碱基突变,造成翻译提前终止,所以仅有IS50R可以产生正常的有活性的TnP和lnh。
Tn5作用机制
转座发生时,两个转座酶分子结合到Tn5转座子的OE末端,形成两个Tnp-OE复合体,随后两个复合体联会,末端相互作用而二聚体化,形成由一个二聚体蛋白质和两分子DNA组成的联会复合体。形成该联会复合体后,Tnp才具有切割DNA的活性。形成这种结构有利于协同Tn5 DNA 链的切割和转移,有利于防止Tnp只对转座子DNA链的一端进行切割。结合在左末端的Tnp负责催化右末端的磷酸二酯键水解,而结合在右末端的Tnp负责催化左末端的磷酸二酯键水解。活化Tn p水分子,此活化的水分子水解DNA链,在Tn5的两末端分别形成两个3’-OH亲核基团,该亲核基团进而攻击互补链形成发夹结构。随后另一活化的水分子水解该发夹结构, 形成平末端的Tn5,整个联会复合体离开供体链,并结合到靶DNA上。Tn5的3’-OH亲核攻击靶序列,在转座子插入位点之间形成9bp的粘性末端,转座子的3’-OH同靶DNA的5’-P之间形成共价键,转座子就插入到靶序列之中。在DNA 聚合酶的作用下补平缺口,转座子的两端形成9 bp的正向重复序列。整个转座过程完成了基因从原始DNA被剪切之后粘贴在另一受体DNA 的过程,实现了基因的“跳跃”(如图)。
Tn5应用
- Illumina Nextera DNA Library Preparation Kit
研究人员发现整个转座子序列并不是转座必须的,只需转座子的末端核心序列,转座酶便能将该部分序列插入并连接至基因组内;根据这个原理,将测序接头序列加入末端核心序列中,可简捷地引入测序接头,完成文库构建。
由下图可看到在tn5二聚体里面的双链Oligo是Nextera Tn5 binding site,19个碱基,全部都是一样的。伸出来的部分是单链的序列,
蓝色:Nextera tn5 read1 (5'-TCGTCGGCAGCGTC-3')
红色:Nextera tn5 read2(5’-GTCTCGTGGGCTCGG-3')
将P5、P7 端部分接头序列( Adapter 1/2 )和转座子末端序列形成包被接头,与Tnp 形成Tn5 转座复合体。该复合体打断受体DNA,会形成一端带有P5部分接头Adapter 1,一端带有P7 部分接头Adapter 2的DNA,之后通过PCR加上Barcode以及接头其余部分,形成含P5端与P7端完整接头的DNA 文库。
Tn5 用于测序文库构建时,将DNA 片段化、末修加A、接头连接等多步反应转变为1步反应,极大缩短建库时间,提高工作效率。但是这一步之后,接头与插入片段之间有9bp 的gab 需要补平(如图5),这就是为什么Tn5 建库在PCR之前必须72 ℃反应5min ,而且所用的PCR 酶需要是具有链置换功能的非热启动酶。
Vazyme TruePrep® DNA Library Prep Kit
建库原理
TruePrep Tagment Enzyme Mix (TTE Mix)中包含转座酶和两种等摩尔的接头Adapter 1和Adapter 2。将该预混液与DNA混合,55°C下孵育10 min,即可实现DNA片段化的同时末端接上接头。这种片段化产物经N5 (N5XX)和N7 (N7XX)以及P5和P7 (PCR Primer Mix, PPM)两对引物扩增、扩增产物大小分选和纯化后即为可测序文库。-
文库结构
-
建库流程
ATAC-seq
ATAC-seq也即Assay for Transposase-Accessible Chromatin with high throughput sequencing,是利用转座酶探究可接近性染色质高通量测序技术。
- 染色质开放性
染色质分为常染色质和异染色质,在结构上常染色质折叠压缩程度低,处于伸展状态,DNA复制,基因转录都发生在DNA的致密高级结构变为松散的状态;这部分打开的染色质,就叫开放染色质(open chromatin)。而打开的染色质,就有足够的区域允许一些调控蛋白(比如转录因子和辅因子)过来与之相结合。而染色质的这种特性,就叫做染色质的可接近性(chromatin accessibility)。通过研究细胞特定状态下开放的染色质区域可以在DNA水平上了解其转录调控。 - 染色质区域开放性研究方法
传统使用的的实验方法主要是有MNase-seq和DNase-seq,这两种实验方法的主要思路是:染色质变得开放,就意味着DNA和组蛋白的聚集程度降低,就会有一部分DNA暴露出来。而一旦失去了蛋白质的保护,这部分DNA就可以被DNA酶(MNase或DNase I)所切割。然后,我们再把切割完的DNA拿来测序,和已知的全基因组序列相比较,就能发现被切割的是哪些序列,没有被切掉的基因序列又在哪里,就知道开放的染色质区域在哪里了。不过,这两个方法有明显的缺陷,即耗时费力与重复性差。虽然FAIRE-seq 不依赖酶和抗体,但其检测背景较高,测序信噪比低,甲醛交联时间不好把握等缺陷,限制其使用范围。 -
染色体的结构。
染色体主要由DNA和蛋白质组成,每一条染色单体由单个线性DNA分子组成,细胞核中的DNA是经过高度有序的包装,包装分为多个水平,核小体核心颗粒(nucleosome core particle)、染色小体(chromatosome)、 30 nm水平染色质纤丝(30 nm fibre)和高于30 nm水平的染色体包装
-
研究开放染色质的方法对比
ATAC-seq利用Tn5转座酶人为将将携带已知DNA序列标签的转座复合物,加入到细胞核中,再利用已知序列的标签进行PCR建库测序,就知道哪些区域是开放染色质了。ATAC-seq出来的结果,和传统方法出来的结果具有很强的一致性,同时也和ChIP-seq有较高的吻合程度。而相比较而言,ATAC-seq的重复性,比MNase-seq和DNase-seq的更强,操作起来也更加简便,而且只需要很少的细胞/组织量,同时测序信号更加好。目前已经成为研究染色质开放性首选的技术方法
ATAC-seq优势:
- 灵敏性高:低细胞起始量(500-50000个);
- 操作简单,耗时短;
- 实验重复性好
- 能同时揭示开放染色质的基因组位置,DNA结合蛋白,转录结合位点的相互作用
ATAC-seq缺点:
- Tn5通过插入剪断DNA并将测序接头连接到剪断的两个DNA片段的末端,因此对于一个DNA片段而言,其两端的接头连接是随机的,这便导致同一片段两端的接头有50%的概率是同一接头。而只有连接不同接头的片段才可用于富集扩增及测序,因此,有一半的片段无法利用;
- 大量剪断的DNA由于片段过大,无法进行PCR富集;
- Tn5 的活性受反应溶液的组成及反应条件影响,仍然需要优化以便提高剪切效果;
- ATAC-seq在植物细胞中存在以下难点:细胞壁的存在,叶绿体、线粒体等细胞器的污染,缺少稳定遗传的细胞系;