NGS012 转座酶建库及ATAC-seq

转座因子 Transposon

一段DNA顺序可以从原位上单独复制或断裂下来，环化后插入另一位点，并对其后的基因起调控作用，此过程称转座。这段序列称跳跃基因或转座子。转座子是存在于染色体DNA上可自主复制和位移的基本单位。

I型转座子（复制-粘贴）
I型转座子转座中间体是RNA。I型转座子又被称为逆元件（Retro element）。该型转座子会先被转录为RNA，然后该RNA被逆转录，再次成为DNA，才被插入到目标位点中
II型转座子（剪切-粘贴）
II型转座中间体是DNA，转座子序列的两端是两段直接重复序列（direct repeat，简称dR），与它们接壤的是反向重复序列（invert repeat，简为iR），即“回文”序列。然后才是中间的插入序列（Insert sequence，简为IS）。

转座酶

执行转座功能的酶，通常由转座子编码，识别转座子两端的特异序列，能把转座子从相邻序列中脱离出来，再插入到新的DNA靶位点，无同源性要求。

Tn5转座子结构

转座子包括两端的反向重复序列和中间的转座基因。反向重复序列是转座酶结合的位置，中间的转座基因就是基因间来回跳跃的基因片段。

转座酶结构

Tn5 全长约5.8kb，由编码三个抗生素（新霉素、博莱霉素、链霉素）的核心序列和两条倒置的IS50 序列组成，其中IS50R和IS50L的序列高度同源，只有IS50L的一个碱基存在突变。IS50具有19bp的倒置末端（外末端outsideend，OE和内末端inside end，IE），两倒置末端有7个bp不同，此倒置末端是转座酶（Tnp）的作用位点。IS50L和IS50R均含有编码转座酶（TnP）以及转座阻遏蛋白（lnh）的基因，但由于IS50L中的碱基突变，造成翻译提前终止，所以仅有IS50R可以产生正常的有活性的TnP和lnh。

Tn5作用机制

转座发生时，两个转座酶分子结合到Tn5转座子的OE末端，形成两个Tnp-OE复合体，随后两个复合体联会，末端相互作用而二聚体化，形成由一个二聚体蛋白质和两分子DNA组成的联会复合体。形成该联会复合体后，Tnp才具有切割DNA的活性。形成这种结构有利于协同Tn5 DNA 链的切割和转移，有利于防止Tnp只对转座子DNA链的一端进行切割。结合在左末端的Tnp负责催化右末端的磷酸二酯键水解，而结合在右末端的Tnp负责催化左末端的磷酸二酯键水解。活化Tn p水分子，此活化的水分子水解DNA链，在Tn5的两末端分别形成两个3’-OH亲核基团，该亲核基团进而攻击互补链形成发夹结构。随后另一活化的水分子水解该发夹结构, 形成平末端的Tn5，整个联会复合体离开供体链，并结合到靶DNA上。Tn5的3’-OH亲核攻击靶序列，在转座子插入位点之间形成9bp的粘性末端，转座子的3’-OH同靶DNA的5’-P之间形成共价键，转座子就插入到靶序列之中。在DNA 聚合酶的作用下补平缺口，转座子的两端形成9 bp的正向重复序列。整个转座过程完成了基因从原始DNA被剪切之后粘贴在另一受体DNA 的过程，实现了基因的“跳跃”（如图）。

转座酶作用机制

Tn5应用

Illumina Nextera DNA Library Preparation Kit
研究人员发现整个转座子序列并不是转座必须的，只需转座子的末端核心序列，转座酶便能将该部分序列插入并连接至基因组内；根据这个原理，将测序接头序列加入末端核心序列中，可简捷地引入测序接头，完成文库构建。
由下图可看到在tn5二聚体里面的双链Oligo是Nextera Tn5 binding site，19个碱基，全部都是一样的。伸出来的部分是单链的序列，
蓝色：Nextera tn5 read1 (5'-TCGTCGGCAGCGTC-3')
红色：Nextera tn5 read2(5’-GTCTCGTGGGCTCGG-3')

Tn5二聚体结构

将P5、P7 端部分接头序列（ Adapter 1/2 ）和转座子末端序列形成包被接头，与Tnp 形成Tn5 转座复合体。该复合体打断受体DNA，会形成一端带有P5部分接头Adapter 1，一端带有P7 部分接头Adapter 2的DNA，之后通过PCR加上Barcode以及接头其余部分，形成含P5端与P7端完整接头的DNA 文库。

Illumina Nextera 建库流程

Tn5 用于测序文库构建时，将DNA 片段化、末修加Ａ、接头连接等多步反应转变为1步反应，极大缩短建库时间，提高工作效率。但是这一步之后，接头与插入片段之间有9bp 的gab 需要补平（如图5），这就是为什么Tn5 建库在PCR之前必须72 ℃反应5min ，而且所用的PCR 酶需要是具有链置换功能的非热启动酶。

image.png

Vazyme TruePrep® DNA Library Prep Kit

建库原理
TruePrep Tagment Enzyme Mix (TTE Mix)中包含转座酶和两种等摩尔的接头Adapter 1和Adapter 2。将该预混液与DNA混合，55°C下孵育10 min，即可实现DNA片段化的同时末端接上接头。这种片段化产物经N5 (N5XX)和N7 (N7XX)以及P5和P7 (PCR Primer Mix, PPM)两对引物扩增、扩增产物大小分选和纯化后即为可测序文库。
文库结构

Vazyme Trueprep文库分子结构
建库流程

Vazyme Trueprep建库流程

ATAC-seq

ATAC-seq也即Assay for Transposase-Accessible Chromatin with high throughput sequencing，是利用转座酶探究可接近性染色质高通量测序技术。

染色质开放性
染色质分为常染色质和异染色质，在结构上常染色质折叠压缩程度低，处于伸展状态，DNA复制，基因转录都发生在DNA的致密高级结构变为松散的状态；这部分打开的染色质，就叫开放染色质（open chromatin）。而打开的染色质，就有足够的区域允许一些调控蛋白（比如转录因子和辅因子）过来与之相结合。而染色质的这种特性，就叫做染色质的可接近性（chromatin accessibility）。通过研究细胞特定状态下开放的染色质区域可以在DNA水平上了解其转录调控。
染色质区域开放性研究方法
传统使用的的实验方法主要是有MNase-seq和DNase-seq，这两种实验方法的主要思路是：染色质变得开放，就意味着DNA和组蛋白的聚集程度降低，就会有一部分DNA暴露出来。而一旦失去了蛋白质的保护，这部分DNA就可以被DNA酶（MNase或DNase I）所切割。然后，我们再把切割完的DNA拿来测序，和已知的全基因组序列相比较，就能发现被切割的是哪些序列，没有被切掉的基因序列又在哪里，就知道开放的染色质区域在哪里了。不过，这两个方法有明显的缺陷，即耗时费力与重复性差。虽然FAIRE-seq 不依赖酶和抗体，但其检测背景较高，测序信噪比低，甲醛交联时间不好把握等缺陷，限制其使用范围。
染色体的结构。
染色体主要由DNA和蛋白质组成，每一条染色单体由单个线性DNA分子组成，细胞核中的DNA是经过高度有序的包装，包装分为多个水平，核小体核心颗粒(nucleosome core particle)、染色小体(chromatosome)、 30 nm水平染色质纤丝(30 nm fibre)和高于30 nm水平的染色体包装

染色体逐级结构
研究开放染色质的方法对比
ATAC-seq利用Tn5转座酶人为将将携带已知DNA序列标签的转座复合物，加入到细胞核中，再利用已知序列的标签进行PCR建库测序，就知道哪些区域是开放染色质了。ATAC-seq出来的结果，和传统方法出来的结果具有很强的一致性，同时也和ChIP-seq有较高的吻合程度。而相比较而言，ATAC-seq的重复性，比MNase-seq和DNase-seq的更强，操作起来也更加简便，而且只需要很少的细胞/组织量，同时测序信号更加好。目前已经成为研究染色质开放性首选的技术方法

不同实验方法获得开放性染色质分析的示意图

ATAC-seq优势：

灵敏性高：低细胞起始量（500-50000个）；
操作简单，耗时短；
实验重复性好
能同时揭示开放染色质的基因组位置，DNA结合蛋白，转录结合位点的相互作用

ATAC-seq缺点：

转座酶文库分子三种结构

Tn5通过插入剪断DNA并将测序接头连接到剪断的两个DNA片段的末端，因此对于一个DNA片段而言，其两端的接头连接是随机的，这便导致同一片段两端的接头有50%的概率是同一接头。而只有连接不同接头的片段才可用于富集扩增及测序，因此，有一半的片段无法利用；
大量剪断的DNA由于片段过大，无法进行PCR富集;
Tn5 的活性受反应溶液的组成及反应条件影响，仍然需要优化以便提高剪切效果；
ATAC-seq在植物细胞中存在以下难点：细胞壁的存在，叶绿体、线粒体等细胞器的污染，缺少稳定遗传的细胞系;