bioinfo100-第3题-(3)illumina

参考
illumina测序-过程
illumina原理-陈巍

第3题,illumina测序技术细节探究I

目前我们最常使用的就是Illumina公司的测序技术,Illumina公司的测序技术最明显的几个特点是:价格低,通量高,测序读长短。那么我们今天的问题,就是围绕Illumina测序技术的细节来提问的。

illumina测序的步骤

image.png

样本准备;cluster生成;测序和数据分析

part1 准备样品Sample Prep

所有制备方法都在DNA片段的末端添加接头adapter


加adapter的示意图
image.png

通过循环扩增的减少,额外的motif被引入


image.png

例如引入的测序结合位点


image.png

还有标签和 与Flowcell(流动池)寡核苷酸互补的区域


image.png
part2 成簇 cluster生成
image.png

image.png

Flowcell 是带有流通槽的玻璃滑块


image.png

每个流通槽Lane上固定了lawn


image.png
image.png

lawn由两种不同的oligos寡聚核苷酸引物组成


image.png

待测序的寡核苷酸片段和在flowcell上的两种引物之一结合,引物和片段链fragment strands的街头区域互补


image.png
image.png

聚合酶生成杂交片段的互补片段


image.png
image.png

双链分子变性,原始模版被洗去


image.png

链通过桥式扩增进行克隆扩增;此过程中strand折叠,并且接头部分和flowcell上的另外一种类型的寡聚物杂交


image.png

聚合酶合成互补链,形成双链桥


image.png

该桥变性后导致分子的2个单链拷贝


image.png

然后被固定在flowcell


image.png

随后该过程反复进行重复


image.png

同时生成数百万个簇cluster,所有片段被克隆扩增


image.png

桥式扩增以后,反向链被切断洗去


image.png

仅仅留下正向链


image.png

且3’端被封锁以防非特异性结合


image.png
image.png

测序从第一个测序引物的延伸开始


image.png

先生成第一个读段read,四个带不同荧光的碱基配对,直到配对正确


image.png

image.png

荧光标记的核苷酸竞争加入生长链


image.png

在添加每种核苷酸nucleotide之后,簇cluster被光源激发,这个专门的过程叫做sequence-by-synthesis

image.png

image.png

所有相同的strandsare线同时读取


image.png

这是大规模的并行过程,


image.png

数以千计的簇被测序


image.png

该图像代表flowcell的一小部分


image.png

在结束第一次荧光信号的判断以后,这段产物被洗去


image.png

在该步骤中,索引1的读段引物read primer,被引入并与模板杂交


image.png
image.png

类似于第一次的read生成,新的read产生了


image.png

在索引读段index read结束后,该段产物被洗掉,模板3端去保护


image.png
image.png

模版重新折叠


image.png

并结合flowcell的第二个寡核苷酸


image.png

索引2 index2和index1 索引1以相同的方式读取


image.png

聚合酶延伸第二个flowcell寡核苷酸,再次形成一个双链桥


image.png

然后将该双链DNA线性化


image.png

并将3端封锁


image.png

原始正项链被切除并洗去,只留下反向链


image.png
image.png

Read2第二次判读开始于读段read2测序引物的引入


image.png

和Read1一样,测序步骤从形成primer开始被重复,直到达到预期的read长度


image.png

然后将read2 product读段2产物洗走


image.png

这整个过程产生了数百万个读段,代表所有的片段


image.png

来自样品库pool sample libraries的序列被分离


image.png
image.png

因为在样品准备过程中用了不同的indices引物(我的理解是,样品库的DNA被引入了不同的引物扩增)


image.png

对于一个sample而言,reads with similiar stretches of base calls are locally clustered,意思是有相似碱基序列的reads被聚类

正向和反向读段read被配对生成连续序列


image.png

image.png

这些连续序列与参考基因组对齐,用于突变识别


image.png
image.png

终端配对信息被用于确定有歧义的对齐(不太理解)


image.png

1. 什么是Illumina测序adapter?同一批上机的adapter序列一样吗?它的作用是什么?

adapter的中文意思为适配器或者接口,在illumina测序过程中关键一步是将文库片段固定在flowcell上,然后通过桥式PCR将片段扩增,在被打断成300~500bp的长度的片段末端被补平后adapter将被添加到片段两端,一方面用于将片段固定在flowcell上,同时adaptor中还包含桥式PCR所需要的引物

2. 一个完整的Illumina测序过程是那几步?

完整的测序过程仅包含两步,第一是桥式PCR扩增,第二是以4色荧光可逆终止反应为核心技术的测序;

3. 什么是桥式PCR技术?为什么要进行桥式PCR?

加上adapter之后的DNA样品与flowcell上固定的oligo(寡链核苷酸)匹配后就被固定在flowcell上,通过桥式PCR进行扩增成cluster,便于后面的荧光测序,主要步骤为:

  • 进行第一轮扩增,将序列补成双链。加入NaOH强碱性溶液破坏DNA的双链,并洗脱。由于最开始的序列是使用化学键连接的,所以不会被洗。
  • 加入缓冲溶液,这时候序列自由端的部分就会和旁边的oligo进行匹配
  • 进行一轮PCR,在PCR的过程中,序列是弯成桥状,所以叫桥式PCR,一轮桥式PCR可以使得序列扩增1倍
  • 如此循环下去,就会得到一个具有完全相同序列的cluster

4. 我们都说,测序结果会包含index,那么index是什么?有什么作用?

  • 一条lane能测得的数据量在30G左右,而一个样品的测序量一般不会这么大,所以在建库的时候对每一种样品的接头加上不同的标签序列,这个标签就叫做Index,有了index就可以同时在一个lane中测多种数据了,后期可以根据index将数据分开;

5. 我们所说的flowcell,lane,tile都是什么意思?

  • flowcell 是指Illumina测序时,测序反应发生的位置,1个flowcell含有8条lane通道,通道内表面有专门的化学修饰


    image.png
  • lane 每一个flowcell上都有8条泳道,用于测序反应,可以添加试剂,洗脱等等;每条通道内表面有化学修饰,主要是两种DNA引物,把它(2中DNA引物)种在玻璃的表面,和DNA文库的接头序列是相互互补的,这两种引物是通过共价键连到flowcell上去的,之所以要用共价键连接是因为接下来有大量的液体要流过这个flowcell,只有有共价键连接的这些DNA,才不会被冲掉,这就是flowcell
    image.png
  • tile 每一次测序荧光扫描的最小单位

Illumina测序结果质量表示方法采用的是Phred33还是Phred64?

  • 最新的测序质量结果一般都为Phred33,但是早期的测序数据可能出现Phred64。

illumina的流程

6.DNA文库及其制作

image.png

所谓的DNA文库实际上是许多个DNA的片段,在两头接上了特定的DNA接头形成的DNA混合物

文库有两个特点:
1.第一个特点,是当中这一段插入的DNA它的序列是各种各样的(??)
2.第二个特点,它两头的接头序列是已知的,而且是人工特地加上去的

文库的制作:
首先是把基因组DNA,用超声波打断,打断以后两头用酶补平


image.png
image.png

再用Klenow酶在3端加上一个A碱基


image.png

然后用连接酶把接头给连上去


image.png

连好了接头的DNA文库就被我们成为一个“文库” or “library”

7.做好library就要做桥式PCR了

简而言之,桥式PCR实际上是把文库种到芯片上去然后扩增的一个过程。

该过程首先是把文库加入芯片上去,因为文库两头的DNA序列,和芯片上的引物是互补的,所以就会产生互补杂交

再桥式PCR完成以后呢,要把合成的双链变成可以测序的单链,办法是通过一个化学反应,把一个引物上的一个特定的基团给切断掉,然后再用碱溶液来洗这个芯片,此时碱让DNA的双链解链


image.png

只留下那根 以共价键连在芯片上面的链


image.png

8.正式开始测序工作

接下来再加入中性溶液,然后在这个中性溶液中加入测序引物


image.png

image.png

测序时加入的最重要的有两样东西,
一是需要加入聚合酶,聚合酶就会选择哪一个dNTP是和原来位置上的那个碱基和互补的,根据互补原理把这个dNTP合成到新的这个链上去

image.png

二是带有荧光标记的dNTP,该dNTP的特点是--它的3’末端是被一个叠氮基堵住的,
image.png

因为这个dNTP的3端是被一个叠氮基团给堵住了,所以,它一个循环只能延长一个碱基
image.png

合成之后就停在那了,因为有叠氮基团阻止继续合成,合成以后呢就用水把多余的dNTP和酶给冲掉
image.png

冲掉以后就放到显微镜下去激光扫描


image.png

根据发出来的荧光判断它是哪个碱基


image.png

因为4种dNTP上面标的荧光素都不一样,那么根据红黄蓝绿它出来的颜色就可以倒推这个新合成上去的碱基是哪种碱基,因为新合成的碱基是和原来位置的碱基是互补的,所以又可以反过来推出模板上的碱基的种类,这一个循环完成以后呢,就加入一些化学试剂把叠氮基团和旁边标记的荧光基团给切掉,


image.png

切完了以后呢,3端的羟基就暴露出来了


image.png

再接下来呢,加入新的dNTP和新的酶,然后又延长一个碱基,新延长一个碱基之后呢,把多余的酶和dNTP冲掉,再进行一轮显微的激光扫描,再读一下这个碱基的种类


image.png

image.png

不断重复这个过程,可以重复上百次到几百次,重复这个过程上百趟就可以把这个序列的信息读出来了

9. 接下来要读index

什么是index呢,因为illumina的测序量很大,往往一个样本呢用不了几亿个DNA,所以科学家就想了一个办法。

什么办法呢?
就是在文库的接头上做了一些标记,那么对于每一个样本而言,它有一个特定的接头,每个接头里面呢有一段特定的序列,那么这段特定的序列我们就称为index,也有人把它叫做barcode
表达的意思就是:这么一段特定的序列,标记了样本的来源

因为一个flowcell可以测几亿个DNA,通常是把不同处理条件下的样品的打断的RNA-sequences(reads,加index+barcode)的PCR样品同时加到一个flowcell上面测序,为了区分reads的来源,在adapter和insert之间加上特定的核苷酸序列barcode/index,就可以区分不同来源的reads。

加index通常用于区分不同处理组的样品,加barcode通常见于单细胞样品,用来区分reads由于PCR 引起的duplication造成的误差

那么怎么读这个index序列呢?
首先,先用碱把上面这根测完“read 1”的序列,把上面这根DNA链给解链掉


image.png

用中性液洗掉以后呢,用read2的测序引物,那么read2的测序引物结合的位点正好就是在这个index序列的旁边


image.png

接下来就是进行第二轮测序


image.png

一般来说是读6-8个碱基


image.png

那么把这6-8个碱基读下来呢,我们就可以知道这某一段具体的DNA它是来自于原始的哪个样本


image.png

10.双端测序

就是说,一根DNA链,除了从正向读一遍,还可以从DNA的负向再读一遍,那么这样的话一下子就把illumina测序的有效长度增加了一倍;

倒链的过程是这样,先让这个DNA先合成


image.png

合成出来的这根互补链,有了互补链以后呢


image.png

有了互补链以后呢用一个化学试剂,在原来这个链的根上切一下,那么原来这根模版链就掉了


image.png

剩下互补链,再接下来就进行第2端的测序;那么第2端测序的原理呢和第1端的测序原理是一样的;


image.png

原理就是加上“Read 3”这个引物,然后以此往下,一个一个碱基地往下读


image.png

那么最重要的事情是什么呢?
一个点,经过几百个循环就读出来了几百个碱基


image.png

但实际上呢,这个芯片上就可以有上亿个点,上亿个“cluster”,也就是“簇”


image.png

上亿个cluster,每一个循环,它都可以读出那么多序列,这是illumina测序非常强大的原因,边合成边测序。

image.png

image.png

有上亿个链都在同时合成,边合成边测序


image.png

那么就可以得到一个很大的测序数据量


image.png
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 199,902评论 5 468
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 84,037评论 2 377
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 146,978评论 0 332
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 53,867评论 1 272
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 62,763评论 5 360
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,104评论 1 277
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,565评论 3 390
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,236评论 0 254
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,379评论 1 294
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,313评论 2 317
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,363评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,034评论 3 315
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,637评论 3 303
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,719评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,952评论 1 255
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,371评论 2 346
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 41,948评论 2 341

推荐阅读更多精彩内容

  • 摘要:从1977年第一代DNA测序技术(Sanger法)[1] 发展至今三十多年时间,测序技术已取得了相当大的发展...
    王诗翔阅读 11,466评论 7 38
  • 本文转自三代基因组测序技术原理简介摘要:从1977年第一代DNA测序技术(Sanger法)1,发展至今三十多年时间...
    井底蛙蛙呱呱呱阅读 6,105评论 2 30
  • 前言 本文并非原创,来自多篇博文摘录。 第一节 NGS测序技术 在真正开始数据分析之前先知道我们是如何将那些原本存...
    oddxix阅读 7,859评论 0 28
  • 幸福是你痛苦的时候,有人愿意听你诉说。 人的痛苦来源于看不清。看不清人事背后的真相。 一切都在变化之中,用不变的眼...
    在水伊人_f121阅读 84评论 2 1
  • 我们很多时候都会发现,我也很努力,怎么就没有效果,我想可能是你的努力属于低质量,所以没有多大成效。 你的这些努力,...
    墨笔生徽阅读 1,230评论 7 22