近日在 Archives of Pathology & Laboratory Medicine 杂志上发表了一篇题为Review of Clinical Next-Generation Sequencing(PMID: 28782984),关于二代测序在临床应用上的综述文章。作为一名基因检测从业人员,本人认为这是一篇非常专业、客观、系统的二代测序技术介绍,在这里为大家分享一点体会。新手上路,请大家多多包涵。本文对文章前半部分关于wetlab进行摘译与总结,附个人观点。
现在二代测序已经普遍应用在遗传病检测与肿瘤变异检测,但是相对其他临床检测技术的发展历程二代测序是在临床领域中算是非常新的一个技术,许多临床检测从业者对二代测序的应用场景,检测技术方案,以及适用边界不是很熟悉。这篇文章的作者所在的明尼苏达大学最早在2012年就开始使用568基因的panel作为遗传病研究,并在2014年增加到2484基因的大panel,并且在同年开始提供针对21个基因的热点区域的基于血液肿瘤与实体瘤的检测服务。目前该实验室一年处理接近800个遗传病二代测序检测以及800个肿瘤类二代测序检测,文章的两位作者加起来一年签发超过1000个报告。
第一章:关于二代测序的临床应用
二代测序作为一种检测手段,主要应用于基因的胚系变异(遗传性)与体细胞变异(获得性)的检测。对于遗传病,主要的技术方案是靶向区域测序(targeted panel),全外显子测序(whole exome),全基因组测序(whole genome)和线粒体DNA测序。
其中,靶向区域测序主要针对明确表型的疾病相关基因进行测序,常见的panel有:免疫缺陷panel,骨髓衰竭综合征panel,致盲或致聋缺陷panel,线粒体病panel,肾脏疾病panel,神经疾病panel,结缔组织疾病panel,心肌疾病panel和遗传性肿瘤易感panel等。靶向测序类方案有最大的特点是不同实验室由于方案制定与panel设计的年代局限,检测的基因范围都会有不一样。对于肿瘤类检测,由于针对的样本类型不一样,使用场景的设计不一样,更是大多区分为:1.针对每个基因的编码区域,或者加上UTR甚至外显子的边沿(exon padding,为了更好的发现剪切体变异--splicing mutation),2.针对某些临床证据或者药物作用靶点/耐药位点的特定热点(hotspot panel)。
另外还有基于胎儿游离DNA的NIPT也是二代测序在转化医学中非常经典的应用例子。随着技术的成熟,二代测序也开始应用于肿瘤游离DNA的检测,HLA的分型,病原体检测,转录组测序,以及甲基化测序。但是这些领域的应用,特别是对ctDNA的二代测序应用于肿瘤早筛,学界仍存在担忧,作者主要是提出两点:1.在正常人的游离DNA中也能检测出假阳性的驱动变异,2.在某些早期阶段的肿瘤,ctDNA NGS的灵敏度可能存在不足(30%~60%)。这两点可能限制ctDNA用于肿瘤早期筛查的适用性。
我个人的附注1:
靶向区域测序主要针对明确表型的疾病相关基因进行测序,是目前临床上使用最多的方案,有着较高经济性,较高的阳性率,检测方案优化与质量控制更成熟等诸多优点。但即使是相同的检测项目,根据美国国立疾控中心CDC的PHGKB(Public Health Genomics Knowledge Base)的Tier Table Database数据,同样的BRCA基因检测,对于乳腺癌/卵巢癌患者以及近亲是Tier1的证据(推荐检测),而对于普通人群筛查是Tier3的证据(不推荐检测)。关于PHGKB的分类定义,可以参考以下链接 Ref:https://phgkb.cdc.gov/PHGKB/topicFinder.action?Mysubmit=init&query=all
对于全外显子测序,目前主要应用场景是当靶向测序无法获得与检测者表型相符合的阳性变异时的二线选择。全外显子测序通常用于患者以及患者的双亲做家系检测(trio testing,获取共分离证据)以增强检测准确性。
我个人的附注:2:
梅奥医学院对他们提供的全外显子测序的应用定义为,对特定的遗传综合征,当靶向测序的结果为阴性时作为患者的二级检测,该检测的主要目的是:1.明确遗传病种类,2.目标管理(治疗指导,疾病管理,具体疗法制定),3.对患者近亲的检测,4.对患者近亲致病的排除,5.疾病风险评估,6.孕前生殖风险评估,7.产前检测。Ref:https://app.mckessondex.com
第二章:关于二代测序的技术方案
目前二代测序主要技术方案,是靶向区域测序(panel),从靶向区域获取的技术来区分主要分为液相捕获技术(采用RNA探针或者DNA探针),以及PCR目标区域捕获技术。通常的,液相捕获是先把DNA片段化为特定的长度(酶切或者超声),加入接头,然后用探针捕获。而PCR捕获不需要DNA片段化,直接先PCR把目标区域富集然后再加接头。
我个人的附注3:
捕获技术主要分液相捕获与PCR捕获两大流派。液相捕获的特点是可以一次性捕获更多的目标区域,覆盖的均一性优化更容易,更适合较大目标区域的捕获(500kb以上),但缺点是成本相对高,对DNA的input量一般是200ng以上,特殊区域如GC过高,串联重复区域等探针特异性难以优化,而且探针捕获的杂交时间较长一般要数个小时。PCR捕获相对的总体实验时间会更短,对DNA的input量一般只需要最低10ng起步,而且通过多重PCR的优化方案,新一代的捕获方案可以一次性把引物与接头等一次性完成,更适合已知热点区域的捕获(如肿瘤热点panel),缺点是引入引物二聚体,并且引物区假如发生SNP会导致该amplicon丢失等。
而不论是哪种捕获技术,靶向区域测序一般都有以下环节:DNA提取,文库制备,目标区域富集,上机测序四大环节。
DNA提取
常规DNA提取一般都能满足二代测序的样本要求。但是对于肿瘤的FFPE样本处理起来要特别小心,特别是对于陈旧的样本来源,DNA损伤与降解非常常见,而且FFPE样本一般要经过显微切割与脱腊等步骤,也可能造成DNA的得率的下降。DNA提取的一个很关键的质控步骤,一般选择Qubit来定量,因为低浓度DNA Qubit的测量值比NanoDrop相对更灵敏一点。
文库制备
文库制备是二代测序的一个专用术语,一般泛指DNA的片段化与测序接头及样本标签(barcode或index)的连接。其中片段化大小的选择与所用的测序方案密切相关,对于针对编码区的检测方案一般选择更短的片段大小,而对于非编码区目标区域测序,如对融合与重排的发现,会选择更大的片段大小(如下图,红色表示双向测序的读长,虚线表示该片段无法被测通的区域)。
我个人的附注4:
文库质量直接影响到测序结果的可靠与否,这也是二代测序中质检以及建库试剂质量的非常重要的考虑环节。其中片段化大小的选择与所用的测序方案密切相关,对于针对编码区的检测方案一般选择更短的片段大小,一般会根据测序读长来匹配相应的片段大小,如illumina的PE150一般选择250bp左右的片段,而对于PE100一般选择150bp左右的片段。对于文库index的选择,推荐使用双端接头,因为据报道,illumina的新测序平台由于改变了原有的bridge PCR方案,假如选择单端接头或者双端重复接头可能会导致同一个lane上样本数据交叉污染。Ref:http://enseqlopedia.com/2017/04/update-illumina-index-swapping-better-barcode-design/
靶向区域富集
靶向区域富集主要分为基于探针的液相捕获,以及基于PCR的目标区域捕获。(两者特点与区别可以参考我个人的附注3)这两者的技术没有绝对的优劣,而是看是否适合特定检测的应用场景,因为没有任何技术是通用同时完美,要有所取舍。
上机测序
绝大多数的临床二代测序选用两大阵营的测序平台:illumina公司的HiSeq,MiSeq,NextSeq系列,以及life公司的Ion Torrent系列。这两大阵型的最大区别在于建库试剂方案,检测方案。这两个平台的测序方案的一个共同点是都要把准备好的富集好的靶向区域的文库进行信号放大,但是放大的方案各不相同。
life的ion torrent选用链霉素亲和磁珠链接文库分子(每个磁珠只能连接单一的DNA分子片段,不然就会造成杂信号而使这个磁珠所掉落到的纳米孔杂峰信号失效),然后再进行乳液PCR来进行边合成边测序(合成的同时就会有信号放大)。
而illumina平台选择桥式PCR的方法来放大信号,DNA分子均匀而稀疏地分布在流动槽(flow cell)上,然后通过桥式PCR来进行扩增与信号放大。两个平台最大的技术区别在于检测的信号的方法不一样,life平台检测的是不同碱基的电荷数不一样,导致磁珠掉落的检测洞中的局部离子强度差异(pH),通过检测微弱电流大小来分辨碱基信号。而illumina通过碱基带有的荧光基团不一样,通过光学CCD的方法捕获不同碱基荧光信号的差异而分辨碱基信号。(以上测序原理可以参考life公司与illumina公司的技术文档)
而更重要的是,关于测序错误的问题,对于life平台最常见的测序错误主要来自连续的检测检测不准确以及某些indel的检测(主要来自于连续的电流信号无法特别区分,而且life平台的测序长度是不能保证固定,因此每个读序的长度都是非固定,无法使用读长这一参数进行校正)。对于illumina平台最主要的测序错误来自于高GC区域的SNP检测错误。
本人任职在良培基因生物科技(武汉)有限公司,主要从事二代测序相关服务。本文仅代表个人观点,不代表本人所在公司的立场,以上内容仅供同行交流与参考。