在二代测序技术中,有一类研究细菌16s rRNA基因几个可变区的方式帮助了解环境样品中微生物组成情况,进而进行不同样品间组成差异分析等,在医学领域中用于分析疾病的生物标志物领域有广泛应用。那么在二代测序中,不同可变区的选择是否会对测序分析结果造成影响,在研究设计阶段我们是否需要考虑研究哪个或哪几个可变区,似乎还说不太清楚。而市场上、文献中多数使用的区域是v3-v4或v4-v5等,究其原因还是因为测序平台读长的限制。那么,今天跟大家分享一下在细菌16s rDNA微生物多样性研究(有的也称为扩增子测序)中,可变区的选择需要考虑哪些问题。
一、细菌多样性研究介绍
背景:
a. 动物、植物和微生物是地球上主要的生物群体,其中微生物在自然界中数量众多,分布范围最广,功能多样。
b. 不可培养的微生物占比庞大,但它们在其所处的生态系统中可能占据着重要的“生态位”。
c. 对于系统中微生物组成及丰度的研究对于了解微生物在系统中的功能以及系统中的物质代谢具有重要作用。
二、16s rRNA基因介绍
概念:
16s rDNA细菌多样性高通量测序:通过利用细菌和(或)古细菌16s rRNA基因可变区进行特异性引物设计,采用不同标签序列区分不同样品,利用高通量测序平台进行不同样品的高通量测序,进而获得测序数据,针对环境中细菌进行分析的技术。
16s rRNA概念:
a. 16s核糖体RNA(16s rRNA)是原核核糖体30s小亚基的组成部分,并于shine-dalgarno序列(sd序列)衔接。
b. shine-dalgarno (sd) 序列是细菌和古菌信使RNA(mRNA)核糖体结合位点,一般位于启动子aug上游8个碱基的位置。
c. 编码16s rRNA的基因被称为16s rRNA基因(16s rDNA),由于该区域的基因进化速度缓慢,用于系统发育构建。
d. 16s rRNA基因全长约1,500 bp。
16s rRNA结构:
(图片来源:Schluenzen F,et al. (September 2000). "Structure of functionally activated small ribosomal subunit at 3.3 angstroms resolution". Cell. 102 (5): 615–23.)
16s rRNA的应用:
菌种鉴定:
1. 16s rRNA基因的序列有10个保守区和9个高变区(v1-v9:长度分布范围约30~100bp)之分。
2. 保守区为所有细菌共有,细菌间无差别,能反映生物物种的亲缘关系,可变区具有属或种的特异性,序列则随菌间的亲缘关系不同而有一定的差异,所以能揭示生物物种的特征核酸序列,被认为是最适于细菌系统发育和分类鉴定的指标。
3. 根据保守区设计引物位点,扩增可变区获得的序列可以用于菌种鉴定。一种快速、廉价的菌种鉴定方法。
4. 16s rrna基因全长测序随后被发现能够将细菌分类到新种,甚至新属中。
5. 用来描述从未被成功培养的新物种。
(图片来源:https://zhidao.baidu.com/question/461490947.html)
16s rRNA基因的应用优势:
a. 不同细菌间16s rRNA基因可变区显著不同;
b. 与真核生物相比,细菌16s rRNA基因保持长度的相对同质化,更有利于比对;
(van de peer y,et al. 1996)
c. 16s rRNA基因可变区与保守区相互间隔,有利于利用保守区设计通用引物,从不同细菌中获得可靠的相同区段的16s rRNA基因片段。
(větrovsky t,et al. 2013)
三、细菌多样性研究中16s rRNA基因可变区的选择
原因:
1. 完整16s rRNA基因序列允许所有可变区的比较;
2. 约1500bp长的序列用于寻找和描述不同微生物群落的研究价格着实昂贵;
3. 目前的16s rRNA基因测序研究集中在illumina公司提供的测序平台上完成,仪器产生序列(reads)速率快,且比454焦磷酸测序和sanger测序(一代测序)价格低廉,且可以有更高的覆盖度;
4. illumina测序产生单条reads长度为75bp~300bp(不同测序平台),还没有建立可靠的操作流程对环境样本中微生物16s rrna基因不同可变区进行拼接获得单一物种16s rRNA基因全长。虽然现在三代picbio测序可以达到数几十K的长度,虽然一条序列可以通过滚环方式增加覆盖度提高碱基读取的检测率,但是稳定性和价格两个方面还是有待观望的。
5. 通过一次illumina 测序(run)中获得16s rRNA基因全长序列依旧是一个理想和目标。
16s rRNA基因可变区考虑因素:
a. 测序平台的测序读长;
b. 与sanger测序结果是否具有较强的一致性;
(kumar ps , et al.2011)
c. 可变区域对物种分类比对时体现的准确性;
(yang b, et al.2016; chakravorty s, et al.2007)
***我们需要知道的:***
a. 没有任何一个可变区可以准确的将所有种类的细菌从域到种进行明确分类;
b. 一些可变区可以可靠地预测到特定分类水平;
(yang b, et al.2016)
c. 许多菌群研究选择半保守可变区(v4),在门水平可以提供与16s rRNA基因全长精度相同的信息。
(yang b, et al.2016)
d. 当较高分类未知时,极不保守可变区用来争论判别是否是新物种,极不保守可变区常应用于检测病原菌。
e. 在病原菌检测中,v3和v6提供的属的信息最准确,在肠道和深海样本中,结果与16s rRNA基因全长最接近。
(chakravorty s, et al.2007,huse s m, et al. 2008)
***可变区选择时要知道的:***
a. v3-v4(长度:464bp)适用于illumina miseq平台(PE300)或 ion s5系列测序平台,该平台可完整覆盖该区域,该区域对细菌的覆盖度最高。
(klindworth a,et al. 2013;liu cm et al. 2012)
b. v1-v3(长度:525bp)适用于454平台 或 ion s5系列测序平台,
v7-v9(长度~300bp)适用于illumina Hiseq系列平台(PE250),与sanger测序结果最接近;
(kumar ps,et al. 2011)
c. v4-v5 (长度:~303bp)适用于illumine Hiseq系列平台(PE250),基因组异质性最小。
(sun dl, et al. 2013)
d. v3(长度:~200bp)适用于illumine hiseq系列平台(PE250),结果与16s rRNA基因sanger测序结果相似。
(huse s m, et al. 2008)
e. v4-v6(长度:540bp+)适用于454平台或ion s5系列测序平台,结果与16s rRNA基因全长结果接近。
(yang b, et al. 2016)
注意:
1. ion s5系列测序平台,目前可以测长片段,因此本人仅仅按照其长读长范围进行分类归类,不代表短序列该平台不能完成测序,若有需求可咨询该平台技术支持。
2. 罗氏454测序平台已经退出测序市场,这里仅仅为了回顾该平台而进行了分类归类。
四、16s rRNA基因数据库