ARGs_OAP_v2.0(步骤1):https://github.com/biofuture/Ublastx_stageone
ARGs-OAP在线分析网站(步骤2): http://smile.hku.hk/SARGs
无处不在的抗性基因
环境中抗生素抗性基因(ARGs)的来源:
随机突变或表达潜在抗性基因等方式使细菌体内基因组上存在的抗性基因原型、准抗性基因或潜在抗性基因被表达出来,从而使细菌获得的抗生素抗性。
抗生素在人和动物肠道内诱导产生耐药菌,这些编码ARGs的耐药菌经由粪便排出并进入环境中,是环境中ARGs的重要来源。
抗性基因的水平转移是抗性基因在环境中传播的的主要机制,通过将包含抗性基因的质粒、转座子、整合子作为载体,通过细菌之间细胞与细胞的接触,将抗性基因从载体细胞转移到受体细胞。
如何检测环境中抗生素抗性基因(ARGs):
- PCR技术---定性。
- qPCR技术---定量。
- 宏基因组测序:以环境样品中的整个微生物群体基因组为研究对象,检测环境样本微生物中的物种组成、丰度,基因预测、基因丰度,利用数据库进行注释,得到样本中ARGs的种类和丰度与样本的相关性。
- ARDB数据库:主要包含细菌病原菌的多种抗性基因数据,不能为环境样本宏基因组数据提供详细的ARG概况(即对每个检测到的ARG提供type/subtype的ARG分类信息和丰度信息)。
- CARD数据库:以Antibiotic Resistance Ontology(ARO)为分类单位的形式所构建,ARO用于关联抗生素模块及其目标、抗性机制、基因变异等信息。
ResFinder:需要较长的查询reads。对于在ResFinder中被检测为ARG的序列,其必须至少覆盖数据库中匹配ARG长度的五分之二,具有不小于50%的相似性。 - ARGO:侧重于万古霉素和β-内酰胺抗性基因。
ARG-ANNOT:设计用于检测细菌基因组中的ARG而不是环境样品。
构建ARG综合数据库SARG v1.0
- 整合CARD和ARDB数据库
CARD数据库2,513条序列;
ARDB数据库7,828条序列;
去除586条共享序列;
SARG包含4246条ARGs参考序列。 - 去除非ARG序列
- 去除冗余序列(完整蛋白质序列具有100%同一性)
- 去除与SNP相关的ARG序列
- 去除描述为“假定蛋白质”或“未命名蛋白质”的序列
- 构建结构化ARG数据库SARG
构建ARG综合数据库SARG v2.0
- 使用SARG v1.0作为从NCBI-NR获取潜在ARG序列的种子。
- NCBI-NR序列BLASTP比对SARG v1.0数据库(e-value:1e-7, identity: 90%、80%、70%); levels: Accurate, Moderate and Loose 。
- 基于序列相似度或关键字匹配将ARG序列分配给不同的Subtype。
- 合并时,删除有多个分类结果的序列,只保留具有匹配分类(type和subtype)的序列。
Number of ARGs reference genes in core SARG database (column ‘core SARG’) and updated SARG database using different cut off of identity (90%, 80% and 70%) for retrieving. A is the profile before using parallel classification to seat each sequence into hierarchical structure. B is the results of sequences amount after being classified into specific ARGs types and subtypes.
ARGs-OAP概述
ARGs-OAP是一个抗生素抗性基因分析平台、在线分析工具。
ARGs-OAP可以从宏基因组数据集中快速鉴定并定量分析抗生素抗性基因。
ARGs-OAP中包含一个结构化ARG数据库SARG(type--subtype--reference sequence)。
ARGs-OAP 1.0版包括CARD及ARDB数据库的序列, 2.0版新纳入了NCBI-NR数据库中的ARG序列。
使用ARGs-OAP 进行注释后,对获得的ARGs:可以通过总reads数、16S rRNA基因拷贝数和细胞数量进行ARGs丰度标准化;2.0版优化了细胞数量定量分析过程。
ARGs-OAP在线工具使用步骤
1.本地计算机预先筛选潜在的ARG序列,以减少上传序列文件的大小;
2.使用在线平台注释/分类ARG序列。
对于宏基因组数据,快速预筛选可去除总序列> 99.3%的不相关序列,显着减少上传文件的大小并加速在线BLASTX分析。
步骤2:上传预筛选后的ARG序列数据至online pipeline。
ARGs_OAP_v2.0(步骤1):https://github.com/biofuture/Ublastx_stageone
ARGs-OAP在线分析网站(步骤2): http://smile.hku.hk/SARGs
The output files can be downloaded as tables listing the abundances of ARGs types/subtypes in different units:
“ppm” (number of ARGs sequences in one million sequences) ;
“copies of ARG per copy of 16S rRNA” ;
“copies of ARG per prokaryote’s cell” .
当数据集包含新ARG时(即数据集2):identity cutoff 设置为高于60%,则MCC值显著下降(图4a和4b),此水平下灵敏度也显著降低(图3d和4e),数据库的不完整性对注释精度影响不大(图4g和4h)。
E-value 对这三个评估指标的影响:MCC值和精度随着E-value的减小而增加,但灵敏度没有太大变化。
评估序列长度的影响:较长的读长导致较高的MCC和灵敏度(图3b和3c )。
最佳E-value 和 identity cutoff 值:与E值相比, identity值显示出更大的影响。蓝色箭头表示在以前ARGs注释( E-value为1e-5, identity为90%)中对短读数宏基因组数据进行分析时,MCC值和灵敏度较低假阴性率很高,并且错过了许多ARG样序列。为了揭示更全面的ARG概况,基于使用模拟数据集2所示的MCC结果,如红色箭头所示,建议的最佳identity cutoff 为60%,E-value为1e-7。
序列覆盖度小于85%时,灵敏度和MCC值几乎没有影响。
序列覆盖度从85%增加到100%时,灵敏度和MCC值急剧下降。
更严格的序列覆盖度会错过更多类似ARG的序列。
参考文献:
Yang Y, Jiang X, Chai B, et al. ARGs-OAP: online analysis pipeline for antibiotic resistance genes detection from metagenomic data using an integrated structured ARG-database[J]. Bioinformatics, 2016, 32(15):2346.
Yin X, Jiang X T, Chai B, et al. ARGs-OAP v2.0 with an Expanded SARG Database and Hidden Markov Models for Enhancement Characterization and Quantification of Antibiotic Resistance Genes in Environmental Metagenomes[J]. Bioinformatics, 2018.