扩增子测序时代背后大佬的恩怨情仇

| UPARSE—力挽狂澜

微生物群落研究最常用的方案莫过于扩增子研究（16S、ITS等扩增子测序技术），通过扩增群落样本基因组特定区域片段，实现对样本所包含的物种进行分类学鉴定与相对丰度的计算。麻烦的是扩增子测序结果中存在着许多测序错误、嵌合体等错误信息，对于后续的细菌/真菌的鉴定与丰度计算有着不小的干扰。

为了解决错误信息的干扰，过去人们想了各种方法降噪，奈何效果与效率上表现欠佳。直到2013年，大神级独立研究员Robert C. Edgar带着UPARSE算法登上《nature methods》[1]，这种算法能够将操作分类单元（OTU，以序列相似度为标准，划分的序列集合）中包含的碱基错误率控制在1%以内。相较于此前的聚类方法有了巨大的进步。

此后，Robert C. Edgar大神还独立地开发了UCHIME嵌合体检测算法，并独立开发了Usearch软件，整合了UPARSE算法和UCHIME算法，一条命令即可调用这两种算法，这两种算法在之后很长的一段时间里被广泛采纳，认为是扩增子测序的聚类方法“金标准”。Usearch软件至今仍然热度不减， Robert C. Edgar以一己之力提升了扩增子测序研究的整体精度，近几年扩增子测序文章数量井喷式上涨的背后离不开这位研究员的卓越贡献。

UPARSE 算法文章

| DADA2—横空出世

时间来到3年后的2016年，斯坦福大学研究团队推出新型序列聚类算法DADA2，隔空挑战过去的聚类“金标准”UPARSE聚类方法，认为UPARSE中默认以97%的序列相似度进行OTU聚类的步骤实际上会掩盖部分存在测序错误的序列，导致部分OTU的丰度出现不准确，同时序列真实的变异信息也会由于过于宽松的相似度阈值被掩盖。在当前“精细作业”的后扩增子研究时代，科研者需要有更高精度的算法用以聚类。

DADA2 算法文章

DADA2算法的核心在于序列校正，二代测序的错误是随机发生的（即，任意两条序列的测序错误相对是随机发生的、一条序列的任意两个位置的测序错误也是随机发生的，不存在关联性），符合泊松分布。

通过机器学习的方式统计特定质量值下，位点发生真实变异的概率λij，判断序列i（扩增子）是否来在来自j（模板，丰度最高的序列）。之后再校正所有被判定为测序错误的位点，采用分裂分割算法（The divisive partitioning algorithm）进行最后的聚类：将所有序列作为一个partition，丰度最高的序列为中心，处于partition中的序列都与中心序列进行比较，计算丰度p值（p值是在位点变异率λij基础上计算获得整条序列是来自模板序列的可能性标准），当最小的p值小于阈值，则划分为新的partition，所有序列和新的中心序列进行比较，不断划分，直到不能再划分即所有序列都有与之对应的partition为止。

这种聚类方式相当于以100%相似度进行聚类的单元（DADA2软件把聚类结果称为ASV，事实上它相当于100%相似度聚类的OTU）。根据文献示例结果来看，DADA2的算法能够让一些真实的序列变异保留下来，且聚类效果上有了一定提升。

DADA2. UPARSE 算法原理比对

近两年DADA2算法逐渐被认可，QIIME2等分析流程纷纷调用DADA2作为默认聚类方法，DADA2有望进一步提升扩增子研究的聚类精度。

| Unoise2—绝对反击

作为一代算法大神，Robert C. Edgar看到自己的杰作UPARSE算法被贬的一无是处，一怒之下闭关修炼半年，在DADA2发表的同年10月，带着最新的算法unoise2登上了bioRxiv（预印刊，待发表）。在文章摘要的最后一句剑锋直指DADA2算法: it has comparable or better accuracy than DADA2.

UNOISE2 文章

不同于DADA2算法，unoise2算法是在UPARSE算法基础上进行的测序错误、嵌合体识别流程的优化升级。在不同编辑距离d（Levenshtein distance，与丰度最高序列的碱基数量上的差距）下，计算β值进行序列过滤：

image.png

（α默认为2）、skew值（skew(M, C)=aM/aC，目标序列与中心序列丰度比值）

当skew值小于β值则聚类为同一个OTU，去除变异程度高的序列，保持OTU的序列纯度，最后输出Z-OTU（作者为了区别UPARSE算法的OTU而做的命名）表格。

这种算法能够较好地去除低丰度的存在碱基测序错误的序列，相较于传统的UPARSE算法能够让OTU可信度得到进一步提高。

Unoise 算法原理和案例比较

从文章给出的土壤样本去嵌合体的效果来看，unoise2相比于DADA2推测能够保留更多的有效数据用于后续分析，真实效果是否有提升有待后续的验证。当前unoise已经升级到第3版，将更多的低丰度序列进行过滤，同时该算法也整合到Usearch软件中供研究者使用。

| 小结

UPARSE算法通过97%相似度聚类获得OTU，DADA2算法则通过序列校正获得单碱基精度的操作单元，UNOISE系列算法则是通过降噪的方法提高OTU的单位精度，此外还有Deblur等新的方法陆续涌现。当前还没有一种算法能够完美去除所有噪音并保留所有可用数据。

不同算法有着各自的优缺点，趋势上看，各算法对于低丰度的OTU的态度都是一致：删除。DADA2默认删除singleton，unoise2默认删除4以下的序列，而unoise3则是上升到了8，可见低丰度的序列大多来自于测序错误有成为共识的趋势。

毫无疑问的是未来扩增子测序的发展会朝着大样本、大数据量、摒弃低丰度序列以及高精度聚类的方向前进，这给下游的研究应用者的启发在于：需要准备足够的样本数量以及测序的数据量，保证目标物种被足够的数据量覆盖到，让实验效果能得到充分体现。

参考：
https://zhuanlan.zhihu.com/p/342898969
https://blog.csdn.net/woodcorpse/article/details/78191452

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 203,230评论 5赞 476
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,261评论 2赞 380
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 150,089评论 0赞 336
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,542评论 1赞 273
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,542评论 5赞 365
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,544评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,922评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,578评论 0赞 257
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,816评论 1赞 296
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,576评论 2赞 320
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,658评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,359评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,937评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,920评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,156评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,859评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,381评论 2赞 342

扩增子测序时代背后大佬的恩怨情仇

| UPARSE—力挽狂澜

| DADA2—横空出世

| Unoise2—绝对反击

| 小结

推荐阅读更多精彩内容