基于short reads的结构变异鉴定工具的综合评价

本文的部分内容来源于“Comprehensive evaluation and characterisation of short read general-purpose structural variant calling software”这篇文章,如有兴趣,可阅读文章原文。

摘要

近年来,已经发布了许多使用全基因组测序数据来鉴定SV的软件包。在发布时,通常将一种新工具与已有的工具进行比较,但这种比较往往是选择性的. 由于没有全面的对这些工具进行比较分析, 这也给用户带来了一些选择困难. 因此, 文章对10个SV鉴定工具进行了综合评估,这些评估的工具都是经过了严格的选择的,并且使用高质量的测序数据以及模拟方法。由于可用数据集的性质,文章主要重点是通用的SV鉴定工具而非体细胞SV鉴定工具。文章分析了SV事件大小和类型,测序数据特点和基因组特征对SV工具性能的影响,并分析鉴定结果和SV鉴定质量。最后,文章还为用户和相关开发人员提供了一些建议。

主要结果

工具的选择

文章中选择了自2010年以来发表的高引用率的SV鉴定工具且适用于一般的SV鉴定, 排除了那些仅适用于正常组织和肿瘤组织配对数据的工具, 最后仅筛选出10个工具用于进一步的比较评价分析.

对一些明确特征的细胞系数据的总体性能

该部分分析的主要结论是, 与单核苷酸变异(SNV)的鉴定不同,SV鉴定工具鉴定变异的合子的鲁棒性很好,并且变异单倍型的覆盖率是SV鉴定的决定因素。数据集之间鉴定率的巨大差异可以归因于所使用的数据集的全面性。


image

对理想数据集的性能评价

在对每个工具在不同的SV事件大小, 不同SV类型和测序参数进行全面的多维模拟后, 如果检测大的插入, 需要从头进行组装才能检测出,而检测小的SV事件则需要进行SR分析或组装。对于基于PE的工具,reads长度和片段大小之间的相互作用非常复杂:增加reads长度,减小片段中值长度和缩小片段大小分布都可以检测到较小的SV事件.

一些工具并不能鉴定出所有的SV类型, 比如CREST, DELLY, HYDRA 和 LUMPY就不能鉴定出倒位和串联重复. 对于任何SV类型和片段大小, cortex和CREST都没有较好的检测灵敏度, 而Pindel无法检测到1kb的缺失和2kb的重复.

序列前后和事件大小对检测准确性的影响

在所有的工具中,靠近断点的SNV或插入/缺失的存在与检测精度相关:与两个或多个较小的变异相比,具有两个或多个较小变异的工具具有更高的FDR。同样,在低复杂度,简单或短串联重复(STR)区域中发生的SV对所有工具的准确性都较低。总体来说, 工具通常不受DNA,LINE和SINE等重复序列的影响,在LTR重复序列区域中FDR升高.


image

运行时间评估

如果工具是基于组装的策略进行鉴定SV, 那么速度一般是较慢的, 如果是其他的鉴定策略, 那么速度则会较快.

讨论

作者对于用户和开发人员给出了一些选择, 使用SV工具和开发SV工具的一些意见和建议, 这里仅列举下对于用户的建议:

  • 选择使用那些采取多个策略进行SV检测的工具
    使用最新的方法并且结合了多个SV检测策略的工具, 最好还能支持单碱基分辨率水平的SV的检测(比如SR策略). 在断点处包含基于组装的鉴定方法的准确性要优于其他方法. 在理想情况下, 要使用可以检测微同源性和非模板序列插入的方法. 因此, 可以选择Manta和GRIDSS工具.

  • 选择能够检测所有SV类型的工具
    某些SV的检测工具仅能检测出某些类型的重组, 从而忽略了其他的SV类型. GRIDSS,HYDRA和SOCRATES可以检测出SV的断点. 另一方面,即使仅存在倒位所需的两个断点之一,BreakDancer,DELLY和Pindel也会检测出倒位事件, 这些工具是不适合分析那些复杂的SV类型的。

  • 集成多个工具的检测也并不是万能的
    在作者的测试中, 集成多个工具的检测结果并不比单独的检测工具的结果好. 如果想集成多个检测工具, 最好选择最近发表的基于组装策略的SV检测工具, 比如GRIDSS和manta.
    使用集成的工具的另一个选择是可以使用一些已有的流程化的工具, 如MetaSV, SVMerge和SpeedSeq. 也可以使用更复杂的方法集成多个工具, 如机器学习, 但现在还没有现成的工具.

  • 不要使用基于PE方法的工具
    现在仅依赖于PE策略的检测方法是不完美的, 较长的reads和较短的reads允许检测较小的SV,但以降低信号强度为代价。至关重要的是,当从同一片段读取的数据开始重叠时(即,当片段大小小于reads长度的两倍时),PE方法的效果急剧下降.

  • reads数异常高的检测结果可能是参考基因组/比对异常造成的
    对于所有的工具(除manta外),具有非常高的打分和reads数覆盖的检测结果绝大多数都是假阳性结果。此类结果通常是由参考基因组比对错误引起的,用户最好过滤掉高覆盖率的结果。

  • 使用专门的工具进行简单,串联和低复杂度重复序列的鉴定
    尽管Pindel和manta在检测具有长同源性的SV方面明显优于其他工具, 但是当前的工具仍不能准确地检测简单或串联重复序列, 这需要专门地工具.

相关脚本

所有的脚本可以在GitHub上找到.

一些SV检测工具列举如下:


image

image

image

image

image

参考

  • Cameron, D.L., Di Stefano, L. & Papenfuss, A.T. Comprehensive evaluation and characterisation of short read general-purpose structural variant calling software. Nat Commun 10, 3240 (2019). https://doi.org/10.1038/s41467-019-11146-4
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 193,812评论 5 459
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 81,626评论 2 371
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 141,144评论 0 319
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,052评论 1 263
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 60,925评论 4 355
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,035评论 1 272
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,461评论 3 381
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,150评论 0 253
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,413评论 1 290
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,501评论 2 307
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,277评论 1 325
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,159评论 3 312
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,528评论 3 298
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 28,868评论 0 17
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,143评论 1 250
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,407评论 2 341
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,615评论 2 335