wtdbg 组装基因组

关键词:pacbio; nanopore; assemble

wtdbg相较于其他三代四代数据组装软件(Canu,smartdenovo,miniasm,Flye,TULIP,FALCON,FALCON-unzip等)的优点如下:

  • 安装简单(反例FALCON,拿命装软件);,使用简单, 可用run_wtdbg_assembly.sh脚本生成运行脚本
  • 内存及存储暂用少,(反例MARVEL,装个稍微大一点杂合度稍微高一点的基因组请准备30个T,组装时间=文献里面的测试时间和数据量X n,具体看补充材料)
  • 运行时间快,(反例Canu,随随便便一两个月没了);
    组装分为多步,以第一步assemble为例:35G pacbio数据,8线程,运行时间10370.440 sec, 约2.9小时;以第一步assemble为例,14G nanopore数据,32线程,多个组装参数,运行时间在1800-3800 sec之间,即0.5~1h
    当然以上时间受参数影响明显,后面会有介绍到。

Tips: 多跑参数,你永远不知道下一个参数会带你什么惊喜
最近装了三个基因组,下面简单谈谈组装情况。

软件使用:

提供参数给run_wtdbg_assembly.sh,会动生成运行脚本。可以看看生成的运行脚本run.sh的组成:一步组装,两轮纠错。
当然我说过了要多参试参数,所以知道run.sh的组成后,写个批处理,生成多个参数组装的脚本。

$ ./run_wtdbg_assembly.sh -h
$ cat run.sh
.....
.....
### assembling
wtdbg-1.2.8 -t 0 -i reads.fa.gz --tidy-reads 5000 -fo dbg -k 0 -p 21 -S 4 --rescue-low-cov-edges
### first round of correction
wtdbg-cns -t 0 -i dbg.ctg.lay -fo dbg.ctg.lay.fa -c 0
### mapping
kbm-1.2.8 -t 0 -d dbg.ctg.lay.fa -i reads.fa.gz -k 0 -p 21 -S 4 -O 0 | best_kbm_hit.pl | awk '{print $6"\t"$9"\t"$10"\t"$1"\t"$2"
### generating new layout
map2dbgcns dbg.ctg.lay.fa reads.fa.gz dbg.map >dbg.map.lay
### second round of correction
wtdbg-cns -t 0 -i dbg.map.lay -fo dbg.map.fa -k 13 -c 3
### Finished

下面的测试仅是第一步组装,不包括后续纠错的评测

组装结果:

  1. 基因组A大小约1G,原始数据pacbio(Canu纠错过;N50:20K;Total_length:35G bp)
dbgE2 p19 S2: TOT 1007279360, CNT 10977, AVG 91763, MAX 4034816, N50 460800,
dbgE2 p23 S4: TOT 983086592, CNT 9598, AVG 102427, MAX 3968000, N50 513280, 
dbgE3 p21 S4: TOT 994572032, CNT 8647, AVG 115020, MAX 4221440, N50 540928, 
dbgE3 p23 S4: TOT 988987648, CNT 8525, AVG 116011, MAX 4032768, N50 529664,

选了E3p21S3组合,并经过一轮纠错后 :N50达到55K;N50 number:512

  1. 基因组B大小约2.6G,原始数据nanopore(N50length:23K;Total_length:14G bp)
    可以看到“--edge-min”值对基因大小影响特别大,在基因组复杂度低和测序深度大的情况下可提高该值,可降低运行内存和运行时间。(仅进行第一轮组装)
dbgE1p19S2: TOT 3399903232, N50 185344
dbgE1p19S3: TOT 3597365248, N50 145920
dbgE1p19S4: TOT 3770381056, N50 116992
dbgE1p21S2: TOT 3780115712, N50 120064
dbgE1p21S3: TOT 4089948416, N50 84736,
dbgE1p21S4: TOT 4348297472, N50 65024,
dbgE1p23S2: TOT 4423848960, N50 62976,
dbgE1p23S3: TOT 4848828928, N50 49152,
dbgE1p23S4: TOT 5196448256, N50 43264,
dbgE2p19S2: TOT 2616108800, N50 240640
dbgE2p19S3: TOT 2589961728, N50 207616
dbgE2p19S4: TOT 2557624832, N50 184320
dbgE2p21S2: TOT 2585940480, N50 189440
dbgE2p21S3: TOT 2543755264, N50 162304
dbgE2p21S4: TOT 2498501632, N50 142848
dbgE2p23S2: TOT 2502693888, N50 142336
dbgE2p23S3: TOT 2418200832, N50 119296
dbgE2p23S4: TOT 2342637568, N50 105216
dbgE3p19S2: TOT 2359822080, N50 214272
dbgE3p19S3: TOT 2294566144, N50 189184
dbgE3p19S4: TOT 2225957376, N50 171264
dbgE3p21S2: TOT 2255389696, N50 173824
dbgE3p21S3: TOT 2151704576, N50 151040
dbgE3p21S4: TOT 2053985792, N50 132352
dbgE3p23S2: TOT 2043926528, N50 131328
dbgE3p23S3: TOT 1879147776, N50 112384
dbgE3p23S4: TOT 1736459264, N50 98304,
  1. 基因组C大小为4.5G,原始数据只有10x的pacbio,高重复杂合。随便测试了一下,惨不忍睹
dbgE1p17S2: TOT 4833807616, N50 13568
dbgE1p17S3: TOT 4948789760, N50 12544
dbgE1p17S4: TOT 4955079680, N50 11776
dbgE1p19S2: TOT 4731463936, N50 13312
dbgE1p19S3: TOT 4841807616, N50 12288
dbgE1p19S4: TOT 4876017152, N50 11520
dbgE1p21S1: TOT 4622665984, N50 13056
dbgE1p21S2: TOT 4789170176, N50 12288
dbgE1p21S3: TOT 4826336000, N50 11264
dbgE1p21S4: TOT 4796413184, N50 11008
dbgE1p23S1: TOT 4709794560, N50 12032
dbgE1p23S2: TOT 4752586496, N50 11264
dbgE1p23S3: TOT 4682966272, N50 10496
dbgE1p23S4: TOT 4561831680, N50 10240

我还写过一篇关于canu+wtdbg的文章,我测试过用canu纠错后的确组装结果又提升

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,230评论 5 476
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,261评论 2 380
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,089评论 0 336
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,542评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,542评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,544评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,922评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,578评论 0 257
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,816评论 1 296
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,576评论 2 320
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,658评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,359评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,937评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,920评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,156评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,859评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,381评论 2 342

推荐阅读更多精彩内容