「干活」基因组组装之前要做的：Genome Survey

基因组组装之前，有一些问题还是需要注意的，

genome size是多少？
评估得到的genome heterozygosity是多少？
重复序列的占比是多少？

可以系统性地称为genome survey，这是一个非常简单的分析，但是其实有一些问题是值得注意的

Genome Survey一般基于Illumina short reads进行分析，因为二代测序便宜，先测出来试试水，

再判断三代的数据量，这应该算是一个非常经济实惠的做法。

分析流程

1）fastp、Trimmomatic等软件挑一个过滤低质量序列

2）Jellyfish 2.3.0、KMC3

我个人其实比较喜欢KMC，因为可以直接读取.gz文件（绝对不是因为之前KMC作者帮助我愉快地解决了一个Bug），但是解决jellyfish脚本的过程中也让我对Shell Kernel有了一个更深刻的理解。

3）Genome Scope 2.0、GCE等软件，挑一个进行genome size、heterozygosity等指标的估计

我个人比较熟悉的还是Genome Scope 2.0，因为这个软件可以用于判断auto-tetraploid和allo-tetraploid，

同时作者Michael C. Schatz的实验室还开发了FALCON~

fastp

vim fastp.sh
sh fastp.sh 2>fastp.err.log &

Shell script:

#!/bin/bash
# Preset
dir=<specicy_path_of_your_rawdata>
echo "The raw dataset is placed at $dir"
echo "Now running Quality control"
thread=24    # set 24 threads
quality=20   # set quality cutoff to 20 based on Phred33 
# 
fastp -w $thread -q $quality -i $dir/sample1.fq.gz -I $dir/sample2.fq.gz -o ./sample_clean_1.fq.gz -O ./sample_clean_2.fq.gz

Jellyfish: count k-mer

vim jellyfish.sh
chmod 777 jellyfish.sh  # key step, otherwise the script below will report syntax error
./jellyfish.sh 2>jellyfish.err.log &

“哼男人，嘴上说着喜欢KMC，但是却用Jellyfish”，

Shell script:

# Preset
dir=<specicy_path_of_your_cleandata>
echo "The clean dataset is placed at $dir"
echo "Now running Jellyfish Kmercount"

# 17mer
echo "Now running 17mer counting"
content1="jellyfish count -C -m 17 -o ./sample.17mer.jf -s 10G -t 24 <(pigz -dc $dir/sample_clean_1.fq.gz) <(pigz -dc $dir/sample_clean_2.fq.gz)"
echo "The command is $content1"

jellyfish count \
-C \
-m 17 \
<( pigz -dc $dir/sample_clean_1.fq.gz ) <( pigz -dc $dir/sample_clean_2.fq.gz ) \
-o ./sample.17mer.jf -s 10G -t 24


# 21mer: recommanded by author
echo "Now running 21mer counting"
content2="jellyfish count -C -m 21 -o ./sample.21mer.jf -s 10G -t 24 <(pigz -dc $dir/sample_clean_1.fq.gz) <(pigz -dc $dir/sample_clean_2.fq.gz)"
echo "The command is $content2"

jellyfish count \
-C \
-m 21 \
<( pigz -dc $dir/sample_clean_1.fq.gz ) <( pigz -dc $dir/sample_clean_2.fq.gz ) \
-o ./sample.21mer.jf -s 10G -t 24

注意点：为什么要用chmod 777？
答：未经777赋予可执行权限的脚本，仍为shell脚本，需要指定bash或者sh来运行程序，即不可从jellyfish直接开始运行程序，

就好比原本的运行方式为bash <script_name>.sh，现在要修改成为./<script_name>.sh的运行方式，不然就会出现syntax errror

Jellyfish: k-mer spectrum generation

jellyfish histo -t 24 -l 1 -h 500000 sample.17mer.jf > sample.17mer.histo &
jellyfish histo -t 24 -l 1 -h 500000 sample.21mer.jf > sample.21mer.histo &

注意点：upper limitation的修改。

Genome Scope 2.0的分析需要将k-mer spectrum的upper limit设置得高一些，不然后续genome size估计塌缩比例会特别大。

Genome Scope 2.0 + Smudeplot

1）The estimation of genome size, heterozygosity, etc.

vim genomescope.sh
chmod 777 genomescope.sh
./genomescope.sh 2>genomescope.err.log &

Shell script:

script=<path_to_your_genomescope_repo>/genomescope.R
dir=<where_kmerspectrum_deposited>
Rscript $script -i <input_histo> -o ./ -n <outputname> -p <ploidy_level> -k <kmer_used>

2）Kmer-pair plot

这部分官网其实给出了比较好的流程，我就只是简单概括走一下，

dir=<specify_your_kmercount_database>
L=$(smudgeplot.py cutoff <histo_from_kmc> L)
U=$(smudgeplot.py cutoff <histo_from_kmc> U)
echo $L $U # these need to be sane values
# conda activate genomesurvey
kmc_tools transform $dir/<kmc_db> -ci"$L" -cx"$U" dump -s smudgeplot_kmc_db/<kmc_db>.kmc_L"$L"_U"$U".dump
# conda activate smudgeplot
smudgeplot.py hetkmers -o smudgeplot_kmercounts/<kmc_db>.kmc_L"$L"_U"$U" < smudgeplot_kmc_db/<kmc_db>.kmc_L"$L"_U"$U".dump

# Plot
smudgeplot.py plot <kmc_db>._L"$L"_U"$U"_coverages.tsv

结果示意图如下，Smudgeplot给出了最有可能的kmer pair情况，从而来判定倍性

image.png

基因组大小估计需要注意的点，

0）三代数据不适合用于Kmer分析，因为测序错误率高了很多，会对分析结果产生非常大的影响，

但是HiFi reads以及canu和falcon产生的corrected reads可以很好的适用于Genome Scope分析

1）jellyfish histo输出时指定的maximum kmer-freq，会极大地影响到genome size的估计，因此需要根据自己的数据进行调整，一般100000再往上也可

2）genonomescope.R的-p以及--kcov的设置，都会影响到genome size的估计

比如在genomescope2.0 model下，如果在输入数据和模型都已经定下来的基础上，将--kcov设置为原本的一倍，则genome size的大小估计会减半（此处感兴趣的，我建议还是自行搜索下基于kmer计算genome size的公式）

3）结果中的transformed_linear_plot和linear_plot有什么区别？

前者的observed曲线经过了一个转换，越往后的peak其峰值越大，即在原始的kmer freq上乘了一个n（n代表第n个peak），

后者的observed曲线为实际观测到的一个数值，没有经过上述转换

transformed linear：

image.png

linear plot：

image.png

4）Genome Scope 2.0分析时，如果将过多的kmer判定为了error，最终的genome size就会小了特别多（基于genome size的计算公式）

背后的原理

首先需要明确的一个点是：Genome Scope 是基于diploid进行编写的。

关于二倍体物种的基因组大小估计，如何理解。我想要举一个非常简单的例子来理解：

给个用kmer将genome给“划分”开的示意，

                kmer:   ---A--
                         --A---
                          -A----
                           A-----
                genome: ---A-----------------------------------------------

假设当前的基因组非常纯合（-> homozygous, not -> heterozygous），kmer会在某一个频数上呈现一个峰值，
但是如果当前的基因组杂合度上升了，也就是我们一般在文献中看到的heterozygosity，kmer在另一个频数较小的区域，也会呈现一个峰值，也就是Genome Survey中提到的杂合峰

就比如下图中的T，是A对应的allele。该种情况的存在，会导致kmer出现另一种情况，从而降低了纯合峰的高度，比如下图的例子就表示了对应位置kmer的频数，从4降低到了2，

即可以将diploid的kmer topology理解为：aa，ab

                kmer:   ---A--
                         --A---
                genome: ---A-----------------------------------------------
                           T
                        ---T--
                         --T---

所以，为了满足polyploid的产生，Genome Scope 2.0被开发 —— 基于负二项分布的Kmer模型，用于估计genome size、heterozygosity等。

三倍体的kmer topolygy：aaa（3种haplotype均一致），aab（有1种haplotype和另外2个haplotype存在区别），abc（3种haplotype各不相同）

四倍体的kmer topology：aaaa，aaab，aabb，abcd

参考资料

[1] https://github.com/schatzlab/genomescope/issues/32

[2] https://github.com/schatzlab/genomescope/issues/43

[3] https://github.com/schatzlab/genomescope/issues/48

[4] https://github.com/schatzlab/genomescope

[5] https://github.com/KamilSJaron/smudgeplot

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 193,812评论 5赞 459
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 81,626评论 2赞 371
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 141,144评论 0赞 319
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 52,052评论 1赞 263
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 60,925评论 4赞 355
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 46,035评论 1赞 272
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 36,461评论 3赞 381
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 35,150评论 0赞 253
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 39,413评论 1赞 290
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 34,501评论 2赞 307
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 36,277评论 1赞 325
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 32,159评论 3赞 312
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 37,528评论 3赞 298
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 28,868评论 0赞 17
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 30,143评论 1赞 250
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 41,407评论 2赞 341
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 40,615评论 2赞 335

「干活」基因组组装之前要做的：Genome Survey

分析流程

fastp

Jellyfish: count k-mer

Jellyfish: k-mer spectrum generation

Genome Scope 2.0 + Smudeplot

背后的原理

参考资料

推荐阅读更多精彩内容