基因组组装----k-mer

1.什么是k-mer?

k-mer:在生物信息学中,k-mers是包含在生物序列中的长度为k的子序列。

比如序列:GTAGAGCTGT,根据k值不同,可得到以下k-mer。

注:长度为L的序列对于一个给定的K可以得到L-k+1个k-mers。

file

2.可视化k-mers----k-mer spectrum

k-mer spectrum:显示了序列中的每个k-mer的多重性(例:8-mers' frequency)与具有该多重性的k-mers的数目。

下图为大肠杆菌的8-mer spectrum,比较8-mers的频率(即多重性)与它们的出现次数。

注:

以出现频数为横坐标,以出现该频数的k-mer片段总数(该数占总k-mer片段数的百分比)为纵坐标作图,即可得到某特定k-mer长度设定值下的所有k-mer的频数分布图。

一个物种基因组的k-mer谱模式数量是不同的,大多数物种有一个单峰分布。

所有哺乳动物均有一个多模式的分布。

一个k-mer谱的模式数也可在基因组的不同区域内变化:人类的5’ UTRs与外显子有单峰的k-mer谱,3’ UTRs与内含子中有多峰的k-mer谱。

file

3.影响DNA k-mer的因素

k-mer的使用频率受许多因素的影响,这些因素在多个水平上起作用,经常发生冲突。k值越高的k-mers也会受到k值较低的k-mers的影响。比如1-mer的碱基A未出现在一个序列中,则含有碱基A的2-mer也不会出现。

4.k-mer在基因组组装中的应用

基因组组装中,k-mer是在De Bruijn图构建时使用的。在创建De Bruijn图时,储存在长度为L的每个边(edge)中的k-mers必须与另外一个边的字符串重叠L-1,才能创建一个顶点。

4.1二代测序存在的问题

二代测序产生的reads通常会产生不同的read长度。
例如:Illumina公司的测序技术的reads可捕获100-mers的reads。而测序存在的问题是,在基因组中可能存在的100-mers中,只有其中的一小部分是真正产生的。这是由于read错误造成的,但更重要的是,测序过程中会发生简单覆盖漏洞(simple coverage holes)。这些可能的k-mers的一小部分违反了De Bruijn图的关键假设:即所有的k-mer reads必须与基因组中相邻的k-mer重叠k-1。

4.2解决方法

将这些k-mer的reads分解为更小的k-mer,这样产生的更小的k-mers将代表基因组中所有可能更小的k-mers。

除此之外,将k-mers拆分为更小也有助于缓解不同起始read长度的问题。

file

注:

该图显示了将reads分解为更小的k-mers(4-mers)的过程,以便可以用于De Bruijn的构建(关键假设)。

(A)被测序DNA的起始序列。

(B)从测序结果输出reads,并将它们进行对齐。但这种对齐的问题在于它们是k-2重叠,而不是k-1重叠(不符合关键假设)

(C)reads被拆分为更小的4-mers。

(D)丢弃重复的4-mers,并进行比对。这些k-mers是k-1重叠的。

除了直接用于基因组组装外,k-mers还可通过识别k-mers的重复出现来检查基因组的错误组装。重复出现(overrepresented)表明重复DNA序列的存在。

4.3k-mer选择对基因组组装的影响

k-mer大小的选择对基因组组装有多种影响。这种影响在较大和较小的k-mers之间差异大。因此,必须了解不同的k-mers,以便选择一个合适的平衡影响。

4.3.1较小的k-mer
较小的k-mer将减少图中存储的edges数,因此有助于减少存储DNA序列所需的内存。
较小的k-mer将增加所有k-mer重叠的机会,并获得构建De Bruijn图所需的子序列。
较小的k-mer会面临多顶点通向单个k-mer的风险。这会导致基因组组装更为困难,因为遍历的顶点数变多,从而存在更高水平的路径歧义。
随着k-mer变小,信息也会丢失。
较小的k-mer无法解决DNA中出现小微卫星或重复序列问题。

4.3.2较大的k-mer

较大的k-mer会增加图中存储的edges数,因此会增加存储DNA序列所需的内存。
增加k-mer后顶点的数目会减少。这有助于基因组的构建,因为图中的路径变少了。
较大的k-mer也会有较高的风险,即没有从每个k-mer出发的向外顶点。这是因为较大的k-mer会增加它与另一个k-mer不重叠k-1的风险。----reads的脱节,并导致大量较小的contigs。
较大的k-mer也有助于缓解小的重复区域的问题。

5.k-mer计算工具

由于k-mers的数量对应k值呈指数增长,所以较大的k(k>10)对k-mers计数十分困难。k-mer计算主要有以下工具:

Jellyfish
KMC
Gerbil
k-mer Analysis Toolkit(KAT)

本文由博客一文多发平台 OpenWrite 发布!

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,230评论 5 476
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,261评论 2 380
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,089评论 0 336
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,542评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,542评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,544评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,922评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,578评论 0 257
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,816评论 1 296
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,576评论 2 320
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,658评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,359评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,937评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,920评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,156评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,859评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,381评论 2 342

推荐阅读更多精彩内容