02-Hi-C辅助基因组安装

基因组组装

基因组是怎么组装的,目前的方法有什么局限性?
为什么要进行基因组组装?是因为目前的测序方法,无论是一代、二代、三代都是借助于全基因组鸟枪法(Whole genome shotgun)将基因组打断成小片段进行测序,因此需要将这些小片段重新拼接起来还原基因组信息。基因组组装的过程是将DNA小片段(reads)拼接成小重叠群(contigs),再将contigs组装成长的scaffolds,最后将scaffolds定位到染色体。常用的算法通常是基于序列的overlap构建可能的组合路径,然后找出最优路径,构建contigs和scaffolds。
局限性

目前基因组组装大多仅停留在长序列片段水平(BAC或scaffolds),而确定scaffolds在染色体上的具体位置仍面对挑战。传统的scaffolds 锚位方法一类是基于物理图谱的方法,另一类是基于遗传图谱的方法。但是实际操作过程中这两种方法有几个难点:大片段文库构建难度大;成本较高;误差偏高。

Hi-C技术可以辅scaffolds快速定位在染色体。

Hi-C辅助基因组组装的原理

Hi-C技术怎么辅助基因组组装?
Hi-C技术依据染色质间的相互作用随着距离越远递减的规律,对scaffolds 的进行聚类分群,计算其相邻关系,然后基于染色体的交互信息对scaffolds进行排序和定向。

Hi-C辅助基因组组装的优缺点

优点
相比于遗传图谱和物理图谱,基于Hi-C的基因组组装具有更高的覆盖率和特异性,避免了繁琐的群体构建工作,实验周期短,成本减少。
缺点

  • 对重复序列如着丝粒和端粒组装有困难;
  • Hi-C技术的分辨率限制
  • Hi-C技术辅助基因组组装的理论依据是“近程交互作用高于远程交互”,但是这个规律在某些特定区域(如TAD)等并不总是成立。

在scaffolds 片段较小(< 5 kb)、高度重复序列区域等因素都可能直接导致scaffolds 锚位准确
性和覆盖率降低。

Hi-C组装常用软件及对比

  • Lachesis
  • GRAAL
  • danTri
  • HiRISE
  • HiCpro
  • SALSA2


SALSA2是2018年新开发的基于Hi-C数据辅助组装的分析软件,该分析软件不需要预先设定染色体的数目,提高了精确度。此外在数据输入上还兼容GAF的数据拼接格式,同时还利用Hi-C数据对错误的组装结果进行矫正。github地址:SALSA: A tool to scaffold long read assemblies with Hi-C(https://github.com/machinegun/SALSA)。
HiC-Pro

HiC-Pro is an optimized and flexible pipeline for processing Hi-C data from raw reads to normalized contact maps. HiC-Pro maps reads, detects valid ligation products, performs quality controls and generates intra- and inter-chromosomal contact maps. It includes a fast implementation of the iterative correction method and is based on a memory-efficient data format for Hi-C contact maps. In addition, HiC-Pro can use phased genotype data to build allele-specific contact maps. We applied HiC-Pro to different Hi-C datasets, demonstrating its ability to easily process large data in a reasonable time. Source code and documentation are available at http://github.com/nservant/HiC-Pro.

Hi-C辅助基因组组装的流程

参考资料

  • Burton J N, Adey A, Patwardhan R P, et al. Chromosome-scale scaffolding of de novo genome assemblies based on chromatin interactions[J]. Nature biotechnology, 2013, 31(12): 1119.
  • 基于染色质交互数据的基因组组装方法
    陶婧芬 谢婷 郑觉非 杨庆勇
  • Hi-C辅助基因组组装简述及好文推
  • Ghurye J, Rhie A, Walenz B P, et al. Integrating Hi-C links with assembly graphs for chromosome-scale assembly[J]. bioRxiv, 2018: 261149
  • 基因组组装的算法
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 199,478评论 5 467
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 83,825评论 2 376
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 146,482评论 0 330
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 53,726评论 1 271
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 62,633评论 5 359
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,018评论 1 275
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,513评论 3 390
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,168评论 0 254
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,320评论 1 294
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,264评论 2 317
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,288评论 1 328
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,995评论 3 315
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,587评论 3 303
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,667评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,909评论 1 255
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,284评论 2 345
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 41,862评论 2 339

推荐阅读更多精彩内容

  • 什么是高通量测序? 高通量测序技术(High-throughput sequencing,HTS)是对传统Sang...
    oddxix阅读 7,158评论 0 44
  • 基因组组装 基因组组装一般分为三个层次,contig, scaffold和chromosomes. contig表...
    xuzhougeng阅读 29,510评论 3 121
  • 基因组组装完成后,或者是完成了草图,就不可避免遇到一个问题,需要对基因组序列进行注释。注释之前首先得构建基因模型,...
    xuzhougeng阅读 50,098评论 11 183
  • 每个人的心中都会有那样一个地方,当你第一次听到它的名字的时候,心中便似激起无数涟漪,从此,无法忘却。 乌镇,就是这...
    离川_L阅读 747评论 10 6
  • 我的腿到底是精神病还是真的有毛病,2016年的这一年,我一个人待在家整整一年的时间,度过了四季的变化,每个季度觉得...
    睡狮醒了阅读 254评论 0 0