欢迎关注”生信修炼手册”!
早在2013年的时候, 就已经有科学家提出了利用Hi-C数据来辅助基因组组装的思路,可以将scaffold进一步提升到染色体级别的长度,并提供了配套的分析软件LACHESIS
。该软件默认输入的基因组组装结果完全正确,后续的操作都是建立在这个前提下。然而实际情况中,受到组装算法的限制,基因组草图中会存在拼接错误的情况。
在2017年的时候,又有科学家提出了利用hi-c辅助基因组组装的新思路,并利用该思路进行了埃及伊蚊的基因组组装,对应的文章发表在science上,链接如下
https://science.sciencemag.org/content/356/6333/92/tab-pdf
在该文章提供的分析思路中, 首先会根据hi-c数据的结果,对输入的基因组组装结果中的拼接错误进行校正,然后在进行后续分析,整个pipeline如下图所示
可以分成以下4个大的步骤
preliminary filtration
misjoin correction
ordering and orientation
-
overlap merging
第一步首先对基因组组装的结果进行预处理,去除长度太短的scafflod。长度过短的scaffold在hi-c图谱中对应的交互信息会非常的少,没有足够的交互信息无法有效的进行后续分析;第二步利用hi-c数据校正scaffold中存在的拼接错误,对于检测到存在拼接错误的scaffold, 将其切割为存在拼接错误的inconsistent
部分和未检测到拼接错误的consistent
部分,inconsistent
部分不会进行后续分析。
第三步确定归属同一条染色体的scaffold,并进行排序和调整方向;第四步检测同一条染色体上的scaffold间是否存在overlap, 对于存在overlap的scaffold, 进行merge。
应用该算法结合hi-c数据对埃及伊蚊的基因组结果重新组装后,效果如下所示
可以看到,由最初的草图组装到了最终的染色体级别。该算法对任意的基因组组装都是适用的,值得一提的是该文章指出,通过hi-c数据辅助基因组组装得到的最终结果中,还是会存在部分的错误结果,这个是不可避免的。
文章中对应的软件链接如下
https://github.com/theaidenlab/3d-dna
后续会详细介绍其用法。
·end·
—如果喜欢,快分享给你的朋友们吧—
扫描关注微信号,更多精彩内容等着你!