之前写过 一套比较简便的基因组组装流程,时间快2年了,现在新技术,新方法出来了,有更好的的方法去干,所以写个更新版
1 测序
经过测试,目前效果最好的方法是:HIFI测序40x + ont超长测序100x,illumina100x,Hi-C测定100x,转录组若干(各个组织+各个环节)
2 contig组装
软件:HiFiasm
最近hifiasm软件更新了,可以用hifi数据组装,ont数据延长,运气好的话,一步T2T
注:一般认为hifi数据不需要进行polish,为避免审稿人嘴碎,可以在这一步结束后利用pilon与二代数据结合进行polish,不过改进不是很大。
有个更diao的软件 verkko,据说大部分直接T2T 不过我跑的时候一直报错 算了
3 scaffold组装,染色体划分
Juicer+3ddna+juicebox
与上一步结合,直接使用.0.hic与.0.assembl文件在juicebox中,手工直接划分染色体
4 基因组注释
a 重复序列注释:conda安装EDTA,跑流程
b 基因结构注释:conda安装braker2,利用转录组数据结合从头预测获得结构基因
miniprot+blat+genome threader进行同源注释
EVM整合以上注释结果
转录组测得的越多,注释效果越好。