生信 | 基因组组装实战(六):基因组质量、一致性、保守性、LAI等评估

写在前面

  • 以下内容均来自我在菲沙基因(Frasergen)暑期生信培训班上记录的课堂笔记

1.基因组组装指标评估

  • 为什么要进行质量评估?
    答:动植物基因组de novo工作,其组装指标的好坏直接影响着整个基因组的质量。
  • 最主要的指标是什么?
    答:基因组组装结果评估,contigN50和scaffoldN50是第一指标。
    contig/ scaffoldN50:将contig/scaffold长度从长到短迚行排序并累加,当累加和达contig/scaffold总长度的50%的时候,最后参不加和的那一条contig/scaffold长度即为contig/ scaffoldN50的长度。一般来说,contig/scaffoldN50越长,表示组装结果越好
  • N50指标高就意味着组装结果就一定可靠吗?
    答: 不一定!将一些不相关的reads或者contig错误的连接为scaffold,一样可以达到很高 scaffold N50
  • N50统计软件gnx下载与编译
#Download git repository 
git clone https://github.com/mh11/gnx-tools.git
cd gnx-tools
mkdir bin 
javac -d bin/ src/uk/ac/ebi/gnx/* 
# 没装ant,请安装,链接:https://downloads.apache.org/ant/binaries/
# wget https://downloads.apache.org/ant/binaries/apache-ant-1.10.10-bin.tar.gz
# tar -zvxf apache-ant-1.10.10-bin.tar.gz
# ant程序 在/apache-ant-1.10.10/bin里面
ant -f package.xml
#使用方法
java -jar gnx.jar 基因组名
  • 软件使用
java -jar /gnx-tools/gnx-tools-master/gnx.jar -nx 25,50,75 contigs.fasta
#-nx 50表示统计N50

2.序列一致性评估

  • 序列一致性:是指将reads比到基因组上,验证reads对基因组的覆盖情况,用于评估组装的完整性以及测序的均匀性。较高的mapping rate(90%以上)以及coverage(95%以上)认为组装结果和reads有比较好的一致性。
  • 为了评估组装的完整性和测序覆盖的均匀性,使用比对工具minimap2(默认参数)比对回组装好的基因组,统计reads的比对率、覆盖基因组的程度以及深度的分布情况,由此评估组装的完整性和测序覆盖的均匀性。
  • 软件:minimap2
  • 使用conda安装
conda install -c bioconda samtools -y
conda install -c bioconda minimap2 -y
  • 第一步:使用比对工具minimap2(默认参数)比对回组装好的基因组
Genome=$PATH/genome.fasta
SubreadsFa=$PATH/*bam.fasta
minimap2 -ax map-pb ${genome} ${SubreadsFa} -t 10 > aln.sam
samtool view -bS aln.sam > aln.bam
samtools sort aln.bam -o minimap.merged.bam --output-fmt BAM
  • 第二步:基于比对结果统计reads的比对率、基因组的覆盖度以及深度
samtools flagstat minimap.merged.bam > minimap.merged.bam.flagstat
samtools depth -aa minimap.merged.bam > depth.info

3.保守性基因评估

  • BUSCO ( Benchmarking Universal Single-Copy Orthologs )是指利用OrthoDB直系同源数据库构建主要的系统迚化分枝(Bacteria、Eukaryota、Protists、Metazoa、Fungi、Plants)的基因集,通过同源基因数据库从基因完整度层面上评估基因组的组装质量。
  • BUSCO根据OrthoDB数据库,针对几个大的迚化分支分别构建了单拷贝基因集。在得到某物种组装后的基因组戒者转录本序列后,可以将组装结果不该物种所属迚化分支的基因集中的保守序列迚行比对,鉴定组装的结果是否包含这些序列,包含单条、多条还是部分戒者丌包含等情况给出结果。
  • 对于基因组,BUSCO首先调用Augustus软件迚行基因结构预测,再使用HMMER3比对参考基因集;对于转录本,则在鉴定出最长读码框架之后,再使用HMMER3比对参考基因集。最终根据比对上的序列比例、完整性等,评估组装结果的准确性和完整性。
  • BUSCO官网:https://busco.ezlab.org 文档:https://busco.ezlab.org/busco_userguide.html
  • OrthoDB数据库官网:https://www.orthodb.org/
  • 保守性基因评估软件安装
#需要构建conda的python3环境
conda install -c conda-forge -c bioconda busco=5.3.2 -y
  • 如果使用conda安装成功(安装不成功考虑使用git下载,上方文档中有),那么就执行下载数据库文件。例如下载植物的BUSCO的数据库(对着需要下载的类群的图片右键->复制链接地址,之后就得到了下载链接,然后在命令行使用wget之类的下载命令下载),比如下面我下载的是植物相关的,我就下载的植物类群。
    2022年5月22日更新:现在数据集在该链接下载:https://busco-data.ezlab.org/v4/data/lineages/
mkdir -p ~/database/BUSCO/ 
cd ~/database/BUSCO/
# 下载,增加--no-check-certificate,否则可能下载不了
wget -c --no-check-certificate https://busco-data.ezlab.org/v4/data/lineages/embryophyta_odb10.2020-09-10.tar.gz
# 解压文件
tar -xzvf embryophyta_odb10.2020-09-10.tar.gz
  • 在安装好软件之后$PATH/busco/config/之中并没有config.ini文件,只有一个config.ini_default文件,可以把里面的内容复制下来
cp config.ini_default config.ini
  • 将config.ini文件中的out_path = ./workdir 前面加上\color{red}{\#},因为这个工具的输出路径有时候会出错,所以干脆将它注释掉,之后假如运行busco之后,输出的路径就是你之前cd到的路径
  • BUSCO的使用
busco -i [组装的文件.fasta] -l [数据库文件夹] -o [输出文件名] -m [评估模式] [其他一些选项]
参数说明

4.其他评估方法

准确性评估
完整性评估
长末端重复序列评估基因组完整度
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,230评论 5 476
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,261评论 2 380
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,089评论 0 336
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,542评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,542评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,544评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,922评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,578评论 0 257
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,816评论 1 296
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,576评论 2 320
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,658评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,359评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,937评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,920评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,156评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,859评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,381评论 2 342

推荐阅读更多精彩内容