LAI: 评估基因组质量一个标准

基因组组装完成之后,就需要对最后的质量进行评估。我们希望得到的contig文件中,每个contig都能足够的长,能够有一个完整的基因结构,归纳一下就是3C原则:

  • 连续性(Contiguity): 得到的contig要足够的长
  • 正确性(Correctness): 组装的contig错误率要低
  • 完整性(Completeness):尽可能包含整个原始序列

但是这三条原则其实是相互矛盾的,连续性越高,就意味着要处理更多的模糊节点,会导致整体错误率上升,为了保证完全的正确,那么就会导致contig非常的零碎。此外,这三条原则也比较定性,我们需要更加定量的数值衡量,目前比较常用的标准是N50和BUSCO/CEGMA。

最近有一篇文章"Assessing genome assembly quality using the LTR Assembly Index (LAI) "提出用长末端重复序列来评估基因组完整度,因为LTR比较难以组装,于是就用作评估结果的一个参数了。那问题来了,什么是LTR序列,LTR是在原病毒(整合的反转录病毒)两末的重复序列,结构见下图

LTR结构

上图中TSD表示target site duplications,红色三角表示LTR motif。A图是一个完整的LTR结构,其中a,b,c是LTR_retriever的分析目标。

LAI指数就是完整LTR反转座子序列总LTR序列长度的比值。

其实作为一个农学出身,看到LAI,我脑海就想到了Leaf Area Index(叶面积指数)

本文以拟南芥的基因组为例来测试一下这个软件

软件安装

要想保证软件能够顺利的安装,需要先安装如下这几个软件, 好消息是这些软件都可以通过bioconda解决

  • makeblastdb, blastn, blastx
  • cd-hit-est
  • hmmserch
  • RepeatMasker

然后从GitHub上下载软件

cd ~/opt/biosoft
git clone https://github.com/oushujun/LTR_retriever.git

进入LTR_retriever文件下修改paths文件,提供每个软件所在的文件路径,下面是我的配置,你需要按照实际所在路径来设置

BLAST+=/home/xuzhougeng/opt/biosoft/ncbi-blast-2.7.1+/bin/
RepeatMasker=/home/xuzhougeng/opt/biosoft/RepeatMasker/
HMMER=/home/xuzhougeng/opt/anaconda2/envs/maker/bin/
CDHIT=/home/xuzhougeng/opt/anaconda2/envs/assembly/bin/

此外,你还需要安装GenomeTools或者LTR_FINDER,或者MGEScan_LTR才能提取出LTR序列,我这里下载的是LTR_FINDER

cd ~/opt/biosoft
git clone https://github.com/xzhub/LTR_Finder.git
cd LTR_Finder/source/
make

软件使用

第一步让我们用LTR_FINDER找到基因组的LTR序列

~/opt/biosoft/LTR_Finder/source/ltr_finder -D 20000 -d 1000 -L 700 -l 100 -p 20 -C -M 0.9 Athaliana.fa >Athaliana.finder.scn

这里的-D表示5'和3'LTR之间的最大距离,-d表示5'和3'LTR之间的最小距离,-L表示5'和3'LTR序列的最大长度,-l表示5'和3'LTR序列的最小长度,-p表示完全匹配配对的最小长度,-C表示检测中心粒(centriole)删除高度重复区域,-M表示最小的LTR相似度。如果不怎么该怎么设置就用默认值。

第二步运行LTR_retriever根据LTR_FINDER的输出识别LTR-RT,生成非冗余LTR-RT文库,可用于基因组注释

~/opt/biosoft/LTR_retriever/LTR_retriever -threads 4 -genome Athaliana.fa -infinder Athaliana.finder.scn

这里的-infinder表示输入来自于LTR_FINDER,它支持同时输入LTRharvest的输出(-inharvest)和 MGEScan-LTR 的输出(-inmgescan). 嫌速度太慢,可以用-threads增加线程数

这一步会调用RepeatMasker,而RepeatMasker要求序列ID长度不大于50个字符,所以请在第一步的时候请先对ID进行修改。

第三步计算LAI。如果前面找到LTR序列太少,低于5%,这一步程序就会报错,那么你就需要调整第一步参数,可能是太严格了。

/opt/biosoft/LTR_retriever/LAI -t 10 -genome Athaliana.fa -intact Athaliana.fa.pass.list -all Athaliana.fa.out

这里最后的结果文件为Athaliana.fa.out.LAI, 第二行就是总体信息,其中RAW_LAI是12.88, LAI是14.47


Chr From To Intact Total raw_LAI LAI

whole_genome 1 119667750 0.0079 0.0612 12.88 14.47


得到的LAI值按照如下评估标准进行分类:

Category LAI Examples
Draft 0 ≤ LAI < 10 Apple (v1.0), Cacao (v1.0)
Reference 10 ≤ LAI < 20 Arabidopsis (TAIR10), Grape (12X)
Gold 20 ≤ LAI Rice (MSUv7), Maize (B73 v4)

和例子一样,TAIR10是中等水平。

参考文献:

  • Ou S. and Jiang N. (2018). LTR_retriever: A Highly Accurate and Sensitive Program for Identification of Long Terminal Repeat Retrotransposons. Plant Physiol. 176(2): 1410-1422.
  • Ou S., Chen J. and Jiang N. (2018). Assessing genome assembly quality using the LTR Assembly Index (LAI). Nucleic Acids Res. gky730: https://doi.org/10.1093/nar/gky730
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,271评论 5 476
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,275评论 2 380
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,151评论 0 336
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,550评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,553评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,559评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,924评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,580评论 0 257
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,826评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,578评论 2 320
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,661评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,363评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,940评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,926评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,156评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,872评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,391评论 2 342

推荐阅读更多精彩内容