零基础教程 | 叶绿体基因组组装 - GetOrganelle

关键词:零基础;叶绿体基因组;神器;国人佳作;一键成环。
软件官网:https://github.com/Kinggerm/GetOrganelle
这款软件是建军郁文彬老师开发的。个人有幸在去年年底见过两位,也了解到 GetOrganelle 软件,但一直没有实际应用场景。
以前对某个物种的群体重测序数据做过一些类似的叶绿体基因组组装工作,大体策略是使用近源物种叶绿体基因组为参考,进行有参考组装。绝大部分情况下,组装效果还是很不错的。今次项目重要,也有成熟软件可以选择,故决定学习一下 GetOrganelle 软件,争取高质量完成这一项目。

安装软件

使用 conda 安装,先创建一个环境

conda create -n getorganelle

激活环境,并安装软件,注意到,之前我已经配置好bioconda软件源

conda activate getorganelle
conda install getorganelle

参考软件官方说明,安装完成后,需要下载参考序列库

get_organelle_config.py --add embplant_pt,embplant_mt

发现依赖Bowtie2没有解决

conda install bowtie2

重新下载参考序列库

get_organelle_config.py --add embplant_pt,embplant_mt

似乎还是一样的报错

ERROR: Bowtie2 is not available!

查看程序源码

which get_organelle_config.py
vim ~/anaconda3/envs/getorganelle/bin/get_organelle_config.py

按照代码,应该是可以拿到的



往下走,似乎是获取版本号的问题,难道的bowtie2版本不对?



查了下官网说明,似乎没有要求bowtie2的版本(?conda安装时,不会自动检测 bowtie2 依赖并解决?)
查看是如何检测版本

好,找到了



具体看到脚本
vim /home/chengjie_chen/anaconda3/envs/getorganelle/lib/python3.6/site-packages/GetOrganelleLib/pipe_control_func.py

检查了一圈,应该不存在环境问题



bowtie2调用的库文件需要调整,尝试软连接库,但似乎 12 不能应付 2 。更新一下试试

# 发现安装的似乎2.3.5,升级一下试试
conda update bowtie2

没问题了
重新下载参考序列库

get_organelle_config.py --add embplant_pt,embplant_mt

正常开始下载了,不过不知道要下载多久。考虑直接本地下载后上传,

# 注意到,其实可以本地 github 加速,20Mb+ 一下就下载完了
wget https://github.com/Kinggerm/GetOrganelleDB/releases/download/0.0.1/v0.0.1.tar.gz
tar -zxvf v0.0.1.tar.gz
get_organelle_config.py -a embplant_pt,embplant_mt --use-local ./0.0.1

运行Demo

参考官网说明,下载测试数据,正反向各8Mb

wget https://github.com/Kinggerm/GetOrganelleGallery/raw/master/Test/reads/Arabidopsis_simulated.1.fq.gz
wget https://github.com/Kinggerm/GetOrganelleGallery/raw/master/Test/reads/Arabidopsis_simulated.2.fq.gz

按照官网说明,60秒可以组装好拟南芥这套数据

get_organelle_from_reads.py -1 Arabidopsis_simulated.1.fq.gz -2 Arabidopsis_simulated.2.fq.gz -t 1 -o Arabidopsis_simulated.plastome -F embplant_pt -R 10

主要输出结果,
结果文件看起来有点复杂,没时间折腾,截图Manual。



查看 log 文件,看到有两个完整组装,即成环



上述图片中,我们也可以看到有两个.fasta文件,对应的,可以看看


看了下manual,了解了下质体组装的内容,可以认为两者都是正确组装。使用时选择一个常用的即可。只是常用的是哪一个?这是一个问题。对于研究较多的物种,应是可以参考;研究较少的,或许考虑做个多序列比对,mauve,mummer等,投票决定。

一个材料(注意就是一个植物或者一个叶片)中会同时存在两种组装,见文献

Palmer, J. Chloroplast DNA exists in two orientations. Nature 301, 92–93 (1983). https://doi.org/10.1038/301092a0

运行实际测试数据

开 20 个线程试试

get_organelle_from_reads.py -1 108.r1.fq.gz -2 108.r2.fq.gz -o plastome_output -R 15 -k 21,45,65,85,105 -t 20 -F embplant_pt

一共耗时 1415.10 s。速度不错,测序数据大体是 6G。看了下软件说明,似乎是会sample一下。
组装出来大量结果,



另外即 repeat_pattern 的问题,基于官网的文档,选在 IR 最长的后续使用

plastome_arch_info.py *.fasta -o plastome_arch.list
largest_size=`cat plastome_arch.list | sed -e 1d |awk 'NR==1{max=$6;next}{max=max>$6?max:$6}END{print max}'`
cat plastome_arch.list|awk '($6==size){print $1}' size=$largest_size

结果如下(默认 pattern1 就是 IR 最长?)

embplant_pt.K105.complete.graph1.1.repeat_pattern1.path_sequence.fasta
embplant_pt.K105.complete.graph1.2.repeat_pattern1.path_sequence.fasta

OK,应该没问题了。组装起来也很快,我已经跑上100+份材料的叶绿体组装了。后续看看结果再说。

写在最后

整体顺畅,我估计最多累计花了不到两个小时,就全部事情搞完,中间出门办了点事情。从GetOrganelle的了解,下载,安装,解决使用问题,输出结果,再到输出结果的了解,补充了一些叶绿体基因组的背景知识(其实就是看了两个letter文稿)。
怎么说呢,建军和郁老师开发的这款软件,应该算是神器了。回想小时候做叶绿体基因组,还是麻烦。而 GetOrganelle 几乎是一键成环,完美~
准备推文中间,忽然想到,看来,只是跑跑流程,确实已经没啥好出路,毕竟分分钟就跑起来....。比如我两个小时搞完,或许一些朋友要两周.....

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 193,495评论 5 459
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 81,469评论 2 369
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 140,825评论 0 318
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 51,974评论 1 263
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 60,849评论 4 355
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 45,990评论 1 272
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,415评论 3 380
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,125评论 0 253
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,351评论 1 288
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,474评论 2 307
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,249评论 1 324
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,119评论 3 310
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,496评论 3 298
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 28,838评论 0 17
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,118评论 1 250
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,366评论 2 340
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,573评论 2 335

推荐阅读更多精彩内容