引言
在2023年4月6日,Nature Genetics发表了一篇题目为“Super-pangenome analyses highlight genomic diversity and structural variation across wild and cultivated tomato species”的文章,该文章使用的9个野生种和2个栽培品种,阐明了茄属番茄组(Solanum section Lycopersion)的基因组演化历史,构建了首个番茄超级泛基因组/图基因组。
在文章中,作者提供了全部的分析代码和分析流程,确实很牛X,对于我们想要学习这类型的同学来说是非常友好的,也是非常有帮助的。自己一直想学习泛基因组方向的分析,但是一直由于时间或是没有系统的学习,就就没有什么进展。本文章对我们来说是非常有意义的,那就争取学习一下吧!我也会将学习过程,进行记录!
文章网址
文章链接: https://www.nature.com/articles/s41588-023-01340-y#code-availability
代码存放网址
https://github.com/HongboDoll/TomatoSuperPanGenome
组装的形式
作者提供分析的流程,主要包括这几方面。
基因组的注释
Genome annotation主要包括了以下两个内容gene prediction
和repeat annaotation
,其中gene prediction
包含以下几个软件的使用,Trinity
、denovo
、Hisat2
、homology
、evm
。
今天只是来大体看了分析的流程,没有具体开始跑流程。我们可以看到作者提供的流程还是很规范的。这样真的有助于我们后期的学习!
Trinity
#!/bin/bash
ref=S_galapagense_canu_pilon.chr.fasta
spe=S_gal
thread=10
############ trinity without ref ####
#
/share/fg2/lihb/software/trinityrnaseq-v2.10.0/Trinity --seqType fq --max_memory 100G --left s80_combine_1.clean.fq.gz,9930_39_tissues_1.fq.gz --right s80_combine_2.clean.fq.gz,9930_39_tissues_2.fq.gz -output ./S_gal_trinity_out_no_ref --min_kmer_cov 2 --trimmomatic --normalize_reads --CPU $thread
#
############### trinity with ref
/share/fg2/lihb/software/trinityrnaseq-v2.10.0/Trinity --genome_guided_bam ./${spe}_10tissues.sort.bam --max_memory 50G --genome_guided_max_intron 10000 --output ./S_gal_trinity_out_with_ref --CPU $thread
################ PASA
cat ./S_gal_trinity_out_no_ref/Trinity.fasta ./S_gal_trinity_out_with_ref/Trinity-GG.fasta > transcripts.fasta
cat transcripts.denovo.fasta ./S_gal_trinity_out_with_ref/Trinity-GG.fasta > transcripts.fasta
/share/fg2/lihb/software/PASApipeline.v2.4.1/misc_utilities/accession_extractor.pl < transcripts.fasta > tdn.accs
/share/fg2/lihb/software/PASApipeline.v2.4.1/seqclean/seqclean/seqclean transcripts.fasta
/share/fg2/lihb/software/PASApipeline.v2.4.1/scripts/Launch_PASA_pipeline.pl -c /share/fg2/lihb/software/PASApipeline.v2.4.1/pasa_conf/pasa.alignAssembly.Template.txt --trans_gtf transcripts.gtf --TDN tdn.accs -C -R -g $ref -t transcripts.fasta.clean -T -u transcripts.fasta --ALIGNERS blat --CPU $thread
/share/fg2/lihb/software/PASApipeline.v2.4.1/scripts/pasa_asmbls_to_training_set.dbi --pasa_transcripts_fasta test_80.assemblies.fasta --pasa_transcripts_gff3 test_80.pasa_assemblies.gff3
/share/fg2/lihb/software/PASApipeline.v2.4.1/scripts/pasa_asmbls_to_training_set.extract_reference_orfs.pl test_80.assemblies.fasta.transdecoder.genome.gff3 > best_candidates.gff3
Hisat2
#!/bin/bash
ref=S_galapagense_canu_pilon.chr.fasta
spe=S_gal
threads=18
hisat2-build -p 20 $ref re1
hisat2 -x re1 --dta -p 20 -1 CUChhxTERAAPE_1.clean.fq.gz -2 CUChhxTERAAPE_2.clean.fq.gz | samtools view -bS -@ 20 - > ${spe}_stem.bam
hisat2 -x re1 --dta -p 20 -1 CUChhxTHRAAPE_1.clean.fq.gz -2 CUChhxTHRAAPE_2.clean.fq.gz | samtools view -bS -@ 20 - > ${spe}_female.flower.bam
hisat2 -x re1 --dta -p 20 -1 CUChhxTBRAAPE_1.clean.fq.gz -2 CUChhxTBRAAPE_2.clean.fq.gz | samtools view -bS -@ 20 - > ${spe}_Expanded.ovary.Fertilized.bam
hisat2 -x re1 --dta -p 20 -1 CUChhxTFRAAPE_1.clean.fq.gz -2 CUChhxTFRAAPE_2.clean.fq.gz | samtools view -bS -@ 20 - > ${spe}_leaf.bam
hisat2 -x re1 --dta -p 20 -1 CUChhxTGRAAPE_1.clean.fq.gz -2 CUChhxTGRAAPE_2.clean.fq.gz | samtools view -bS -@ 20 - > ${spe}_male.flower.bam
hisat2 -x re1 --dta -p 20 -1 CUChhxTIRAAPE_1.clean.fq.gz -2 CUChhxTIRAAPE_2.clean.fq.gz | samtools view -bS -@ 20 - > ${spe}_tendril.bam
hisat2 -x re1 --dta -p 20 -1 CUChhxTDRAAPE_1.clean.fq.gz -2 CUChhxTDRAAPE_2.clean.fq.gz | samtools view -bS -@ 20 - > ${spe}_root.bam
hisat2 -x re1 --dta -p 20 -1 CUChhxTCRAAPE_1.clean.fq.gz -2 CUChhxTCRAAPE_2.clean.fq.gz | samtools view -bS -@ 20 - > ${spe}_Expanded.ovary.Unfertilized.bam
hisat2 -x re1 --dta -p 20 -1 CUChhxTARAAPE_1.clean.fq.gz -2 CUChhxTARAAPE_2.clean.fq.gz | samtools view -bS -@ 20 - > ${spe}_ovary.bam
hisat2 -x re1 --dta -p 20 -1 CUChhxTJRAAPE_1.clean.fq.gz -2 CUChhxTJRAAPE_2.clean.fq.gz | samtools view -bS -@ 20 - > ${spe}_base.of.tendril.bam
samtools merge -@ 20 ${spe}_10tissues.bam ${spe}_stem.bam ${spe}_female.flower.bam ${spe}_Expanded.ovary.Fertilized.bam ${spe}_leaf.bam ${spe}_male.flower.bam ${spe}_tendril.bam ${spe}_root.bam ${spe}_Expanded.ovary.Unfertilized.bam ${spe}_ovary.bam ${spe}_base.of.tendril.bam && rm ${spe}_stem.bam ${spe}_female.flower.bam ${spe}_Expanded.ovary.Fertilized.bam ${spe}_leaf.bam ${spe}_male.flower.bam ${spe}_tendril.bam ${spe}_root.bam ${spe}_Expanded.ovary.Unfertilized.bam ${spe}_ovary.bam ${spe}_base.of.tendril.bam
samtools sort -@ 20 -m 2G ${spe}_10tissues.bam -o ${spe}_10tissues.sort.bam && rm ${spe}_10tissues.bam
stringtie -p 20 ${spe}_10tissues.sort.bam -o stringtie_out
sed 's/StringTie/Cufflinks/g' stringtie_out > transcripts.gtf
/share/fg2/lihb/software/TransDecoder-TransDecoder-v5.5.0/util/gtf_genome_to_cdna_fasta.pl stringtie_out $ref > transcripts.fasta
/share/fg2/lihb/software/TransDecoder-TransDecoder-v5.5.0/util/gtf_to_alignment_gff3.pl stringtie_out > transcripts.gff3
/share/fg2/lihb/software/TransDecoder-TransDecoder-v5.5.0/TransDecoder.LongOrfs -t transcripts.fasta -m 100
#makeblastdb -in uniprot_sprot_plants.fa -dbtype prot
blastp -query transcripts.fasta.transdecoder_dir/longest_orfs.pep -db uniprot_sprot_plants.fa -max_target_seqs 1 -outfmt 6 -evalue 1e-5 -num_threads 20 > blastp.outfmt6
hmmsearch --cpu 18 -o ttt --domtblout hmmsearch.tmp Pfam-A.hmm transcripts.fasta.transdecoder_dir/longest_orfs.pep
awk 'BEGIN{OFS=FS=" "} NR<=3{print}; NR>3{tmp=$1; $1=$4; $4=tmp; tmp=$2; $2=$5; $5=tmp; print}' hmmsearch.tmp > pfam.domtblout
/share/fg2/lihb/software/TransDecoder-TransDecoder-v5.5.0/TransDecoder.Predict -t transcripts.fasta --single_best_only --retain_pfam_hits pfam.domtblout --retain_blastp_hits blastp.outfmt6
/share/fg2/lihb/software/TransDecoder-TransDecoder-v5.5.0/util/cdna_alignment_orf_to_genome_orf.pl transcripts.fasta.transdecoder.gff3 transcripts.gff3 transcripts.fasta > transcripts.fasta.transdecoder.genome.gff3
其次,作者也提供了进化树的图形绘制。
文章简要概述
注:简要概述来自植物学类各大微信公众平台(作者或运营者等已经总结很详细了),主要来自公众号:百迈客生物、植物科学最前沿。
本文由新疆农业科学院园艺作物研究所牵头,中国农业科学院深圳农业基因组研究所、作物科学研究所、生物技术研究所等团队合作完成。该研究绘制了11个野生和栽培番茄的染色体级别高质量基因组图谱,阐明了茄属番茄组(Solanum section Lycopersion)的基因组演化历史,构建了首个番茄超级泛基因组/图基因组,并进一步在野生番茄中克隆到可大幅提升栽培番茄产量的新基因一个。该研究既是对番茄基因组资源的重要补充,同时也对其它作物基因组学研究和野生种质资源尤其是近缘野生种的利用具有重要启发意义。该成果也是新疆农业科学院首次以第一单位在Nature Genetics上发表长篇研究论文。
研究团队收集了8个野生番茄种(Solanum habrochaites多毛番茄, Solanum chilense智利番茄, Solanum peruvianum秘鲁番茄, Solanum corneliomulleri多腺番茄, Solanum neorickii小花番茄, Solanum chmielewskii克梅留斯基番茄, S. pimpinellifolium醋栗番茄和Solanum galapagense加拉帕戈斯番茄)、1个番茄近源野生种(Solanum lycopersicoides类番茄茄)和2个栽培番茄代表性品种,利用PacBio、Bionano和Hi-C测序技术,构建了11个染色体水平高质量基因组,解析了其基因组构成。结合已发表数据,重构了野生和栽培番茄的系统发生关系,将其明确划分为4个单系起源分支,并发现红果和绿果番茄在约173万年前分化。这些结果阐明了野生和栽培番茄的基因组演化历史(图1)。
图1. 野生和栽培番茄的基因组构成和系统发育关系
先前研究构建的番茄泛基因组仅包含栽培番茄及其近源野生物种的遗传多样性信息。该研究首次通过整合10个番茄野生物种和1个番茄栽培物种,将泛基因组扩展为“超级泛基因组”(Super-pangenome)。其囊括了几乎整个茄属番茄组的遗传多样性,挖掘出已报道番茄泛基因组中缺少的9,320个新基因。比较基因组学分析鉴定出超过4,000万个SNP和InDel变异及28万个结构变异,其中约18万个结构变异为该超级泛基因组中所特有。此外,该研究构建了野生和栽培番茄的大片段倒位图谱,为如何在回交育种中避免连锁累赘提供了基因组学基础。上述结果极大拓展了番茄育种中可用的遗传变异和基因资源(图2)。
图2. 番茄超级泛基因组和结构变异全景图
番茄育种的主要目标之一是通过培育果实更大、分枝数更多的品种来提高产量。野生番茄通常比栽培番茄具有更多的结果分枝,然而能否将这一性状导入栽培番茄,特别是加工番茄中尚未有报道。通过比较进化基因组学分析,该研究鉴定出388个在野生和栽培番茄演化过程中高度分化的结构变异,可能显著影响周围基因的功能。其中位于Sgal12g015720基因(编码细胞色素P450超家族蛋白)第一个外显子的一个244-bp缺失变异引起了研究人员的关注。该变异在野生番茄和栽培番茄中频率差异最显著(p=2.2×10-16),且在栽培番茄中无法检测到Sgal12g015720转录本(图3)。以上结果说明番茄在驯化过程中保留了该244-bp缺失,使Sgal12g015720发生假基因化而在栽培番茄基因组中丢失。
图3. 结构变异在野生番茄和栽培番茄中的分化
转基因实验证明,Sgal12g015720能够显著增加栽培番茄的分枝和果实数量(~67.1%)(图4),栽培番茄“M82”/野生番茄“LA716”渐渗系植株IL12-2和IL12-3(含有Sgal12g015720基因组片段)同样支持转基因实验结果。因此,Sgal12g015720基因可能在番茄育种中株型调控和产量提高上发挥重要作用。
图4. 野生番茄特有的一个细胞色素P450基因提高栽培番茄产量
综上,该研究利用番茄超级泛基因组揭示了野生和栽培番茄的基因组演化历史,系统解析了番茄野生种中尚未被充分挖掘的遗传多样性。该研究同时证明了通过基因组学的“bottom-up”方法鉴定功能基因的可能,为超级泛基因组在其他作物中的构建和应用指明了方向。值得一提的是,Nature Genetics同期刊发了题为Tomato super-pangenome highlights the potential use of wild relatives in tomato breeding的ResearchBriefing(研究简报),对该成果进行了简介并给予高度评价。Nature Genetics编辑Wei Li博士认为:“看到基于9个野生种和2个栽培种质的染色体级别基因组构建的番茄超级泛基因组是令人兴奋的事情!这些结果凸显了野生和栽培番茄之间的基因组多样性和结构变异,这将有助于未来番茄功能基因的挖掘和番茄遗传改良”。
在后面的教程中,希望自己可以继续坚持下来,借助这篇文章开始这个领域的学习。
往期文章:
1. 最全WGCNA教程(替换数据即可出全部结果与图形)
2. 精美图形绘制教程
话说公众号需要标星,这样公众号的内容你才不会错过。那么,我们也动手标一下吧。
小杜的生信筆記,主要发表或收录生物信息学的教程,以及基于R的分析和可视化(包括数据分析,图形绘制等);分享感兴趣的文献和学习资料!!