Nature Genetic | 番茄超级泛基因组的多样性和结构变异

引言

在2023年4月6日，Nature Genetics发表了一篇题目为“Super-pangenome analyses highlight genomic diversity and structural variation across wild and cultivated tomato species”的文章，该文章使用的9个野生种和2个栽培品种，阐明了茄属番茄组（Solanum section Lycopersion）的基因组演化历史，构建了首个番茄超级泛基因组/图基因组。

在文章中，作者提供了全部的分析代码和分析流程，确实很牛X，对于我们想要学习这类型的同学来说是非常友好的，也是非常有帮助的。自己一直想学习泛基因组方向的分析，但是一直由于时间或是没有系统的学习，就就没有什么进展。本文章对我们来说是非常有意义的，那就争取学习一下吧！我也会将学习过程，进行记录！

文章网址

文章链接: https://www.nature.com/articles/s41588-023-01340-y#code-availability

代码存放网址

https://github.com/HongboDoll/TomatoSuperPanGenome

组装的形式

作者提供分析的流程，主要包括这几方面。

基因组的注释

Genome annotation主要包括了以下两个内容gene prediction和repeat annaotation,其中gene prediction包含以下几个软件的使用，Trinity、denovo、Hisat2、homology、evm。
今天只是来大体看了分析的流程，没有具体开始跑流程。我们可以看到作者提供的流程还是很规范的。这样真的有助于我们后期的学习！

Trinity

#!/bin/bash                                                                                                                                      

ref=S_galapagense_canu_pilon.chr.fasta
spe=S_gal
thread=10

############ trinity without ref  #### 
#
/share/fg2/lihb/software/trinityrnaseq-v2.10.0/Trinity --seqType fq --max_memory 100G --left s80_combine_1.clean.fq.gz,9930_39_tissues_1.fq.gz --right s80_combine_2.clean.fq.gz,9930_39_tissues_2.fq.gz -output ./S_gal_trinity_out_no_ref --min_kmer_cov 2 --trimmomatic --normalize_reads --CPU $thread 
#
############### trinity with ref

/share/fg2/lihb/software/trinityrnaseq-v2.10.0/Trinity --genome_guided_bam ./${spe}_10tissues.sort.bam  --max_memory 50G --genome_guided_max_intron 10000 --output ./S_gal_trinity_out_with_ref --CPU $thread

################ PASA

cat ./S_gal_trinity_out_no_ref/Trinity.fasta ./S_gal_trinity_out_with_ref/Trinity-GG.fasta > transcripts.fasta
cat transcripts.denovo.fasta ./S_gal_trinity_out_with_ref/Trinity-GG.fasta > transcripts.fasta
/share/fg2/lihb/software/PASApipeline.v2.4.1/misc_utilities/accession_extractor.pl < transcripts.fasta > tdn.accs
/share/fg2/lihb/software/PASApipeline.v2.4.1/seqclean/seqclean/seqclean  transcripts.fasta
/share/fg2/lihb/software/PASApipeline.v2.4.1/scripts/Launch_PASA_pipeline.pl -c /share/fg2/lihb/software/PASApipeline.v2.4.1/pasa_conf/pasa.alignAssembly.Template.txt --trans_gtf transcripts.gtf --TDN tdn.accs -C  -R -g $ref -t transcripts.fasta.clean -T -u transcripts.fasta --ALIGNERS blat --CPU $thread
/share/fg2/lihb/software/PASApipeline.v2.4.1/scripts/pasa_asmbls_to_training_set.dbi --pasa_transcripts_fasta test_80.assemblies.fasta --pasa_transcripts_gff3 test_80.pasa_assemblies.gff3
/share/fg2/lihb/software/PASApipeline.v2.4.1/scripts/pasa_asmbls_to_training_set.extract_reference_orfs.pl  test_80.assemblies.fasta.transdecoder.genome.gff3 > best_candidates.gff3

Hisat2

#!/bin/bash

ref=S_galapagense_canu_pilon.chr.fasta
spe=S_gal
threads=18

hisat2-build -p 20 $ref re1
hisat2 -x re1 --dta -p 20 -1 CUChhxTERAAPE_1.clean.fq.gz -2 CUChhxTERAAPE_2.clean.fq.gz | samtools view -bS -@ 20 - > ${spe}_stem.bam
hisat2 -x re1 --dta -p 20 -1 CUChhxTHRAAPE_1.clean.fq.gz -2 CUChhxTHRAAPE_2.clean.fq.gz | samtools view -bS -@ 20 - > ${spe}_female.flower.bam
hisat2 -x re1 --dta -p 20 -1 CUChhxTBRAAPE_1.clean.fq.gz -2 CUChhxTBRAAPE_2.clean.fq.gz | samtools view -bS -@ 20 - > ${spe}_Expanded.ovary.Fertilized.bam
hisat2 -x re1 --dta -p 20 -1 CUChhxTFRAAPE_1.clean.fq.gz -2 CUChhxTFRAAPE_2.clean.fq.gz | samtools view -bS -@ 20 - > ${spe}_leaf.bam
hisat2 -x re1 --dta -p 20 -1 CUChhxTGRAAPE_1.clean.fq.gz -2 CUChhxTGRAAPE_2.clean.fq.gz | samtools view -bS -@ 20 - > ${spe}_male.flower.bam
hisat2 -x re1 --dta -p 20 -1 CUChhxTIRAAPE_1.clean.fq.gz -2 CUChhxTIRAAPE_2.clean.fq.gz | samtools view -bS -@ 20 - > ${spe}_tendril.bam
hisat2 -x re1 --dta -p 20 -1 CUChhxTDRAAPE_1.clean.fq.gz -2 CUChhxTDRAAPE_2.clean.fq.gz | samtools view -bS -@ 20 - > ${spe}_root.bam
hisat2 -x re1 --dta -p 20 -1 CUChhxTCRAAPE_1.clean.fq.gz -2 CUChhxTCRAAPE_2.clean.fq.gz | samtools view -bS -@ 20 - > ${spe}_Expanded.ovary.Unfertilized.bam
hisat2 -x re1 --dta -p 20 -1 CUChhxTARAAPE_1.clean.fq.gz -2 CUChhxTARAAPE_2.clean.fq.gz | samtools view -bS -@ 20 - > ${spe}_ovary.bam
hisat2 -x re1 --dta -p 20 -1 CUChhxTJRAAPE_1.clean.fq.gz -2 CUChhxTJRAAPE_2.clean.fq.gz | samtools view -bS -@ 20 - > ${spe}_base.of.tendril.bam

samtools merge -@ 20 ${spe}_10tissues.bam ${spe}_stem.bam ${spe}_female.flower.bam ${spe}_Expanded.ovary.Fertilized.bam ${spe}_leaf.bam ${spe}_male.flower.bam ${spe}_tendril.bam ${spe}_root.bam ${spe}_Expanded.ovary.Unfertilized.bam ${spe}_ovary.bam ${spe}_base.of.tendril.bam && rm ${spe}_stem.bam ${spe}_female.flower.bam ${spe}_Expanded.ovary.Fertilized.bam ${spe}_leaf.bam ${spe}_male.flower.bam ${spe}_tendril.bam ${spe}_root.bam ${spe}_Expanded.ovary.Unfertilized.bam ${spe}_ovary.bam ${spe}_base.of.tendril.bam
samtools sort -@ 20 -m 2G ${spe}_10tissues.bam -o ${spe}_10tissues.sort.bam && rm  ${spe}_10tissues.bam

stringtie -p 20 ${spe}_10tissues.sort.bam -o stringtie_out

sed 's/StringTie/Cufflinks/g' stringtie_out > transcripts.gtf

/share/fg2/lihb/software/TransDecoder-TransDecoder-v5.5.0/util/gtf_genome_to_cdna_fasta.pl stringtie_out $ref > transcripts.fasta
/share/fg2/lihb/software/TransDecoder-TransDecoder-v5.5.0/util/gtf_to_alignment_gff3.pl stringtie_out > transcripts.gff3
/share/fg2/lihb/software/TransDecoder-TransDecoder-v5.5.0/TransDecoder.LongOrfs -t transcripts.fasta -m 100

#makeblastdb -in uniprot_sprot_plants.fa -dbtype prot
blastp -query transcripts.fasta.transdecoder_dir/longest_orfs.pep -db uniprot_sprot_plants.fa -max_target_seqs 1 -outfmt 6 -evalue 1e-5 -num_threads 20 > blastp.outfmt6

hmmsearch --cpu 18 -o ttt --domtblout hmmsearch.tmp Pfam-A.hmm transcripts.fasta.transdecoder_dir/longest_orfs.pep
awk 'BEGIN{OFS=FS=" "} NR<=3{print}; NR>3{tmp=$1; $1=$4; $4=tmp; tmp=$2; $2=$5; $5=tmp; print}' hmmsearch.tmp > pfam.domtblout

/share/fg2/lihb/software/TransDecoder-TransDecoder-v5.5.0/TransDecoder.Predict -t transcripts.fasta --single_best_only --retain_pfam_hits pfam.domtblout --retain_blastp_hits blastp.outfmt6

/share/fg2/lihb/software/TransDecoder-TransDecoder-v5.5.0/util/cdna_alignment_orf_to_genome_orf.pl transcripts.fasta.transdecoder.gff3 transcripts.gff3 transcripts.fasta > transcripts.fasta.transdecoder.genome.gff3

其次，作者也提供了进化树的图形绘制。

图1. 野生和栽培番茄的基因组构成和系统发育关系

文章简要概述

注：简要概述来自植物学类各大微信公众平台（作者或运营者等已经总结很详细了）,主要来自公众号：百迈客生物、植物科学最前沿。

本文由新疆农业科学院园艺作物研究所牵头，中国农业科学院深圳农业基因组研究所、作物科学研究所、生物技术研究所等团队合作完成。该研究绘制了11个野生和栽培番茄的染色体级别高质量基因组图谱，阐明了茄属番茄组（Solanum section Lycopersion）的基因组演化历史，构建了首个番茄超级泛基因组/图基因组，并进一步在野生番茄中克隆到可大幅提升栽培番茄产量的新基因一个。该研究既是对番茄基因组资源的重要补充，同时也对其它作物基因组学研究和野生种质资源尤其是近缘野生种的利用具有重要启发意义。该成果也是新疆农业科学院首次以第一单位在Nature Genetics上发表长篇研究论文。
研究团队收集了8个野生番茄种（Solanum habrochaites多毛番茄, Solanum chilense智利番茄, Solanum peruvianum秘鲁番茄, Solanum corneliomulleri多腺番茄, Solanum neorickii小花番茄, Solanum chmielewskii克梅留斯基番茄, S. pimpinellifolium醋栗番茄和Solanum galapagense加拉帕戈斯番茄）、1个番茄近源野生种（Solanum lycopersicoides类番茄茄）和2个栽培番茄代表性品种，利用PacBio、Bionano和Hi-C测序技术，构建了11个染色体水平高质量基因组，解析了其基因组构成。结合已发表数据，重构了野生和栽培番茄的系统发生关系，将其明确划分为4个单系起源分支，并发现红果和绿果番茄在约173万年前分化。这些结果阐明了野生和栽培番茄的基因组演化历史（图1）。

图1. 野生和栽培番茄的基因组构成和系统发育关系

先前研究构建的番茄泛基因组仅包含栽培番茄及其近源野生物种的遗传多样性信息。该研究首次通过整合10个番茄野生物种和1个番茄栽培物种，将泛基因组扩展为“超级泛基因组”（Super-pangenome）。其囊括了几乎整个茄属番茄组的遗传多样性，挖掘出已报道番茄泛基因组中缺少的9,320个新基因。比较基因组学分析鉴定出超过4,000万个SNP和InDel变异及28万个结构变异，其中约18万个结构变异为该超级泛基因组中所特有。此外，该研究构建了野生和栽培番茄的大片段倒位图谱，为如何在回交育种中避免连锁累赘提供了基因组学基础。上述结果极大拓展了番茄育种中可用的遗传变异和基因资源（图2）。

图2. 番茄超级泛基因组和结构变异全景图

番茄育种的主要目标之一是通过培育果实更大、分枝数更多的品种来提高产量。野生番茄通常比栽培番茄具有更多的结果分枝，然而能否将这一性状导入栽培番茄，特别是加工番茄中尚未有报道。通过比较进化基因组学分析，该研究鉴定出388个在野生和栽培番茄演化过程中高度分化的结构变异，可能显著影响周围基因的功能。其中位于Sgal12g015720基因（编码细胞色素P450超家族蛋白）第一个外显子的一个244-bp缺失变异引起了研究人员的关注。该变异在野生番茄和栽培番茄中频率差异最显著（p=2.2×10-16），且在栽培番茄中无法检测到Sgal12g015720转录本（图3）。以上结果说明番茄在驯化过程中保留了该244-bp缺失，使Sgal12g015720发生假基因化而在栽培番茄基因组中丢失。

图3. 结构变异在野生番茄和栽培番茄中的分化

转基因实验证明，Sgal12g015720能够显著增加栽培番茄的分枝和果实数量（~67.1%）（图4），栽培番茄“M82”/野生番茄“LA716”渐渗系植株IL12-2和IL12-3（含有Sgal12g015720基因组片段）同样支持转基因实验结果。因此，Sgal12g015720基因可能在番茄育种中株型调控和产量提高上发挥重要作用。

图4. 野生番茄特有的一个细胞色素P450基因提高栽培番茄产量

综上，该研究利用番茄超级泛基因组揭示了野生和栽培番茄的基因组演化历史，系统解析了番茄野生种中尚未被充分挖掘的遗传多样性。该研究同时证明了通过基因组学的“bottom-up”方法鉴定功能基因的可能，为超级泛基因组在其他作物中的构建和应用指明了方向。值得一提的是，Nature Genetics同期刊发了题为Tomato super-pangenome highlights the potential use of wild relatives in tomato breeding的ResearchBriefing（研究简报），对该成果进行了简介并给予高度评价。Nature Genetics编辑Wei Li博士认为：“看到基于9个野生种和2个栽培种质的染色体级别基因组构建的番茄超级泛基因组是令人兴奋的事情！这些结果凸显了野生和栽培番茄之间的基因组多样性和结构变异，这将有助于未来番茄功能基因的挖掘和番茄遗传改良”。

在后面的教程中，希望自己可以继续坚持下来，借助这篇文章开始这个领域的学习。

往期文章：
1. 最全WGCNA教程（替换数据即可出全部结果与图形）

WGCNA分析 | 全流程分析代码 | 代码一

WGCNA分析 | 全流程分析代码 | 代码二

WGCNA分析 | 全流程代码分享 | 代码三

2. 精美图形绘制教程

精美图形绘制教程

话说公众号需要标星，这样公众号的内容你才不会错过。那么，我们也动手标一下吧。

小杜的生信筆記，主要发表或收录生物信息学的教程，以及基于R的分析和可视化（包括数据分析，图形绘制等）；分享感兴趣的文献和学习资料!!

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 203,230评论 5赞 476
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,261评论 2赞 380
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 150,089评论 0赞 336
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,542评论 1赞 273
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,542评论 5赞 365
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,544评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,922评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,578评论 0赞 257
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,816评论 1赞 296
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,576评论 2赞 320
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,658评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,359评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,937评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,920评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,156评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,859评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,381评论 2赞 342