泛基因组分析方案

泛基因组是对某一物种全部基因组序列的总称，目的在于获取该物种完整的遗传信息，以解决单个参考基因组给群体研究带来的许多限制。近年来，泛基因组的飒爽英姿频繁登陆各大主流期刊。这不，大麦和小麦的泛基因组研究于2020年11月25日携手登陆Nature主刊。泛基因组研究热度持续攀升，构建泛基因组，已经成为大多数物种基因组研究的目标。那么新升级的分析内容都有哪些？技术策略是如何的呢？

一、研究内容

泛基因组产品采用从头组装的策略进行泛基因组构建，分析内容包括比较基因组分析、核心基因和非必需基因分析、结构变异（SVs）分析和图形结构基因组的构建。具体内容如下：

image.png

1.比较基因组分析

泛基因组包含多个材料的基因组数据，非常适合进行材料间的比较基因组分析，挖掘群体/个体材料的特有基因，从而在全基因组水平上了解不同材料间的共性与特性，进而了解其基因组结构、基因功能，探究特有基因与特殊生物学性状的关系，推断物种进化地位及适应性机制。

例如，大豆泛基因组研究[1]中，研究者通过WGD（Whole genome duplication,全基因组复制）分析，发现WGD区域包含较高比例的核心基因和次核心基因，而非WGD区域包含较高比例的非必需基因和特有基因。比较WGD和non-WGD之间的核苷酸多样性，发现WGD区域基因核苷酸多样性显著低于非WGD区域。同时，在非WGD区域发现了更多的SVs，且与非WGD区域相比，WGD区域拥有较少特有SVs。研究结果表明基因组复制可以作为一种重要的遗传力来影响SVs的进化。

image

图1 大豆WGD与非WGD区域之间的基因和结构变异特征的比较（图片引自文献[1]），A：WGD与非WGD区域之间的基因密度比较。B：WGD和非WGD区域之间重复DNA比例的比较。C：WGD和非WGD区域之间核苷酸多样性的比较。D：WGD和非WGD区域中的基因组成情况。E：WGD和非WGD区域中的结构变化组成情况。F：WGD和非WGD区域之间PAV驱动的单核苷酸突变率比较。

2. 核心基因/非必需基因分析

泛基因组中的基因分为核心基因和非必需基因，不同类型基因在特征和功能上具有明显差异，通过对不同类型基因集的比较，可以进一步揭示物种的基因组变化和适应性机制。

泛基因组大小模拟

通过泛基因集的大小模拟（即泛基因和核心基因累计分析），可以预测该物种泛基集的理论大小、挖掘个体特有基因、了解个体基因组成、明确物种核心基因和非必需基因的占比等。

例如，大豆泛基因组研究[1]中，研究者对核心基因和非必需基因数目进行模拟，发现总基因随着新基因组的加入而增加，并在n=25时接近平缓，表明这27份大豆材料非常具有代表性，已包含绝大多数的大豆基因信息。此外，短柄草[2]和番茄[3]等泛基因组研究也做了类似的分析。

image.png

图2 大豆核心基因和非必需基因分析 A：泛基因组和核心基因组中基因家族数目随大豆基因组数目增加的变化情况。B：泛基因组和个体基因组的基因家族组成。（图片引自文献[1]）

核心基因/非必需基因功能富集

通过功能富集分析，可以直观了解不同类型基因集的功能，有助于挖掘影响特殊生物学性状形成的特有基因资源。

例如，大豆泛基因组研究[1]中，Pfam富集分析和GO富集分析显示，核心基因在与生长、免疫、生殖、细胞发生等相关的生物学过程中富集，而非必需和特有基因在生物和非生物胁迫响应过程中富集。KEGG通路分析表明，核心基因富含与基础代谢和次生代谢产物生物合成有关的途径，非必需基因在特定代谢相关的途径富集。

此外，短柄草[2]、番茄[3]、甘蓝[4]等泛基因组研究均有类似发现。

image

图3 大豆核心基因和非必需基因功能富集分析A：核心和非必需基因的Pfam富集。B：核心和非必需基因的GO分析。C：核心和非必需基因的KEGG分析。（图片引自文献[1]）

核心基因/非必需基因保守性分析

对不同类型基因集进行保守性分析，有助于挖掘适应性进化或驯化中发挥关键作用的基因。

例如，大豆泛基因组研究[1]中，对不同类型的基因进行保守性比较，结果表明含有InterPro结构域的核心基因和次核心基因远远高于非必需基因和特有基因，非必需基因的核苷酸多样性（π）和dN / dS （非同义替换率与同义替换率的的比值）均高于核心基因，这些结果表明核心基因比非必需基因在功能上更保守。短柄草泛基因组研究[2]也有类似的发现。

image

图4 大豆核心基因和非必需基因保守性比较左图：核心基因和非必需基因中具有InterPro结构域的基因比例。中间图及右图：核心基因和非必需基因的核苷酸多样性(π)和dN / dS 比较。（图片引自文献[1]）

核心基因/非必需基因与重复序列相关性分析

研究表明，非必需基因更可能在重复序列区域富集。对不同类型基因集所在的重复区域进行统计。

例如，短柄草泛基因组研究[2]中，研究者发现染色体上非必需基因与核心基因的比率与种内TE活性高度相关，在染色体的着丝粒周围区域，非必需基因与核心基因的比率更高。甘蓝泛基因组研究[4]中也有类似的发现，与核心基因相比，非必需基因周围具有较高TE密度。

image.png

图5 核心基因和非必需基因与重复序列相关性左图：短柄草染色体的着丝粒周围区域，核心基因与非必需基因的分布情况。右图：甘蓝核心和非必需基因TE含量比较。（图片引自文献[2，4]）

核心基因/非必需基因表达水平分析

核心基因与非必需基因功能不同，表达量也有差异。

例如，短柄草泛基因组研究[2]中，研究者发现与非必需基因相比，核心基因通常有更高表达水平，并且在组织中更广泛地表达。番茄泛基因组研究[3]也做有类似的发现。

image.png

图6 短柄草核心基因和非必需基因表达比较左图：核心基因与Shell基因的表达水平比较。右图：核心基因在与Shell基因的在多种组织中的表达情况。（图片引自文献[2]）

3.结构变异分析

相比于原核生物基因组主要由基因序列组成，真核生物基因组中有超过50%的基因组可能是基因间的，并且基因序列本身还包含内含子。因此，真核生物泛基因组除了要关注基因外，也应该关注序列的变异。根据泛基因组进行结构变异分析，可以深入挖掘重要性状的调控基因，解析表型多样性形成的遗传基础。

SVs特征分析

基于基因组序列比对进行基因组SVs的检测，可以对SVs特征进行分析，如对SVs类型、长度分布、基因组分布、重复含量进行比较等。番茄结构变异研究[5]中，研究者构建了最全面的pan-SV基因组，并对SVs的特征进行详细分析，结果表明大多数SVs相对较小，SVs通常由转座子和相关重复序列组成或产生。大豆泛基因组研究[1]也有类似内容。

image

图7 SVs的特征分布左图：番茄不同大小SVs的检测频率分布图及不同类型SVs的长度分布图。右图：番茄不同类型SVs的重复含量分布。（图片引自文献[5]）

核心/非必需SVs累计分析

将所有基因组中整合得到的非冗余SVs，同样基于核心基因和非必须基因类似的策略进行核心和非必需SVs划分和比较。通过核心和非必需SVs累计曲线，可以预测该物种泛基组的理论大小、挖掘个体特有结构变异。

例如，大豆泛基因组研究[1]中，研究者根据SVs的等位基因频率，将SVs分为4类：核心SVs、次核心SVs、非必需SVs或特有SVs。与核心基因和非必需基因的累计分布模式相似，非冗余SVs集随着样本的加入而增长，并且趋于平缓。同时，核心SVs集逐渐减少，最终有130个SVs为所有样本共有。番茄结构变异研究[5]也有类似的SVs累计分布趋势的发现。

image

图8 核心和非必需SVs累计分析左图：大豆核心和非必需SVs累计分析。右图：番茄核心和非必需SVs累计分析。（图片引自文献[1，5]）

图形结构基因组构建

在基因组从头组装的基础上，把该物种的所有遗传变异的信息都添加到参考基因组中，表示为含有替代路径的图形结构，从而进行图形结构泛基因构建，该泛基因组极大的涵盖了个体间的差异信息，为物种研究提供更全面的遗传信息。例如，大豆泛基因组研究[1]首次采用了图形结构的泛基因组构建方法，打破了传统线性基因组的存储形式，展示了物种更全面的遗传信息，为后续基因组学的其他研究奠定良好的基础。

image

图9 图形结构基因组构建（图片引自文献[6]）

SVs对基因结构的影响

通过泛基因组序列及基因结构分析，不仅可以检测到先前报道的等位基因，而且可以发现新的基因结构变异，包括基因融合。

例如，大豆泛基因组研究[1]发现开花基因E3 基因结构变异导致其自身移码甚至与其他基因融合，从而影响大豆的开花。

image

图10 E3 在不同大豆材料中的结构变异 A：E3 在基因组中的物理位置。B：不同种质中E3的单倍型。C：13.3 kb的缺失导致单倍型E3-tr 材料中SoyZH13_19G210500基因丢失和E3 (SoyZH13_19G210400)与其邻近基因SoyZH13_19G210600的基因融合。（图片引自文献[1]）

SVs对基因表达的影响

通过对SVs所在的区域进行分类展示，并结合转录组数据对基因表达进行分析，有助于挖掘影响基因表达的关键SVs。

例如，番茄结构变异研究[5]通过检测有和无SVs时相关基因的差异表达程度，来检测受SVs影响的表达基因。结果发现在21,156个SV-基因对中发现数百个显著的表达改变。研究表明结构变异通过改变基因剂量效应和表达水平，从而影响果实的风味，大小和产量。

image

图11 番茄SVs对基因表达的影响左图：番茄材料中不同基因组特征SVs的百分比。右图：受不同类型SVs影响的差异表达基因的数量情况。（图片引自文献[5]）

二、技术策略

样本选择

为全面捕获物种所有的基因组信息，建议基于经验或群体结构信息选择最具代表性的个体进行泛基因组构建，推荐样本个数≥5个，具体可根据物种基因组大小、复杂度及群体复杂度进行调整。

大豆泛基因组研究[1]中，研究者通过2,898份大豆的重测序和进化树构建，选择了26份在系统发育关系和地理分布方面最具代表性的材料进行泛基因组构建。大麦泛基因组研究[7] 中，研究者通过19,778份大麦种质的基因分型数据的PCA（包含不同地理来源、行类型、生长习性等材料）选择了20份大麦来代表其遗传多样性。

image

图12 20份代表性大麦的材料选择（图片引自文献[7]）

测序策略

推荐采用PacBio HiFi测序，读长长且准确，测序深度≥15X/样本。

HiFi组装作为组装界的新秀，具有组装周期短，准确性高，连续性好，简单基因组和复杂基因组通吃的特点，对于泛基因组这样的大样本量基因组组装尤其合适，大幅缩短组装周期，提高组装准确性和连续性。

缺点是贵。目前真正用HiFi来做泛基因组的还是很少，但二代和三代都有，二代组装相对来说比较碎，可能研究不了太深的问题。

image.png

图13 HiFi测序深度与组装连续性的关系（图片引自文献[8]）

参考文献：

1. Liu Yucheng, Du Huilong, Li Pengcheng et al. Pan-Genome of Wild and Cultivated Soybeans[J]. Cell, 2020.

2. Gordon Sean P, Contreras-Moreira Bruno, Woods Daniel P et al. Extensive Gene Content Variation in the Brachypodium distachyon Pan-Genome Correlates with Population Structure[J]. Nature Communications, 2017.

3. Gao Lei, Gonda Itay, Sun Honghe et al. The Tomato Pan-Genome Uncovers New Genes and a Rare Allele Regulating Fruit Flavor[J]. Nature Genetics, 2019.

4. Golicz Agnieszka A, Bayer Philipp E, Barker Guy C et al. The Pangenome of an Agronomically Important Crop Plant Brassica oleracea[J]. Nature Communications, 2016.

5. Alonge Michael, Wang Xingang, Benoit Matthias et al. Major Impacts of Widespread Structural Variation on Gene Expression and Crop Improvement in Tomato[J]. Cell, 2020.

6. Tao Yongfu, Jordan David R, Mace Emma S. A Graph-Based Pan-Genome Guides Biological Discovery[J]. Molecular Plant, 2020.

7. Jayakodi Murukarthick, Padmarasu Sudharsan, Haberer Georg et al. The Barley Pan-Genome Reveals the Hidden Legacy of Mutation Breeding[J]. Nature, 2020.

8. Wenger Aaron M, Peluso Paul, Rowell William J et al. Accurate Circular Consensus Long-Read Sequencing Improves Variant Detection and Assembly of a Human Genome[J]. Nature Biotechnology, 2019.

本文来自博客园，作者：米源MY，转载请注明原文链接：https://www.cnblogs.com/jessepeng/p/15046944.html。

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 202,056评论 5赞 474
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 84,842评论 2赞 378
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 148,938评论 0赞 335
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,296评论 1赞 272
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,292评论 5赞 363
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,413评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,824评论 3赞 393
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,493评论 0赞 256
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,686评论 1赞 295
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,502评论 2赞 318
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,553评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,281评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,820评论 3赞 305
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,873评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,109评论 1赞 258
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,699评论 2赞 348
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,257评论 2赞 341

泛基因组分析方案

一、研究内容

1.比较基因组分析

2. 核心基因/非必需基因分析

泛基因组大小模拟

核心基因/非必需基因功能富集

核心基因/非必需基因保守性分析

核心基因/非必需基因与重复序列相关性分析

核心基因/非必需基因表达水平分析

3.结构变异分析

SVs特征分析

核心/非必需SVs累计分析

图形结构基因组构建

SVs对基因结构的影响

SVs对基因表达的影响

二、技术策略

样本选择

测序策略

推荐阅读更多精彩内容