基因富集分析 / KEGG / GO / MsigDB和GSEA

1 为何做富集分析?

在进行差异基因分析时会获得大量基因,但海量的基因不好系统分析、找到相似规律,则需要我们进行注释并基因不分析与哪些与疾病相关的通路相关,以便进一步挖掘有用信息。

2 Gene Ontology(GO)

GO数据库:GO(Gene Ontology)是基因本体联合会(GeneOnotologyConsortium)所建立的数据库,旨在建立一个适用于各种物种的, 对基因和蛋白质功能进行限定和描述的。GO是多种生物本体语言中的一种, 提供了三层结构的系统定义方式,用于描述基因产物的功能。全称是Gene Ontology(基因本体),他们把基因的功能分成了三个部分分别是:细胞组分(cellular component, CC)、分子功能(molecular function, MF)、生物过程(biological process, BP)。

3 Kyoto Encyclopedia of Genes and GenomesGene Ontology(KEGG)

KEGG数据库:KEGG (Kyoto Encyclopedia of Genes and Genomes)由日本京都大学生物信息学中心的Kanehisa实验室于1995年建立,是一个整合了基因组、化学和系统功能信息的数据库。KEGG把从已经完整测序的基因组中得到的基因目录与更高级别的细胞、物种和生态系统水平的系统功能关联起来。除了对基因本身功能的注释,我们也知道基因会参与人体的各个通路,基于人体通路而形成的数据库就是通路相关的数据库。而KEGG就是通路相关的数据库的一种。其实通路数据库有很多,类似于wikipathway,reactome都是相关的通路数据库,但KEGG应用更多更被大家所熟知而已。

4 GO、KEGG关系?

GO和KEGG就是基于不同的分类思想而储存的基因相关功能的数据库。本质上两者就是两个数据库,含有有每个基因相关的功能信息。

5 为何进行GSEA

一般的差异分析(GO和Pathway)往往侧重于比较两组间的基因表达差异,集中关注少数几个显著上调或下调的基因,对于差异基因检出的阈值,异常的敏感,客户需要给出差异基因的一个明确的定义(阈值),例如abs(logFC) ≧2.0 & FDR ≦ 0.05,这容易遗漏部分差异表达不显著却有重要生物学意义的基因,忽略一些基因的生物特性、基因调控网络之间的关系及基因功能和意义等有价值的信息。而GSEA不需要指定明确的差异基因阈值,算法会根据实际数据的整体趋势, 为研究者们提供了一种合理地解决目前芯片分析瓶颈问题的方法,即使在没有先验经验存在的情况下也能在表达谱整体层次上对数条基因进行分析,从而从数理统计上把表达谱芯片数据与生物学意义很好地衔接起来,使得研究者们能够更轻松、更合理地解读芯片结果。

6 MSigDB(Molecular Signatures Database)

MSigDB(Molecular Signatures Database)分子特征数据库是一组带注释的基因集,可与 GSEA 软件一起使用。这是一组用于 GSEA 软件的带注释基因集,数据库中定义了已知的基因集合:http://software.broadinstitute.org/gsea/msigdb.

包括H和C1-C7八个系列(Collection),每个系列内容为:

MSigDB
分類 介紹
H: Hallmark Gene Set (效应)特征基因集合,共50组
C1: Positional Gene Set positional gene sets 位置基因集合,根据染色体位置,共299个
C2: Curated Gene Set 这里包含4729组gene sets,整合来自其他资料库如pubmet、reactome 、pathway database、BioCarta pathway database、KEGG gene sets等,(专家)共识基因集合,基于通路、文献等,共有5529个基因集,我们比较关注的是KEGG ,186个基因集。
C3: Motif Gene Set 模式基因集合,主要包括microRNA和转录因子靶基因两部分。总共3735个基因集。
C4: Computational Gene Set 计算基因集合,通过挖掘癌症相关芯片数据定义的基因集合。
C5: GO Gene Set Gene Ontology 基因本体论,包括BP(生物学过程biological process,细胞原件cellular component和分子功能molecular function三部分),这部分,我们也是比较关注的,所以能用GSEA分析就用GSEA。
C6: Oncogenic Signatures 癌症特征基因集合,大部分来源于NCBI GEO 未发表芯片数据。
C7: Immunologic Signatures 免疫相关基因集合。

7 Gene Set Enrichment Analysis (GSEA)

GSEA:基因集富集分析 (Gene Set Enrichment Analysis, GSEA) ,其基本思想是使用预定义的基因集(通常来自功能注释或先前实验的结果),将基因按照在两类样本中的差异表达程度排序,然后检验预先设定的基因集合是否在这个排序表的顶端或者底端富集。基因集合富集分析检测基因集合而不是单个基因的表达变化,因此可以包含这些细微的表达变化,预期得到更为理想的结果。


img
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 199,271评论 5 466
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 83,725评论 2 376
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 146,252评论 0 328
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 53,634评论 1 270
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 62,549评论 5 359
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 47,985评论 1 275
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,471评论 3 390
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,128评论 0 254
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,257评论 1 294
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,233评论 2 317
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,235评论 1 328
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,940评论 3 316
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,528评论 3 302
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,623评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,858评论 1 255
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,245评论 2 344
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 41,790评论 2 339

推荐阅读更多精彩内容