之前我们已经和大家分享过如何上传GEO数据,同样,我们也可以从公共数据库下载其他研究者的数据进行分析,探寻自己感兴趣的研究方向。这种通过对现有公共数据挖掘数据进行分析的研究方式目前正是生物信息分析的热门领域。GEO数据库储存着海量的二代测序数据(特别是转录数据)和芯片数据,就像一座“藏宝山”,我们可以通过挖掘前人研究数据,提取相关研究结果,构建自身研究方向的基础架构,再辅以“湿实验”验证或针对性的其他组学测序分析,最后解决自身研究方向的复杂问题。那么接下来小诺将为大家带来全套的GEO数据挖掘系列教程,包括五步:
搜寻数据集及下载数据 差异分析--->差异表达基因 --->五大数据库注释--->蛋白互作等网络和通路注释
今天先为大家分享第一步“数据下载”,以便后续挖掘感兴趣的基因及构建通路。
首先我们可以需要先寻找贴合我们研究方向的论文所使用的数据集,下载里面的GPL文件和表达矩阵“series matrix”做基因的表达分析;再依据包含样本生存数据的临床特征数据集,去做生存性分析。
在进入GEO数据库官网前,需要先理解一下GEO的数据编号含义:
一篇文章可能包含至少一个GSE数据集,一个GSE数据集里面可能包含至少一个GSM样本。多个研究的GSM样本根据研究目的会整合为一个GDS,不过GDS运用的很少。而每个数据集都有着对应的芯片平台,就是GPL。
通过网页下载:
首先,登录GEO官网 https://www.ncbi.nlm.nih.gov/geo/,在右侧的搜索框输入一个GSE号,我们以gse21933为例,在搜索栏输入后点search进行检索。
检索后会进入Accession Display界面,里面包含着这个GSE数据的基本信息,如:标题、物种、研究概要、作者、样本描述、测序平台等等,当然还有我们最需要的原始数据。
上图可知道,这组数据包含的是肺癌与正常组织的基因表达图谱,我们想从这组数据中寻找差异基因,需要三个文件:原始文件、表型文件、注释文件。
1.原始文件,这里面储存的是每个样本中各个基因的表达量页面底部会提供原始数据,如图所示,点击http下载即可,文件是tar格式,下载下来以后需要解压缩。
2.表型文件,该文件备注每个样本是属于正常组还是癌症组,想要比较肿瘤和正常样本的区别,我们需要知道每组里面都是样本类型;
这里存储的是样本基因表达量信息;Series Matrix File,(基因表达量矩阵)
3.注释文件,因为原始数据处理得到的差异基因是以探针号表示的,我们需要知道这些探针号代表的基因是什么,这就需要用到注释文件。
有了这三类数据后,就相当于获得了 “烹饪”的原材料,之后便可以对这组数据进行“煎炒炸炖”,依据自己的需求和研究方向进行个性化的数据挖掘。
通过R包下载:
通常来说,数据挖掘之所以叫“挖掘”是因为需要在海量的数据内,通过检索收集才可以整合出可用信息从而满足我们研究目标。因此这里将介绍一项用于GEO数据下载的利器GEOquery,它是由Davis开发的一款针对下载GEO数据库的R包,目前在R开源网站bio-conductor内,运用它可以简单高效的下载所需的GEO数据。
如何使用GEOquery下载:
调用:
getGEO函数会加载GSE的matrix文件,默认会下载其注释探针信息,并对表达矩阵中的探针予以注释,但往往注释文件比较大,会出现parse保存的问题,所以一般建议把注释关掉了:getGPL=F,然后在后续分析步骤里进行手动注释。
我们下载了这些数据,就走完了第一步 “下载数据”,大家如果想了解更多后续个性化分析,请持续关注诺禾致源“GEO数据挖掘”系列文章,每周一个实用干货带您了解上手生信分析。