GEO数据库基础知识
- GEO Platform (GPL) 芯片平台
- GEO Sample (GSM) 样本ID号
- GEO Series (GSE) study的ID号
- GEO Dataset (GDS) 数据集的ID号 ## 用法
三篇老大参考链接
2.http://www.bio-info-trainee.com/bioconductor_China/software/GEOquery.html
3.http://www.bio-info-trainee.com/1085.html
GEO包下载:
source("http://www.bioconductor.org/biocLite.R")
biocLite("GEOquery")
library(GEOquery)
options(warn=-1)
suppressMessages(library(GEOquery))
gds858 <- getGEO('GDS858', destdir=".")
names(Meta(gds858))
Table(gds858)[1:5,1:5]
library(GEOquery)
if(!file.exists(f)){
gset <- getGEO('GSE76275', destdir=".",
AnnotGPL = F, ## 注释文件
getGPL = F) ## 平台文件
save(gset,file=f) ## 保存到本地
}
load('GSE76275_eSet.Rdata') ## 载入数据
class(gset)
length(gset)
class(gset[[1]])
a=gset[[1]] ## 降级提取a
dat=exprs(a) ## 获取表达矩阵
dim(dat)
dat[1:4,1:4]
pd=pData(a) 使用函数?pData获取样本临床信息(如性别、年龄、肿瘤分期等等)
trait=pd[,51:53]
head(trait)
trait$T=substring(trait[,2],2,2)
trait$N=substring(trait[,2],4,4)
trait$M=substring(trait[,2],6,6)
colnames(trait)=c('age','tmn','bmi','T','M','N')
head(trait)
save(trait,file='trait.Rdata')
group_list = ifelse(pd$characteristics_ch1.1=='triple-negative status: not TN',
'noTNBC','TNBC')
table(group_list)
save(dat,group_list,file = 'step1-output.Rdata')
dat
dat[1:4;1:4]
trait=[ ,51:53]
head(trait)
trait=pd[,51:53]
head(trait)
trait$T=substring(trait[,2],2,2)
trait$N=substring(trait[,2],4,4)
trait$M=substring(trait[,2],6,6)
colnames(trait)=c('age','tmn','bmi','T','M','N')
head(trait)
save(trait,file='trait.Rdata')
group_list = ifelse(pd$characteristics_ch1.1=='triple-negative status: not TN','noTNBC','TNBC')
table(group_list)
save(dat,group_list,file = 'step1-output.Rdata')
以上第一步结束了,生成“step-output.Rdata文件”