单细胞转录组分析中的各种数据结构

单细胞分析世界里数据结构多种多样,主流的四种数据结构分别是Bioconductor主导的SingleCellExperiment,Seurat中的SeuratObject格式scanpy中的AnnData格式,以及大型数据存储的loom格式。通常一种数据结构对应的内容可以包含所有的分析,例如seurat就可以一用到底,那么我们只要掌握好其中一种数据结构就基本够用,但也许这样就可能会错过其他比较好用的函数。为了更深入的了解更多好用的函数,就可以来看看各种数据结构的转换。[初学scrna-seq可能并不理解slot,slot我理解的就是一个一个集装箱,把这些集装箱装起来就是你的SeuratObject,集装箱内部又有不同的分块矩阵,需要你自己一点点加进去,使用的时候SeuratObject@slot$slot下的matrix(也可以用双中括号)@中slot下的第二层矩阵调用

各种数据结构的介绍

单细胞数据中每一个基因可以看做是单细胞的一个特征,因此单细胞数据中每一个细胞就有n个特征,在空间上可以看做是细胞具有的n个特征维度。

image

1、SeuratObject

单细胞数据中的常用对象是seurat对象,主要用在seurat包、monocle包等单细胞分析的R包中。seurat对象结构包含以下这些slots。



有人把seurat对象比作是流水线上的具有不同盒子的容器,经过不同的工序,会在不同的盒子里(slots)增加内容,而这部分工序就叫convertor,包括NormallizeData()、FindVariableFeeature()等,而在每一步工序中对数据进行监管,控制的工具就叫Inspector,包括VlnPlot(),pbmc[['RNA']]@data等。



例如构建一个seurat对象,那么在这个对象中包含哪些内容呢?
slot function
assays A list of assays within this object
meta.data Cell-level meta data
active.assay Name of active, or default, assay
active.ident Identity classes for the current object
graphs A list of nearest neighbor graphs
reductions A list of DimReduc objects
project.name User-defined project name (optional)
tools Empty list. Tool developers can store any internal data from their methods here
misc Empty slot. User can store additional information here
version Seurat version used when creating the objec

Assays:assays里有一个元素“RNA”,访问assays对象的内部结构可以直接跟中括号,例如pbmc[['RNA']]。slot下的第一层用[[]],第二层用@。例如pbmc[['RNA']]@data


1.1. 数据结构及内容

Assays

默认情况下,我们是对Seurat中的RNA的Assay进行操作。可以通过@active.assay查看当前默认的assay,通过DefaultAssay()更改当前的默认assay。
结构
counts 存储原始数据,是稀疏矩阵
data存储logNormalize()标准化的data。总表达式对每个单元格的要素表达式度量进行标准化,将其乘以比例因子(默认为10,000),并对结果进行对数转换
scale.data#存储 ScaleData()缩放后的data,此步骤需要时间久。

meta.data

元数据,对每个细胞的描述。一般的meta.data包括orig.ident, nCount_RNA, nFeature_RNA, 以及计算后的percent.mt,RNA_snn_res.0.5等


可以通过pbmc$percent.mtpbmc[['percent.mt']]来调用、操作

reduction

降维后的每个细胞的坐标信息,包括pca,tsne,umap等

1.2 对象操作

① 通过结构图上的@,$符号依次取

② 两个中括号操作,pbmc[[ ]]。

教程中,pbmc[['percent.MT']]向meta.data添加 percent.MT 这一列。
pbmc[[]],中括号取的是上面结构图中的二级数据名称

  • @和[[]] 两种方法的区别是?

如果取的一级结构(一级结构指slot)Assays的下属内容:
无差别

 > class(pbmc[['RNA']])
 [1] "Assay"
 attr(,"package")
 [1] "Seurat"
 > class(pbmc@assays$RNA)
 [1] "Assay"
 attr(,"package")
 [1] "Seurat"

如果是一级结构meta.data里的下属内容:
返回的数据类型不同

> class(pbmc[['nCount_RNA']])
[1] "data.frame"
> class(pbmc@meta.data$nCount_RNA)
[1] "numeric"

pbmc[['nCount_RNA']] 取出来,是所有细胞的nCount_RNA,包含细胞信息,数据框

pbmc@meta.data$nCount_RNA取出来的是单独nCount_RNA一列,是向量

image

如果取的一级结构里reductions的下属内容:

无差别

> class(pbmc[['pca']])
 [1] "DimReduc"
 attr(,"package")
 [1] "Seurat"
> class(pbmc@reductions$pca)
 [1] "DimReduc"
 attr(,"package")
 [1] "Seurat"

1.3seurat常用函数的应用

对象信息使用标准R函数可以快速轻松地获得有关Seurat对象的摘要信息。可以使用dimncolnrow函数找到对象的形状/尺寸。细胞和特征名称可以分别使用colnamesrownames函数或dimnames函数找到。通过使用names,可以找到Seurat对象中包含的AssayDimReducGraph对象的名称向量。

# The following examples use the PBMC 3k dataset
> pbmc
An object of class Seurat
 13714 features across 2638 samples within 1 assay
 2 dimensional reductions calculated: pca, tsne
# nrow and ncol provide the number of features and cells in the active assay, respectively
# dim provides both nrow and ncol at the same time
> dim(x = pbmc)
[1] 13714  2638
# In addtion to rownames and colnames, one can use dimnames
# which provides a two-length list with both rownames and colnames
> head(x = rownames(x = pbmc))
[1] "AL627309.1"    "AP006222.2"    "RP11-206L10.2" "RP11-206L10.9"
[5] "LINC00115"     "NOC2L"
> head(x = colnames(x = pbmc))
[1] "AAACATACAACCAC" "AAACATTGAGCTAC" "AAACATTGATCAGC" "AAACCGTGCTTCCG"
[5] "AAACCGTGTATGCG" "AAACGCACTGGTAC"
# A vector of names of associated objects can be had with the names function
# These can be passed to the double [[ extract operator to pull them from the Seurat object
> names(x = pbmc)
[1] "RNA"  "pca"  "tsne"

可以使用 "[[" 来提取特定的AssayDimReducGraph对象。还可以使用 "[[" 将新对象添加到Seurat对象中;Seurat将找出新的关联对象在Seurat对象中的位置。

> pbmc[['RNA']]
Assay data with 13714 features for 2638 cells
Top 10 variable features:
 PPBP, DOK3, NFE2L2, ARVCF, YPEL2, UBE2D4, FAM210B, CTB-113I20.2, GBGT1,
 GMPPA
> pbmc[['tsne']]
A dimensional reduction object with key tSNE_
 Number of dimensions: 2
 Projected dimensional reduction calculated: FALSE
 Jackstraw run: FALSE

使用GetAssayData函数可以从Seurat对象访问数据。可以使用SetAssayData将数据添加到countsdatascale.data插槽中。新数据必须具有与当前数据相同顺序的相同细胞。添加到counts'或data`中的数据必须具有与当前数据相同的features。

> GetAssayData(object = pbmc, slot = 'scale.data')[1:3, 1:3]
              AAACATACAACCAC AAACATTGAGCTAC AAACATTGATCAGC
AL627309.1       -0.06547546    -0.10052277    -0.05804007
AP006222.2       -0.02690776    -0.02820169    -0.04508318
RP11-206L10.2    -0.03596234    -0.17689415    -0.09997719
# SetAssayData example...

可以使用单个[或使用<article class="_2rhmJa"来访问细胞水平注释数据。尽管已经为它启用了制表符自动完成功能,使其成为交互式使用的理想选择,但是使用<article class="_2rhmJa"来访问意味着一次只能提取一点数据。也可以使用单个[或使用AddMetaData添加细胞水平注释数据。

# Cell-level meta data is stored as a data frame
# Standard data frame functions work on the meta data data frame
> colnames(x = pbmc[])
[1] "nGene"        "nUMI"         "orig.ident"   "percent.mito" "res.0.6"
# One can pull multiple values from the data frame at any time
> head(x = pbmc[c('nUMI', 'percent.mito')])
               nUMI percent.mito
AAACATACAACCAC 2421  0.030177759
AAACATTGAGCTAC 4903  0.037935958
AAACATTGATCAGC 3149  0.008897363
AAACCGTGCTTCCG 2639  0.017430845
AAACCGTGTATGCG  981  0.012244898
AAACGCACTGGTAC 2164  0.016643551
# The $ sigil can only pull bit of meta data at a time; however, tab-autocompletion
# has been enabled for the $ sigil, making it ideal for interactive use
> head(x = pbmc$percent.mito)
               percent.mito
AAACATACAACCAC  0.030177759
AAACATTGAGCTAC  0.037935958
AAACATTGATCAGC  0.008897363
AAACCGTGCTTCCG  0.017430845
AAACCGTGTATGCG  0.012244898
AAACGCACTGGTAC  0.016643551
# Passing `drop = TRUE` will turn the meta data into a names vector
# with each entry being named for the cell it corresponds to
> head(x = pbmc['res.0.6', drop = TRUE])
AAACATACAACCAC AAACATTGAGCTAC AAACATTGATCAGC AAACCGTGCTTCCG AAACCGTGTATGCG
           "0"            "2"            "0"            "1"            "5"
AAACGCACTGGTAC
           "0"
# Add meta data example

HVFInfo函数从Assay对象中提取特征均值和离散度。可变特征向量可以通过VariableFeatures函数提取。VariableFeatures也可以设置可变特征向量。

# HVFInfo pulls mean, dispersion, and dispersion scaled
# Useful for viewing the results of FindVariableFeatures
> head(x = HVFInfo(object = pbmc))
                     mean dispersion dispersion.scaled
AL627309.1    0.013555659   1.432845        -0.6236875
AP006222.2    0.004695980   1.458631        -0.5728009
RP11-206L10.2 0.005672517   1.325459        -0.8356099
RP11-206L10.9 0.002644177   0.859264        -1.7556304
LINC00115     0.027437275   1.457477        -0.5750770
NOC2L         0.376037723   1.876440        -0.4162432
# VariableFeatures both accesses and sets the vector of variable features
> head(x = VariableFeatures(object = pbmc))
[1] "PPBP"   "DOK3"   "NFE2L2" "ARVCF"  "YPEL2"  "UBE2D4"
# Set variable features example

可以通过Stdev找到Seurat对象中存储的DimReduc的标准差向量。

> Stdev(object = pbmc, reduction.use = 'pca')
 [1] 5.666584 4.326466 3.952192 3.638124 2.191529 1.996551 1.877891 1.798251
 [9] 1.766873 1.753684 1.731568 1.720525 1.718079 1.715879 1.707009 1.702660
[17] 1.697318 1.692549 1.686149 1.683967

可以通过以下方法找到Seurat类:

library(Seurat)
utils::methods(class = 'Seurat')

  • [
  • [<-
  • [[
  • [[<-
  • colMeans
  • colSums
  • Command
  • DefaultAssay
  • DefaultAssay<-
  • dimnames
  • dim
  • GetAssayData
  • GetAssay
  • HVFInfo
  • Idents
  • Idents<-
  • merge
  • names
  • SetAssayData
  • Stdev
  • subset
  • SubsetData
  • VariableFeatures
  • VariableFeatures<-
  • WhichCells
#数据准备
library(Seurat)
pbmc <- readRDS(file = "pbmc/pbmc3k_final.rds")
set.seed(42)
pbmc$replicate <- sample(c("rep1", "rep2"), size = ncol(pbmc), replace = TRUE) #随机给样本设置两个样本,分别为rep1,rep2,添加到metadata中。replace =T,有放回抽样
DimPlot(pbmc, reduction = "umap")

  • 切换细胞ident,简单统计各样本细胞cluster 频率信息
#切换细胞ident,从细胞名称转为样本rep1,rep2。绘图看批次性
pbmc$CellType <- Idents(pbmc)
Idents(pbmc) <- "replicate"
DimPlot(pbmc, reduction = "umap")
Idents(pbmc) <- "CellType" #转变回来,下一步使用
#查看不同样本、细胞名称的 细胞数量
table(Idents(pbmc))
table(pbmc$replicate)
prop.table(table(Idents(pbmc)))#计算每种细胞频率
table(Idents(pbmc), pbmc$replicate)#计算每个样本、每种细胞的数量
prop.table(table(Idents(pbmc), pbmc$replicate), margin = 2)#计算每个重复、每种细胞的频率,margin=2,按照列的值 频率和为1来计算。因为列是样本,每个样本的细胞频率和为1。
  • 选择特定细胞,取子集
#取子集的几种方法
subset(pbmc, subset = MS4A1 > 1)
subset(pbmc, subset = replicate == "rep2")
subset(pbmc, idents = c("NK", "B"))
subset(pbmc, idents = c("NK", "B"), invert = TRUE) # 提取除了NK,B细胞之外的细胞
WhichCells(pbmc, idents = "NK")# 返回是NK细胞的细胞名
  • 提取表达矩阵GetAssayData()
GetAssayData(object, slot, assay) # slot = counts, data, scale.data
GetAssayData(object = pbmc_small[["RNA"]], slot = "data")[1:5,1:5]#出来的是稀疏矩阵,所以用as.matrix()直接转换
##①从Assay中提取
d <- as.matrix(GetAssayData(object = pbmc_small[["RNA"]], slot = "data")[1:5,1:5])
#前五个基因和前五个细胞

##②从Seurat对象中提取
f <- as.matrix(GetAssayData(object = pbmc_small, slot = "counts")[1:5,1:5])

#提取NK细胞的表达矩阵,用于其他分析
nk.raw.data <- as.matrix(GetAssayData(pbmc, slot = "counts")[, WhichCells(pbmc, ident = "NK")]) #直接提取NK细胞的原始表达矩阵

  • 计算cluster内平均基因表达量AverageExpression()
cluster.averages <- AverageExpression(pbmc) #返回一个list元素的list。这个list元素是data.frame的list,cluster.averages$RNA$`Memory CD4 T`
head(cluster.averages[["RNA"]][, 1:5])

#将计算结果返回seurat用于下步骤计算【将空格替换成_,不然ggplot2会fail】
orig.levels <- levels(pbmc)#clusters
Idents(pbmc) <- gsub(pattern = " ", replacement = "_", x = Idents(pbmc))
orig.levels <- gsub(pattern = " ", replacement = "_", x = orig.levels)
levels(pbmc) <- orig.levels
##levels 和Ident的cluster名称里的空格都要改
cluster.averages <- AverageExpression(pbmc, return.seurat = TRUE)#计算结果存在 cluster.averages[['RNA']]@data 中, 是matrix
cluster.averages
CellScatter(cluster.averages, cell1 = "NK", cell2 = "CD8_T")
#添加样本作为细胞身份
cluster.averages <- AverageExpression(pbmc, return.seurat = TRUE, add.ident = "replicate")
CellScatter(cluster.averages, cell1 = "CD8_T_rep1", cell2 = "CD8_T_rep2")
DoHeatmap(cluster.averages, features = unlist(TopFeatures(pbmc[["pca"]], balanced = TRUE)), size = 3, draw.lines = FALSE) 

#TopFeatures中balanced的参数,看了帮助文档,没明白。试一下。 
#TopFeatures适用对象就是降维后的对象,单细胞测序中pbmc[['pca']]可用,试了下pbmc[["umap"]],报错。溢出边界。
> unlist(TopFeatures(pbmc[["pca"]], balanced = TRUE))
positive1  positive2  positive3  positive4  positive5  positive6  positive7 
"CST3"   "TYROBP"     "LST1"     "AIF1"      "FTL"     "FTH1"      "LYZ" 
positive8  positive9 positive10  negative1  negative2  negative3  negative4 
"FCN1"   "S100A9"     "TYMP"   "MALAT1"      "LTB"     "IL32"     "IL7R" 
negative5  negative6  negative7  negative8  negative9 negative10 
"CD2"      "B2M"    "ACAP1"     "CD27"   "STK17A"     "CTSW" 
> unlist(TopFeatures(pbmc[["pca"]], balanced = FALSE))
[1] "MALAT1"   "SPI1"     "IFITM3"   "SERPINA1" "LGALS2"   "CTSS"    
[7] "S100A8"   "LGALS1"   "CFD"      "FCER1G"   "TYMP"     "S100A9"  
[13] "FCN1"     "LYZ"      "FTH1"     "FTL"      "AIF1"     "LST1"    
[19] "TYROBP"   "CST3"  

2、AnnData

随着单细胞技术的发展,单细胞测序的技术门槛也越来越低,单细胞的数据呈几何倍数的增加,要分析大百万级细胞数量的单细胞样本,给依赖R分析的软件带来了一定的困难(由于R的存储方式的限制)。于是就有了python版的对象AnnData(scanpy模块):


image

可以通过 sc.pl.highest_expr_genes(adata, n_top=20)获取表达量top20的基因。

image

也可以通过对象处理对数据进行过滤

sc.pp.filter_cells(adata, min_genes=200) # 去除表达基因200以下的细胞 sc.pp.filter_genes(adata, min_cells=3) # 去除在3个细胞以下表达的基因

在anndata对象中对线粒体基因进行过滤,以及标准化数据和后续的差异分析及聚类的代码如下:

mito_genes = adata.var_names.str.startswith('MT-') 
adata.obs['percent_mito'] = np.sum( adata[:, mito_genes].X, axis=1).A1 / np.sum(adata.X, axis=1).A1 
adata.obs['n_counts'] = adata.X.sum(axis=1).A1
sc.pl.scatter(adata, x='n_counts', y='percent_mito') 
sc.pl.scatter(adata, x='n_counts', y='n_genes')

adata = adata[adata.obs['n_genes'] < 4000, :] 
adata = adata[adata.obs['percent_mito'] < 0.3, :]

#数据标准化
sc.pp.normalize_per_cell(adata, counts_per_cell_after=1e4)
sc.pp.log1p(adata)
sc.pp.highly_variable_genes(adata, min_mean=0.0125, max_mean=3, min_disp=0.5)
sc.pl.highly_variable_genes(adata)

##保留差异基因进行后续分析
adata = adata[:, adata.var['highly_variable']]
sc.pp.regress_out(adata, ['n_counts', 'percent_mito'])
sc.pp.scale(adata, max_value=10)
sc.tl.pca(adata, svd_solver='arpack') # PCA分析 sc.pl.pca(adata, color='CST3') #绘图

##碎石图,选择多少PCA进行后续分析,用于计算细胞间的相邻距离
sc.pl.pca_variance_ratio(adata, log=True)
adata.write("pca_results.h5ad")
聚类分析
sc.pp.neighbors(adata, n_neighbors=10, n_pcs=40) ##neighbor个数越多,聚类越少
sc.tl.umap(adata) 
sc.pl.umap(adata, color=['CST3', 'NKG7', 'PPBP'])
sc.tl.louvain(adata)
sc.pl.umap(adata, color=['louvain'])

由上也可以看出anndata对象具有切片特性,熟悉pandas的人,操作起来就很熟练。

3、loom

Loom是非常大的omics数据集的有效文件格式,由主矩阵、可选的附加层、可变数量的行和列注释以及稀疏的图形对象组成。我们使用loom文件存储单细胞基因表达数据:主矩阵包含实际的表达值(每个细胞一列,每个基因一行);行注释和列注释包含基因和细胞的元数据,例如名称、染色体、位置(对于基因)和品系、性别、年龄(对于细胞)。图对象用于存储用于基于图的聚类的最近邻图。

image

在这里附上loom处理的相关代码,以供大家参考:

##创建loom对象
library(Seurat) 
library(loomR) 
library(dplyr) 
pbmc_small_loom<-create(filename = "pbmc.small.loom",data = pbmc_small@assays$RNA@counts,overwrite = T)
 #这里也可以直接as.loom()
##查看loom文件中的信息
pbmc_small_loom pbmc_small_loom$matrix[1:6,1:6] pbmc_small_loom$col.attrs$CellID[1:6] pbmc_small_loom$row.attrs$Gene[1:6]
##提取loom中的信息:
pbmc_small_loom$get.attribute.df(MARGIN = 1,attributes = "Gene")[1:6,] pbmc_small_loom$get.attribute.df(MARGIN = 2,attributes = "CellID")[1:6,]
##添加信息
# Generate random ENSEMBL IDs for demonstration purposes 
ensembl.ids <- paste0("ENSG0000", 1:length(x = pbmc_small_loom$row.attrs$Gene[])) 
pbmc_small_loom$add.row.attribute(list(ensembl.id = ensembl.ids), overwrite = TRUE) pbmc_small_loom$get.attribute.df(MARGIN = 1)[1:6,]
##进行seurat操作
pbmc_small_seurat<-as.Seurat(pbmc_small_loom) pbmc_small_seurat<-NormalizeData(pbmc_small_seurat)%>%ScaleData()
##关闭loom
pbmc_small_loom$close_all()

操作loom结构时,一定注意关闭loom文件,否则再次读取的时候,就会有异常。

4、SingleCellExperiment

单细胞分析中的非常常用的S4对象,里面包罗万象,那么它是如何组织的?存储了什么内容?以下这张图片中就已经整体进行了展示说明。



图中最核心的部分,是蓝色的data部分;另外还有绿色的基因注释信息feature metadata、橙色的细胞注释信息cell metadata。除了这三大件,还会包含一些下游分析结果,比如PCA、tSNE降维结果就会保存在紫色的Dimension Reductions,现在Bioconductor上的70多个单细胞相关的R包都使用了这个对象,是单细胞分析中非常常用的一种数据结构。
SingleCellExperment对象又简称sce,就好比是一辆装了各种集装箱的大货车,每一个集装箱里装着不同的物资,每一个集装箱都有不同的数据接口(有的接口必须是数值型矩阵结构,有的就需要数据框结构),又都铆合在一起共同在货车上前进。也有人把这些对象结构比作是一个流水线,经过不同的步骤,传送带上的对象盒子里就装上了经过不同函数处理的独立又相互关联的数据内容,中间每一步的处理有画图函数和指标来进行质控。



创建一个sce对象只需要一个assays(试验),这个assay里包含一个元素,这个元素的内容是表达量的数据,行代表的是基因,列代表的是细胞或者样本。首先我们来创建一个矩阵,包含10个基因,3个细胞。
counts_matrix <- data.frame(cell_1 = rpois(10, 10), 
                    cell_2 = rpois(10, 10), 
                    cell_3 = rpois(10, 30))
rownames(counts_matrix) <- paste0("gene_", 1:10)
counts_matrix <- as.matrix(counts_matrix) 

有了这个矩阵,就可以用一个list构建SingleCellExperiment对象了。

#BiocManager::install('SingleCellExperiment')
sce <- SingleCellExperiment(assays = list(counts = counts_matrix))
>sce
## class: SingleCellExperiment 
## dim: 10 3 
## metadata(0):
## assays(1): counts
## rownames(10): gene_1 gene_2 ... gene_9 gene_10
## rowData names(0):
## colnames(3): cell_1 cell_2 cell_3
## colData names(0):
## reducedDimNames(0):
## spikeNames(0):
## altExpNames(0):

要获取这个对象中的矩阵,可以使用assay(sce,"count")也可以使用counts(sce),其中第一种方式也可以是其他名称的矩阵,而第二种方式只能获得为counts名称的矩阵。
构建好assays的核心后,可继续进行拓展,例如使用标准函数进行扩展,扩展到归一化的矩阵,例如:

sce <- scran::computeSumFactors(sce)
sce <- scater::normalize(sce)
> sce
## class: SingleCellExperiment 
## dim: 10 3 
## metadata(1): log.exprs.offset
## assays(2): counts logcounts
## rownames(10): gene_1 gene_2 ... gene_9 gene_10
## rowData names(0):
## colnames(3): cell_1 cell_2 cell_3
## colData names(0):
## reducedDimNames(0):
## spikeNames(0):
## altExpNames(0):

这个assays就从原来存储原始矩阵的counts,增加了一个归一化矩阵logcounts。这里对两个矩阵进行比较发现normalization这一步主要是去除细胞间或者样本文库间的差异,是所有的细胞或者样本具有了可比性。目前我们的sce对象中就有了2个元素。如果构建了新的矩阵也可以增加到sce对象中去。

assays(sce)
## List of length 2
## names(2): counts logcounts

除了有assays外,还有列的注释信息colData,列的注释信息通常就是细胞的注释信息,例如细胞名称或者样本名称、批次、作者等等,对应的上图中的橙色部分。首先我们来设置一个细胞批次的注释信息:

cell_metadata <- data.frame(batch = c(1, 1, 2))
rownames(cell_metadata) <- paste0("cell_", 1:3)

接着添加到sce对象中,通过直接构建的方式添加:

sce <- SingleCellExperiment(assays = list(counts = counts_matrix),
                           colData = cell_metadata)

也可以后续添加:

colData(sce) <- DataFrame(cell_metadata)

加入了sce对象后,可以通过colData(sce)来进行获取,或者sce$batch查看。

细胞注释的信息除了手动添加外,还可以通过scater包的calculateQCMetrics()进行计算,得到几十项细胞的质量信息,并添加进去。

sce <- scater::addPerCellQC(sce)
colData(sce)[, 1:5]
## DataFrame with 3 rows and 5 columns
##            batch       sum  detected percent_top_50 percent_top_100
##        <numeric> <integer> <integer>      <numeric>       <numeric>
## cell_1         1        80        10            100             100
## cell_2         1        88        10            100             100
## cell_3         2       309        10            100             100

rowData是行的注释信息,同细胞或者样本一样,基因也有自己的注释信息,它是一个数据框的结构。

 # 一开始rowData(sce)是空的,可以添加
 sce <- scater::addPerFeatureQC(sce)
 rowData(sce)

 ## DataFrame with 10 rows and 2 columns
 ##              mean  detected
 ##         <numeric> <numeric>
 ## gene_1    16.0000       100
 ## gene_2    14.3333       100
## gene_3    16.0000       100
## gene_4    18.6667       100
## gene_5    15.3333       100
## gene_6    16.6667       100
## gene_7    17.6667       100
## gene_8    13.0000       100
## gene_9    16.6667       100
## gene_10   14.6667       100

除了以上这些基本的,由于基因的注释信息是数据框的结构,因此可以按照位置或者名字来取子集,sce[c("gene_1","gene_2")]。另外还有reduceDims,用来存储原始矩阵的降维结构,可以通过PCA,tSNE和Umap获得。

SingleCellExperiment对象的兼容性强,可以用在多种单细胞分析的R包中作为输入或者中间文件,方便了对数据的传输和协作。

参考资料:

1、https://osca.bioconductor.org/data-infrastructure.html
2、https://bioc.ism.ac.jp/packages/3.6/bioc/vignettes/SingleCellExperiment/inst/doc/intro.html
3、https://satijalab.org/seurat/articles/essential_commands.html
4、http://linnarssonlab.org/loompy/format/index.html
5、https://satijalab.org/seurat/mca_loom.html
6、https://satijalab.org/seurat/articles/conversion_vignette.html
7、https://github.com/cellgeni/sceasy
8、https://www.bilibili.com/read/cv8675277
9 、https://www.jianshu.com/p/1f9fcb244d8e 作者:生信阿拉丁
10、https://www.jianshu.com/p/1422461cb84c 作者:麒麟991
11、https://www.jianshu.com/p/0c4bc6a932b2 作者:森尼啊

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
禁止转载,如需转载请通过简信或评论联系作者。
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 193,812评论 5 459
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 81,626评论 2 371
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 141,144评论 0 319
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,052评论 1 263
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 60,925评论 4 355
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,035评论 1 272
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,461评论 3 381
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,150评论 0 253
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,413评论 1 290
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,501评论 2 307
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,277评论 1 325
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,159评论 3 312
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,528评论 3 298
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 28,868评论 0 17
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,143评论 1 250
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,407评论 2 341
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,615评论 2 335

推荐阅读更多精彩内容