单细胞转录组学习笔记-5-熟悉文献作者提供的两个表达矩阵

刘小泽写于19.6.17-第二单元第三讲：熟悉文献作者提供的两个表达矩阵

笔记目的：根据生信技能树的单细胞转录组课程探索smart-seq2技术相关的分析技术
课程链接在：http://jm.grazy.cn/index/mulitcourse/detail.html?cid=53

过滤后的操作

上次得到的dat表达矩阵过滤掉低表达基因后，剩下12198个基因

看看其中的spike-in情况

> grep('ERCC',rownames(dat))
 [1] 12139 12140 12141 12142 12143 12144 12145 12146 12147 12148 12149 12150
[13] 12151 12152 12153 12154 12155 12156 12157 12158 12159 12160 12161 12162
[25] 12163 12164 12165 12166 12167 12168 12169 12170 12171 12172 12173 12174
[37] 12175 12176 12177 12178 12179 12180 12181 12182 12183 12184 12185 12186
[49] 12187 12188 12189 12190 12191 12192 12193 12194 12195 12196 12197 12198

关于ERCC可以看这篇文章：Power Analysis of Single Cell RNA-Sequencing Experiments http://biorxiv.org/content/early/2016/09/08/073692

另外还有一篇文献讲ERCC的评价：Evaluation of the External RNA Controls Consortium (ERCC) reference material using a modified Latin square design https://bmcbiotechnol.biomedcentral.com/articles/10.1186/s12896-016-0281-x

以及这一篇：究竟什么是spike-in，怎么用它？The Overlooked Fact: Fundamental Need for Spike-In Control for Virtually All Genome-Wide Analyses https://mcb.asm.org/content/36/5/662

小故事

2003年一个负责制定科技标准的组织National Institute of Standards and Technology (NIST) 开了一个会，想要设立通用的RNA参考物，在基因表达定量时可以使用(就是怎么去判断基因高表达还是低表达，需要一个标准线)。然后它资助并参与建立了External RNA Controls Consortium (ERCC) 这个联盟，目的就是干这件事。ERCC成立后，做了一个事就是：测了176个可以转录的DNA序列作为一个对照文库(在这篇文献有介绍：https://bmcgenomics.biomedcentral.com/articles/10.1186/1471-2164-6-150)，编号ERCC-00001到ERCC-00176。利用芯片和荧光定量进行评价和筛选，看看实验和测序平台得到的定量结果是否一致，最终筛选出96个序列。每一条序列可以保证在一次实验的所有样本中的表达量都是一致的。
好，那么它究竟是什么？

https://www.thermofisher.com/order/catalog/product/4456740
首先要知道spike-in是已知浓度的外源RNA分子。在单细胞裂解液中加入spike-in后，再进行反转录。最广泛使用的spike-in是由External RNA Control Consortium （ERCC）提供的。目前使用的赛默飞公司提供的ERCC是包括92个不同长度和GC含量的细菌RNA序列，因此它和哺乳动物转录组不同，主要体现在转录本长度、核苷酸成分、polyA长度、没有内含子、没有二级结构。polyA尾大约15nt（一般保守的内源mRNA的polyA尾有250nt）。用它是为了更好地估计和消除单细胞测序文库的系统误差(除此以外，还有一种UMI在10X中常用)。ERCC应该在样本解离后、建库前完成添加。
能干什么？
- 评价准确性Accuracy：定量结果和已知的spike-in相关性如何
- 评价敏感性Sensitivity：最少需要多少数量的RNA分析才能检测到spike-in的存在
- 在这篇文章中(https://f1000research.com/posters/6-434#)，提到了：加入的ERCC保持一个浓度，在这个浓度下，如果有超过50%的ERCC在所有样本中都能检测到，就说明这个基因可以被检测到。
- 高ERCC含量与低质量数据相关，通常是排除的标准。（ftp://ftp.sanger.ac.uk/pub/resources/theses/aak/chapter3.pdf）这本书中第97页写到：Each cell was spiked with exactly the same amount of ERCCs and thus the ratio of reads mapping to ERCCs to reads mapping to all mouse genes depends only on the amount of transcripts in the cell and the higher it is the lower mRNA content of the cell.
  
  另外https://scrnaseq-course.cog.sanger.ac.uk/website/cleaning-the-expression-matrix.html也有提及：
  
  如果ERCC的reads数很高，则表示起始内源性RNA总量低（可能发生了细胞凋亡或者其他胁迫因素导致的RNA降解；另外还可能是细胞体积小，一般来讲小细胞比大细胞有更高比例的ERCC）。
存在的问题：

其实是否要加spike-in目前还是存在争议的：Spike-ins的使用浓度通常很高，因此会占据很大比例的测序reads；ERCC的捕获效率要低于内源mRNA(Svensson et al., 2017)；ERCC会显示高的技术误差，某些情况下会比内源mRNA的表达量更高；另外spike-in的定量会受生物学因素的影响，这会影响它作为对照的可信度

去除细胞文库大小差异

每个细胞测得数据大小不同，这样是没办法看高表达还是低表达的，必须先保证基数一样才能比较，cpm（counts per million）这个算法就是做这个事情的。

cpm是归一化的一种方法，代表每百万碱基中每个转录本的count值

注意：这个算法只是校正文库差异，而没有校正基因长度差异。要注意我们分析的目的就是：比较一个基因在不同细胞的表达量差异，而不是考虑一个样本中不同两个基因的差异，因为"没有两片相同的树叶”这个差异是正常的。但是同一个基因由于某种条件发生了改变，背后的生物学意义是更值得探索的。

用起来很简单，有现成的函数cpm() ，然后我们再用log将数据降个维度，但保持原有数据形状不变：log2(edgeR::cpm(dat)+1)

意思就是：cpm需要除以测序总reads数，而这个值作为分母会导致结果千差万别，有的特别大有的很小。为了后面可视化不受极值的影响，用log转换一下可以将数值变小，并且原来大的数值最后还是大，并不改变这个现实

那么具体这个函数做了什么事，才是真正需要了解的：

# 先看看前4行4列的数据
>   dat[1:4,1:4] 
              SS2_15_0048_A3 SS2_15_0048_A6 SS2_15_0048_A5 SS2_15_0048_A4
0610007P14Rik              0              0             18             11
0610009B22Rik              0              0              0              0
0610009L18Rik              0              0              0              0
0610009O20Rik              0              0              1              1
# 比如先计算一下第三个样本的总测序量
> sum(dat[,3])
[1] 206831 #结果是0.2M
# 那么对于第三个样本SS2_15_0048_A5的第一个基因0610007P14Rik(结果是18)
# 计算它的cpm值：count值*1000000/总测序reads
> 18*1000000/206831
[1] 87.02757
# 和标准公式比较看看，结果完全相同
> edgeR::cpm(dat[,3])[1]
[1] 87.02757
# 因此最后就是
dat=log2(edgeR::cpm(dat)+1)

归一化后聚类

第一步：理解dist函数

首先理解，它是计算距离用的，正如函数名称所描述的一样：distance

# 先构建一个测试矩阵
x=1:5
y=2*x
z=52:56
tmp=data.frame(x,y,z)
> tmp
  x  y  z
1 1  2 52
2 2  4 53
3 3  6 54
4 4  8 55
5 5 10 56
# 可以看到，x和y是有一定相关性的，而z和它们很难扯上关系
# 然后尝试计算x、y、z之间的距离，来验证我们的猜想
>   dist(tmp)
         1        2        3        4
2 2.449490                           
3 4.898979 2.449490                  
4 7.348469 4.898979 2.449490         
5 9.797959 7.348469 4.898979 2.449490
# 好像得到的不是我们想要的。我们想要的是x、y、z距离结果，而计算给出的是以"行"为单位的结果
# 因此，猜测dist应该是以行为输入。因此修改一下tmp，让x、y、z为行，其实也就是转置一下，转置函数用t()
>   dist(t(tmp))
           x          y
y   7.416198           
z 114.039467 107.377838

同样的，我们这里的dat数据，是要计算细胞间的距离，也就是列与列之间的距离，使用dist(t(dat)) 计算。数据中有768个细胞，也就是要计算768个细胞核768个细胞之间的距离，计算量还是很大的。

关于dist计算距离的方法：主要有6种：”欧式euclidean”, “切比雪夫距离maximum”, “绝对值距离manhattan”, “Lance距离canberra”, “定型变量距离binary” or “明可夫斯基距离minkowski（使用时要指定p值）”。

默认使用第一种欧氏距离，它计算的是：几何空间中两点之间的距离。思想类似于勾股定理求第三条斜边的长度=》平方和再开方。

第二步：理解hclust函数

它是进行层次聚类（系谱聚类）的方法

关于hclust聚类的方法：”离差平方和法ward”, “最短距离法single”, “最长距离法complete”,”类平均法average”, “相似法mcquitty”, “中间距离法median” or “重心法centroid”。默认使用complete算法

hc=hclust(dist(t(dat))) 
# 如果要进行可视化
plot(hc,labels = FALSE) #labels这个选项的意思是不显示各个样本名称，因为样本太多，会让图看起来很乱

可以看到大体分了4群

另外hclust函数还有一个亲戚：cutree，顾名思义，就是对聚类树进行修剪。我们知道聚类结果是分群的，cutree就是指定输出哪些群(结果是从大群到小群排列)

# 例如要看看分的4大群
clus = cutree(hc, 4)
group_list= as.factor(clus) #得到的这个因子型变量group_list中样本顺序和输入的顺序一致，并且属于第几类都有记录
>   table(group_list) 
group_list
  1   2   3   4 
312 300 121  35

提取批次信息

在上一步操作结果中，可以看到，样本名都是有规律的，例如：

> head(colnames(dat))
[1] "SS2_15_0048_A3" "SS2_15_0048_A6" "SS2_15_0048_A5" "SS2_15_0048_A4"
[5] "SS2_15_0048_A1" "SS2_15_0048_A2"

其中SS2_15都是一样的，Pxx也不需要管，重要的是中间的0048、0049，表示两个384孔板编号

那么如何提取？

使用strsplit函数，strsplit(x, split, fixed = FALSE) ，需要注意两点：

字符串切分后，返回的是一个列表，如果要再还原成字符串，需要用unlist()

默认情况下它是使用正则表达式的，如果不想用，可以指定fixed = TRUE

> unlist(strsplit("a.b.c", "."))
[1] "" "" "" "" ""
> unlist(strsplit("a.b.c", ".", fixed = TRUE))
[1] "a" "b" "c"

# 方法一：纯base包(思路就是：将拆分得到的list变成数据框)
options(stringsAsFactors = F)
plate=do.call(rbind.data.frame,strsplit(colnames(dat),"_"))[,3] 
# 方法二：stringr包
library(stringr)
plate=str_split(colnames(dat),'_',simplify = T)[,3]

最后新建细胞的属性信息

主要使用cutree剪下来的层次聚类信息、细胞板批次信息、每个样本的基因表达信息

前两个已经具备，下面进行第三个：每个样本的基因表达信息

# 还记得之前对基因进行过滤时，我们是对行进行操作
apply(a,1, function(x) sum(x>1) > floor(ncol(a)/50))
# 这里检测每个样本中有多少基因是表达的，count值以1为标准，rpkm值可以用0为标准
n_g = apply(a,2,function(x) sum(x>1))
# 对于单细胞转录组，一般会有超过半数的基因不会表达(这个在下面构建完数据框还可以再看一下)

可以构建数据框了：

meta=data.frame(g=group_list,plate=plate,n_g=n_g)
# 然后再添加一列，目前用不到，后续会介绍
meta$all='all'

可以看到细胞中检测到表达的基因最多有7372个，最少才几十个，而我们总共有12000多个基因

最后编辑于：2019.07.07 10:35:51

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 203,456评论 5赞 477
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,370评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 150,337评论 0赞 337
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,583评论 1赞 273
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,596评论 5赞 365
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,572评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,936评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,595评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,850评论 1赞 297
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,601评论 2赞 321
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,685评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,371评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,951评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,934评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,167评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 43,636评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,411评论 2赞 342