跟着运来兄搭建自己的生物信息小书房。趁年轻,读几本硬书,到老了慢慢反刍。
如果让我推荐一本比较全面的单细胞数据分析教材,我想会是《Computational-method-for-single-cell-data-analysis》。在2019年刚出版没多久的时候,就有趁着一次在中科院的生物信息会议之后,打印了这本书(仅作个人学习之用)。
本书谈及单细胞数据分析深入浅出,一大特色是实操性很强,每一节都有代码示例。现在再翻看这本书,一个体会是:很多分析工具其实早就为我们做好了,不必为工具的不断迭代而纠结。身处哪个时代,我们就用那个时代的工具来分析我们的数据。另一个体会是:虽然工具不断迭代,但是生物学问题是不变的,比如如今我们还是会问:细胞类型和细胞状态的区别到底是什么?连续中包含着离散吗?
全书以单细胞数据质控开始,以空间数据分析结束。完整介绍了单细胞数据分析的流程:
- 质控
- 均一化
- 高变异基因
- 细胞类型鉴定
- 稀有细胞类型
- 小鼠细胞图谱
- 通路分析
- 拟时序分析
- 基因共表达网络
- 单细胞等位基因
- 单细胞可变剪切
- 单细胞表观
- 单细胞抗体
- 空间转录组
借题发挥一下,这里分享一番读者本人对单细胞数据分析中的数据质控的基本看法。这一部分是大部分入门单细胞数据分析第一个要面临的困惑:nFeature/mt 的阈值到底设置多少是合适的,5%,15%还是25%?单细胞的数据质控到底有没有一个统一的标准?
答案是还没有。
为啥呢?
这就要回到单细胞这项技术解决的基本生物学问题上来:他回答的就是组织内细胞的异质性,什么叫异质性?另一个名字叫:不一样。
以线粒体基因的表达为例,一开始人们认为线粒体基因表达量高的细胞状态不好,可能濒临死亡,这些细胞需要去除。随着研究的深入,我们发现有些细胞类型线粒体基因表达量确实比一般的细胞高,比如神经细胞。退一步讲,濒临死亡的细胞就不值得被研究了吗?一些肿瘤组织的线粒体基因确实较高呀,你按照5%的阈值去卡,10000个细胞还剩下200个。
再以细胞周期为例,在一些单细胞数据分析教程里演示了如何回归掉细胞周期对分群的影响,得出的结论是:你看我对细胞周期进行了回归,这样细胞图普就正常多了。然而,当我们研究的是肿瘤细胞的话,这样的回归是否有必要呢?肿瘤的一个特色就是细胞周期失控,一些细胞周期调控基因表达量很高。
另一方面,在数据分析的实践中,我们从一个表达矩阵中删除细胞、亚群、基因是一件很好操作的事情。但是如果在条件还不是那么明朗的情况下就贸然删除掉某些细胞,再想把他们加回来就不好操作了:很多分析需要重新做。更重要的是:很多事,一旦错过了,就不再。
所以单细胞数据质控的一个基本原则是什么:
You cannot stop it if you cannot see it
特别在刚读入数据的那个晚上,对手里的数据局势还不是很明朗,不能以莫须有的名义删除我们花了大贵价钱测来的细胞或者基因。说人话就是:在最开始的数据质控中,我们可以把质控条件设置的宽一些。然后再根据数据分布特征(如小提琴图)或者基因通路来判断某些亚群的去留。总结起来就是:
- 具体问题具体分析
- 数据质控有理有据
回到咱们这本书上来,印象最深的内容有郭老师参与写作的scMCA: A Tool to Define Mouse Cell Types Based
on Single-Cell Digital Expression这一章,介绍了小鼠细胞图谱以及如何利用它来做细胞类型的鉴定,也是在那个时候开始follow这个团队。
直到现在,我还在是不是翻看这本书,每有会意往往有得。
这几年单细胞数据朝着多组学、高通量的方向发展,单细胞数据分析也沉淀一些经典的分析工具,同时也出现一些新兴的实践。不变的是我们不断对生物学问题的探索和追问,让我们一起在这个快速发展的领域:荷道以躬,舆之以言。