做肿瘤方向的同学们,现在CAR-T,PD1,TIL治疗这么火热,要不要试试你研究的肿瘤类型,是不是也涉及免疫细胞浸润?不需要复杂的代码,网页工具也能实现。
需要先明确几个概念。No.1,免疫浸润细胞。肿瘤组织虽然大部分是由肿瘤细胞组成,但不是100%纯肿瘤,目前已知的有基质细胞、成纤维细胞、内皮细胞还有目前最受关注的免疫细胞构成了肿瘤生长的舒适环境,不同肿瘤其微环境组成也各有特点,而冷肿瘤热肿瘤的概念就是根据肿瘤微环境中免疫细胞的种类和状态来判断,如果是热肿瘤就能预测到免疫治疗的效果会更好,所以搞清楚浸润免疫细胞的种类和状态对于进展评估还是很重要的。
No.2 bulk RNA-seq vs Single cell RNA-seq 既然肿瘤组织不纯,那么以前得到的组织表达谱或RNA-seq数据就包含了肿瘤和微环境细胞共同表达的结果,这种传统的用一整块组织做转录组测序叫bulk tissue RNA-seq,获取的结果可以说理解成一份水果拼盘,而现在最时髦的单细胞测序就是在技术水平上实现了分离细胞,最后得到的结果相当于每块水果都独占一个盘(所以贵啊啊啊~)。But!****Deconvolution**反卷积**算法(不懂....)可以根据先验背景也就是已知每种细胞类型对应的表达特征,来解析整体表达的可能成分,这样我们就能从原来的水果拼盘里大致猜到有几种主要组成,这样离高大上的单细胞seq又近了一步,想想就激动呢
能实现这种算法的工具也有很多了,有要介绍的网页工具,也有用R实现的包,下面介绍如何实现这样神奇的功能,不需要下软件,网站在线操作,其实很简单。Cibersort https://cibersort.stanford.edu/
使用方法很简单,先用教育邮箱注册,在menu下拉菜单选择upload files,上传需要分析的数据,在cibersort里称做mixture file。
数据有格式要求,列名自定义的样本名称,行名基因名称或者探针名称,这里推荐用基因名称,因为探针存在通过实验平台注释文件与基因名称转换的问题,所以直接自己转换好更保险一些,具体转换方式可以通过GEO平台注释文件用EXCEL或者R实现。每个单元格就是对应的表达值,已经从对数转化为原始表达值。
选择背景表达数据,cibersort里称作signature genes file,就是已知的每种细胞类型对应的各基因表达数据,cibersort提供了22种常见的免疫浸润细胞表达数据LM22,如果使用cibersort的LM22,那么只上传mixture file就可以。如果需要额外制作自己的signature file,格式与mixture一样。还是需要注意基因名称的问题,使用LM22的话上传的mixture需要使用HUGO基因名称,与LM22的平台注释信息保持一致。自己制作signature就与mixture保持一致。
在upload并保存命名之后来到menu下拉的run cibersort,在对应的mixuture 和signature找到上传好的文件,计算参数推荐先使用默认,RNAseq数据选择disable quantile normalization模式,然后就可以愉快的run啦~
在线运行一会儿结果就出来,可以看到样本对应的22种免疫浸润细胞的热图和柱状图,输入的样本之间是不是在某种细胞分布上存在差异,右上角可以下载分布数据的各种格式,会R的小伙伴可以用原始数据进一步做图比如箱线图,差异一目了然。
还有另外两个网站 Timersort 和EPIC,使用方法和结果呈现都类似就不具体介绍了,三者之中Cibersort提供的背景免疫浸润细胞最全面。
我在尝试用免疫细胞以外的已知细胞类型的scRNA-seq做背景解析bulk tissue RNA-seq,想用cibersort方法,也想尝试最近文献新发表的R包,一个叫MuSiC和scBio,正在试用中,希望有经验的小伙伴一起交流一下~~