单细胞scRNA-seq学习笔记3-数据预处理
课程学习生信技能树单细胞转录组(基础)
课程分析的示例文章来自:
2018年12月的NC文章:Spatially and functionally distinct subclasses of breast cancer-associated fibroblasts revealed by single cell RNA sequencing
附件在:https://static-content.springer.com/esm/art%3A10.1038%2Fs41467-018-07582-3/MediaObjects/41467_2018_7582_MOESM1_ESM.pdf
利用Smart-seq2探索癌症成纤维细胞CAFs的功能和空间异质性
看一篇文章的时候,里面会有很多词语是陌生的,这时就需要去了解背景知识
研究背景
传统的肿瘤研究是单纯以肿瘤细胞为中心,但是过去的几十年中研究者对肿瘤微环境与恶性表征的联系越来越重视。探索肿瘤细胞与微环境的相互作用为靶向治疗提供了新方向。本文的目的是利用可以寻找更多基因的smart-seq2技术对小鼠乳腺癌CAFs的亚群进行鉴定,展示了时空分布情况;还探究了人类与小鼠CAFs亚型一致性,为未来靶向CAFs药物研发或诊断标志物筛选提供基础。
名词解释
CAF(cancer-associated fibroblast):
国际肿瘤学杂志 :癌症相关成纤维细胞是数量最丰富的基质细胞,在肿瘤微环境中通过细胞与细胞间相互接触,并在各种可溶性因子的作用下,促进上皮细胞及其他细胞恶性转化。目前发现,它在许多癌症(包括乳腺癌、胰腺癌、肝癌)的微环境中最常见。
它是具有高度的异质性的细胞群,不同的细胞亚群可能起源于不同的前体细胞,如固有成纤维细胞、肿瘤上皮细胞、肿瘤内皮细胞、骨髓来源细胞、其他间充质细胞等。
它在肿瘤形成中的作用:
- 重塑纤维间质中的细胞外基质
- "草船借箭"=》细胞外基质蛋白与非肿瘤细胞(如免疫细胞)的整合素受体结合,将细胞外基质蛋白募集到肿瘤细胞处,发生相互作用,继而诱导肿瘤细胞转移侵袭
- 高密度细胞外基质导致组织间隙液压升高,阻碍药物传递与吸收
- CAFs以细胞因子和生长因子的形式分泌致瘤信号,促进癌细胞生长、增殖、迁移
- CAFs分泌肝细胞生长因子(HGF)、白介素-6(Interleukin-6,IL-6),促进肿瘤对化疗、酪氨酸激酶抑制剂产生抗药性
关于它的综述:The biology and function of fibroblasts in cancer.
TME(Tumor Microenvironment):肿瘤微环境,包括了肿瘤细胞、基质细胞(如成纤维细胞)、免疫细胞、细胞的分泌产物(如细胞因子和趋化因子)、细胞外基质(ECM)、肿瘤和非肿瘤细胞代谢产物(如过氧化氢)、特定生理环境(供养、ph条件、间质压),肿瘤在TME中就像汽车与停车场的关系。
2018年cell文章Single-Cell Map of Diverse Immune Phenotypes in the Breast Tumor Microenvironment. 介绍了单细胞测序在研究乳腺癌微环境的应用,分析了来自8个乳腺瘤以及匹配的正常乳腺组织,血液和淋巴结中的45,000个免疫细胞,做了一个乳腺癌肿瘤微环境免疫细胞图谱。
ECM(extracellular matrix):细胞外基质。是由细胞合成、分泌的生物大分子在细胞表面或细胞之间构成的复杂网络结构,主要有4大类:胶原、非胶原糖蛋白、氨基聚糖与蛋白聚糖、弹性蛋白。肿瘤中,细胞外基质蛋白的表达谱显著区别于正常组织。实体肿瘤的发生发展过程伴随结缔组织的增生与纤维化;肿瘤中细胞外基质的动态改变不仅体现在细胞外基质蛋白的表达水平与相对组成的改变,同时还表现为细胞外基质空间拓扑结构与刚性等物理学性质的改变
参考:细胞外基质与肿瘤相关成纤维细胞
EMT( epithelial-to-mesenchymal transition):指的是上皮型细胞在特定生理条件下向间质型细胞表型转变。恶性肿瘤经常伴随转移,这个过程是一个多因素、多阶段的复杂过程。通常认为EMT会导致上皮细胞的E-cadherin、claudin、occludin等连接分子表达缺失, 破坏细胞极性;另外会促使使一些参与细胞外
基质(主要包括胶原、层黏素和纤维结合素等)和基底膜降解和破坏的溶解酶如基质金属蛋白酶高表达,破坏肿瘤细胞侵袭的组织屏障。
参考:上皮–间质转化: 肿瘤转移的重要调控机制
MMTV-PyMT mouse model: 自发型肿瘤模型小鼠=》遗传育种保留下来的带有自发型乳腺癌的动物模型,与人类的发生相似,重复性公认性较好
FACS strategy:即 流式细胞分选技术。不得不看看单细胞分离技术的知识,单细胞分离主要依据单细胞的表型与生物标记物,来筛选完整的单个细胞,主要的分选方法有:有限稀释法(Limiting Dilution)、显微操作(Micromanipulator)、激光显微切割(LCM)、流式细胞分选(FACS)、微流控技术(Microfluidics)。
FACS是比较常用的方法,它可以获得随机样品,可以利用荧光标记的抗体获得细胞表面特异marker的细胞亚群,进而探究细胞亚群。允许将细胞分选到96或384孔板中进行后续的单细胞测序,但是FACS需要较大的细胞量,并且会出现一孔多个或一孔没有细胞的现象;
另外,显微操作可以在特定位置对少量细胞进行获取,但是它耗费人力,高通量受限;微流控可以对整个分选过程进行监测,但是依赖固定的微流控芯片
Smart-seq2: 提到单细胞不得不说这个技术,目前它和10X是最主流的建库技术。它的重点是"测的少,但测得长“。它以单个细胞或10pg的RNA为模板,将Oligo(dT) VN Primer作为逆转录引物,利用逆转录酶的模板转换(Template-switching)活性,在cDNA的3’端添加一段接头序列,通过该接头序列进行后续PCR扩增,可以获得全长cDNA扩增产物。它对RNA质量要求高,RNA降解对引起5’端信息丢失
结果
揭示小鼠乳腺癌CAFs亚群
采用负向筛选的FACS去除上皮细胞、免疫细胞、内皮细胞和周细胞,从MMTV-PyMT转基因小鼠肿瘤组织样本中分选出EpCAM−/CD45−/CD31−/NG2−细胞类群(共构建了2个384孔板细胞=768个CAFs文库)
然后smart-seq2测序,加入ERCC spike-in,结果有52个质量不合格,然后去掉了细胞中平均表达量小于1的基因,得到了10835个内源基因和53个spike-in去做下游分析。平均每个细胞得到4600个差异基因,然后进行降维,利用DBSCAN进行t-SNE分析,鉴定了4个细胞亚群
得到亚群然后进行功能分析
利用ROTS(reproducibility-optimized test statistic)方法将每个群体和其他的混合群体对比寻找差异基因,1-4号亚群分别得到522,1999,590,859个显著差异表达基因(significantly differentially expressed,SDE,认为FDR<0.001),然后将每个亚群的前18个SDEs聚类画热图。
另外为了检测ROTS的准确性,又用SCDE、edgeR、DESeq2、Wilcoxon rank-sum test方法分析,得到了类似的SDEs(见附表4)
然后利用每个群体的前150SDEs进行GO分析,4个CAFs亚群命名为:vCAFs(血管发育和生成)、eCAFs(细胞外基质)、cCAFs(细胞周期)和dCAFs(组织发育)
细胞亚群在肿瘤中的时空分布
目的是确定4种CAFs的来源和分布,绘制了SDE的小提琴图,并结合免疫荧光、免疫组化等标记了亚群的marker基因:vCAFs=》Desmin、NID-2、CD31;mCAFs=》PDGFRα;dCAFs=》SCRG1、EPCAM
推测分布:
- vCAFs起源于血管周细胞,随后向肿瘤基质区域侵袭;
- mCAFs来源于组织常驻成纤维细胞;
- cCAFs为vCAFs的增殖状态;
- dCAFs来源于肿瘤细胞,并发生了EMT转化。
后来还将小鼠CAFs与TGCA中乳腺癌的bulk 转录组数据进行相关性分析
TCGA中的基因与vCAFs、mCAFs的SDE相关性更高