最近一段时间更新的少,是因为自己搜集经典marker的工作接近尾声了,所以花了比较长的时间整理和总结,我自己拿了几个数据测试了一下,基本上效果不错,用搜集到的marker配合clustermole的自动化分析,基本都能定义出该有的细胞类型。
当单细胞基础分析已经完善的时候,摆在眼前首要的问题就是,每个cluster具体是细胞细胞类型?只有在注释了每个群的基础上,才可以进行下游更加深入的个性化分析。细胞注释通常分为三步进行,1)自动注释(可选)、2)手动注释、3)验证。目前已经有了很多的软件和算法来识别细胞类型,但真正落在确定注释的时候,仍然要靠生物学背景和经验的积累。
10X单细胞细胞注释分析策略
自动注释
自动注释是一种非常快速的有效的方法,它通过计算机算法或者先前的生物学知识去标记细胞或者细胞cluster。主要的原则就是在单个细胞或细胞cluster中识别与已知细胞类型或状态的特征基因表达信号(模式或信号)相匹配的基因表达信号;然后给细胞或细胞cluster分配相应的标签。标签通常有一个相应的confidence score。自动注释分为两大类,依据“marker gene”,称之为marker-based annotation;另外一种依据参考数据集,称之为reference-based或Correlation-based annotation。
手动注释
尽管自动注释方法非常方便,但它们需要适当的参考数据库,有时产生的注释结果的置信度并不高,当自动注释结果置信度较低、细胞标签冲突或缺失时,需要生信工程师手动注释,一方面可以检查算法自动注释的结果是否准确,另一方面将算法没注释出来的细胞群通过Marker Gene等方法手动注释出来。虽然手动注释被认为是细胞类型注释的“gold-standard method”,但注释过程是复杂且耗时的,同时存在着人为的主观性。
首先,我们需要知道样本中包含有哪些主要的细胞类型,如:血液样本中有T细胞、B细胞、单核细胞等,方便工程师快速完成初步注释;然后需要有对应组织类型的Marker Gene list,可以通过相关研究领域的文章、Marker数据库获得以及自己通过多年的实验经验积累,常用的marker数据库:CellMarker, HCA, PanglaoDB, SCSig, EMBL-EBI, MCA, CancerSEA;最后就可以通过基因表达可视化结果来命名,如:通过热图、小提琴图、箱线图、气泡图等方式查看Marker Gene的表达情况来注释细胞类型,如图2所示,MS4A1, CD79A为B细胞的经典Marker,在cluster3中特异高表达而在其他细胞群中基本不表达或表达较低,故可将cluster3命名为B细胞。也可以通过获得每个细胞群的Marker Gene,结合富集分析获得基因可能的功能来完成注释。注释时会经常碰到一些细胞群同时高表达2个或2个以上的细胞类型标志物,可能需要考虑是不是doublet所带来的影响。
验证
通过上述2种方法已经可以将某种组织类型的细胞图谱完成,但mRNA检测能部分定义细胞类型和功能,对于得到的稀有或者新的细胞类型须经过实验验证(多组学技术、原位杂交、免疫荧光等实验)。比如:使用T细胞受体(TCR)和B细胞受体克隆分型来细化组织驻留免疫细胞的细胞类型标签,以检查T细胞和B细胞的转录特征。
marker list
目前已经发表了很多的单细胞文献,极大的丰富了单细胞做注释的marker list,其中我用网盘分享了大约5个G的单细胞空间文献,并且花了差不多3年的时间整理文献用到的经典marker,包括人和小鼠的marker,以及细胞亚类
不过对于细胞定义来讲,仍然是一个很有挑战的内容,我把所有的marker放在这里,因为总结的时间太长(3年多),所以对大家不太友好,对我来讲已经是压箱底的内容了,大家酌情而定吧。
如遇过期,请留言,并留下邮箱
生活很好,有你更好