细胞类型识别对于单细胞RNA测序(scRNA-seq)研究至关重要,目前正改变着生命科学。CHETAH(分级分类辅助的细胞类型表征,CHaracterization of cEll Types Aided by Hierarchical classification)是一种精确的细胞类型识别算法,具有快速和选择性,包括中间或未分配类别的可能性。分配的证据基于以前可用的scRNA-seq参考数据的分类树,并包括基于每个细胞类型的基因表达差异的信心评分。
对于参考数据中表示的细胞类型,CHETAH的精度与现有方法一样好。当遇到未知类型的细胞时,如肿瘤样本中的恶性细胞,其特异性更强。虽然是专门为肿瘤样本设计的,但未指定和中间类型的使用在其他探索性研究中也很有价值。在胰腺数据集中,CHETAH强调了参考数据集中没有很好地表示的细胞群,包括位于腺泡和导管细胞类型之间连续统一体上的轮廓细胞。具有未分配和中间细胞类型的可能性是防止错误分类,可以为以前未探索的组织提供重要的生物信息。
对scRNA-seq数据的分析方法正在迅速发展。最近增加的是SuperCT,它将监督分类纳入细胞类型分类框架。虽然在应用范围上是互补的(参考数据集是固定的),但我们仍然比较了准确性,在SuperCT研究中,通过交叉验证方法分析,CHETAH的一致性水平达到了92%,尽管在不同的数据集上进行了必要的测试。CHETAH不局限于使用scRNA-seq,还可以与其他定量单细胞数据一起使用,如使用DNA可达性、染色质状态、甲基化组、表位或RNA velocity测序方法获得的数据,只要有足够丰富的参考数据可用。尽管在不久的将来,全范围的单细胞全基因组方法有望进一步增加,但是,对于CHETAH等方法的需求是显而易见的,这些方法可以提高结果数据分析的简便性和准确性。
CHETAH: a selective, hierarchical cell type identification method for single-cell RNA sequencing
Introduction to the CHETAH package