来源:Trapp, A., Kerepesi, C. & Gladyshev, V.N. Profiling epigenetic age in single cells. Nat Aging 1, 1189–1201 (2021). https://doi.org/10.1038/s43587-021-00134-3
该文章介绍了一种预测单个细胞的表观年龄(epigenetic age)的方法。
关键词:DNA methylation, epigenetic age, age clock, single cell
背景:人类基因组中有很多位点(CpG sites)的甲基化水平与年龄显著相关,因此基于这些年龄相关的位点的甲基化水平可以构建很准确的年龄预测模型,如Horvath's clock。但是这些模型都是基于bulk samples,也就是一群细胞的平均年龄。怎样基于单细胞甲基化测序数据预测单个细胞的表观年龄还没有人做过,这种可以预测单个细胞甲基化年龄的技术可以用于研究胚胎发育等特定细胞很少的场景。
难点:单个细胞就只有一套DNA,对单个细胞的甲基化测序数据只能随机覆盖一小部分基因组区域,并且对于测到的CpG位点,观察到甲基化水平也只能是0或1两种结果。(sparse and binarized methylation profiles)
scAge构建过程:
1)生成参考集。基于bulk sample甲基化测序数据,对每一个CpG位点,拟合其甲基化水平与年龄的线性回归模型,获得,其中指代第个CpG位点。
注:这个参考集只包括了748,955个CpG位点,这些位点在参考集大于90%的样本中被测到了。
2)收集有效年龄相关CpG位点。
- 针对每个单细胞,只保留出现在参考集中的CpG位点(common CpG sites)。
- 然后对这些留下的CpG位点,基于它们与年龄的相关系数绝对值从大到小进行排序(ranking them based on the absolute magnitude of their Pearson correlation with age)。
- 最后每个单细胞只留下与年龄最相关的前1%的common CpG位点用于下一步分析。
所以最后每个单细胞筛选获得的CpG位点数量各不一样。
3)估计有效年龄相关CpG位点的测序值出现概率。每一个上一步收集到的年龄相关CpG位点,其测序结果不是1(被甲基化了)就是0(未被甲基化),我们可以计算其在不同年龄情况(-20~60 months, step=0.1 months)下获得观测值(1或0)的概率。如果是1,概率就是,如果是0,概率就是。该概率用表示。
注:为第一步线性模型所得。
4)极大似然估计年龄。假设各个CpG位点完全相互独立,每个单细胞,所有有效位点的观察值出现概率的乘积就可以代表在不同年龄下,观察到测序结果的总概率值。因为所有概率都小于1,为了避免越乘越小,作者对乘积结果取了log,结果如下:
对每个单细胞样本,计算其在不同年龄下(-20~60 months, step=0.1 months)的概率值,最大概率值所对应的年龄即为该单细胞的预测表观年龄。
模型预测效果:
作者基于三种细胞类型(liver,multi-tissue, blood)训练了三个模型,预测效果还不错。
最后scAge的安装和使用请参照:https://github.com/alex-trapp/scAge
scAge 的优势很明显:可在单细胞分辨率下预测表观年龄,在特定场景下会很有用。