文献名:Chromatin and gene-regulatory dynamics of the developing human cerebral cortex at single-cell resolution
Part1:
发育中人类大脑皮层的单细胞调控图谱
该部分主要内容总结:
1.实验平台10X、实验技术:scRNA scATAC、研究的发育阶段和区域、该部位细胞类型特点;
2.两个平台获得的细胞数/染色质可及性peak、对scRNA-seq数据中细胞类型及用的marker gene进行描述、与其他人发表的数据进行映射,说明注释的准确性
3.使用CCA将scRNA 和scATAC数据进行整合,将基因远端CRE可及性与基因表达联系起来,确定代表enhancer与基因互作的对
4.局部单染色质可及性中确定其表达可以很好预测的基因,找可以根据染色质状态预测基因表达的基因
5.利用单个细胞既做了scRNA,又做了scATAC的数据去验证第4点发现的基因,表明大多数推断的CRE-基因相互作用在该联合数据集中观察到
专有名词介绍:
1.CREs cis-regulatory elements 是非编码DNA的区域,可调节相邻基因的转录。
2.CCA canonical correlation analysis 是最常用的挖掘数据关联关系的算法之一 ,典型相关分析(Canonical Correlation Analysis)是对互协方差矩阵的一种理解。如果我们有两个随机变量向量 X = (X₁, ..., Xₙ) 和 Y = (Y₁, ..., Yₘ) 并且它们是相关的,那么典型相关分析会找出 Xᵢ 和 Yⱼ 的相互相关最大的线性组合。
3.GPC genes with predictive chromatin
为了捕获大脑皮层中的细胞异质性,作者使用Chromium platform (10x Genomics)创建了一个基因调控图谱,以通过测序(scATAC-seq)和单细胞RNA测序(scRNA-seq)从四个原始样本中生成转座酶可及染色质的单细胞分析PCW16,PCW20、PCW21和PCW24(图1A)。
总的来说,经过质量控制和筛选,我们获得了57868个单细胞转录组和31304个单细胞表观基因组)。与之前的研究一致,CTIP2+细胞存在于皮质板(CP);SOX9+细胞存在于VZ、SVZ和外SVZ(oSVZ)中;
( VZ, ventricular zone; SVZ, subventricular zone; IFL, inner fiber layer; oSVZ, outer SVZ; OFL, outer fiber layer; SP, subplate; CP, cortical plate.)
而GFAP+scaffolding 在PCW17和PCW21时期的跨越新皮质区。proliferation marker KI67与SVZ和oSVZ中的GFAP+细胞和PPP1R17+中间祖细胞(IPCs)共定位(图1C)。
为了评估单个细胞之间的整体相似性和差异性,我们进行了unsupervised分析,包括使用uniform manifold approximation and projection (UMAP)进行降维和聚类。对于scATAC-seq,我们采用迭代方法获得低维embedding, cell clustering和一组657930个代表潜在顺式调节元件cis-regulatory elements(CREs)的accessible peaks。RNA和染色质的结构相似,其变化与妊娠时间(图1D)和细胞类型有关。
在同一样本上进行这两项(scRNA+scATAC)分析,使我们能够剖析基因调控的复杂方面,包括基因表达(scRNA-seq)和基于染色质可及性的基因活性得分(scATAC-seq)之间的关系,scATAC-seq is a metric defined by the aggregate local chromatin accessibility of genes,以及aggregate TF motif activity scores。皮质生成TF,如SOX9、EOMES、NEUROD2和DLX2在这三个指标中表现出强烈的簇特异性富集(图1E),与它们分别在RG、IPCs、皮质谷氨酸能神经元(GluN)和GABA能神经元(中间神经元;IN)中的作用一致。
接下来,作者在这两个数据集聚类(图1F),
并使用已知marker的基因表达和基因活性对这些聚类进行注释(图1G–H)。
在scRNA-seq,我们观察到一簇表达TOP2A和KI67的循环细胞(cycling cells Cyc)。我们还发现,表达SOX9和HES1的RG包括心室径向胶质细胞( ventricular radial glia vRG:FBXO32,CTGF)和外径向胶质细胞(outer radial glia oRG:MOXD1,HOPX),并且这些细胞根据时间而分离(early RG,PCW16:NPY,FGFR3;late RG,PCW20-24:CD9,GPX3)。一个scRNA序列簇中的细胞表达truncated RG(tRG)和ependymal cells(tRG:CRYAB,NR4A1,FOXJ1)的marker。我们还发现了一个与RGs和oligodendrocyte lineage precursors(ASCL1、OLIG2、PDGFRA、EGFR)相关的簇表达基因。我们称之为multipotent glial progenitor cells(mGPC)的该簇不同于表达SOX10、NKX2.2和MBP的OPC和少突胶质细胞(OPC/LIGO)簇。在mGPC簇和late RG簇中观察到与星形胶质细胞特性(AQP4,APOE)相关的基因。一个大的结构域由神经元IPC(EOMES、PPP1R17、NEUROG1)和GluN(BCL11B/CTIP2、SATB2和SLC17A7/VGLUT1)组成。在GluN簇中,我们发现细胞表达subplate markers(SP:NR4A2,CRYM)。我们还发现了不同的表达DLX2和GAD2的基因簇,其中一个表达标记与内侧神经节隆起(medial ganglionic eminence MGE:LHX6,SST)相关,另一个表达标记与尾侧神经节隆起和大脑皮层下边界(caudal ganglionic eminence CGE:SP8,NR2F2;pallial-subpallial boundary PSB:MEIS2,ETV1)相关。此外,我们还观察到小胶质细胞簇(MG:AIF1,CCL3)、内皮细胞簇(EC:CLDN5,PECAM1)、周细胞簇(Peric:FOXC2,PDGFRB)、软脑膜细胞簇(leptomeningeal cells VLMC:COL1A1,LUM)和红细胞簇(RBC:HEMGN)。
上述许多marker 在scATAC序列空间的相应簇中显示出动态基因活性得分(图1H)。
虽然大多数聚类都有代表所有时间点的细胞,但一些聚类对早期或后期有强烈的biased(例如MGPC和TRG)。为了进一步证实细胞类型特征和妊娠时间,我们将两个先前公布的人类皮层scRNA-seq数据集预测到我们的scRNA-seq manifold中。我们计算了Jaccard对应指数,并在我们的数据和计算匹配的独立注释中观察到细胞类型、cell-cycle phase和妊娠时间之间的高度一致性。
我们使用典型相关分析(CCA)将衍生的基因活性分数与基因表达水平进行整合,以将每种模式的细胞数据与其他数据表示中的最近邻进行匹配(图2A)。
匹配细胞的簇注释是一致的,除了scRNA序列中的循环祖细胞簇,它没有直接映射到chromatin landscape中的细胞(图2B)。
利用这些匹配注释的pseudo-bulk aggregates,作者应用了一种基于相关性的方法,将基因远端CRE可及性与基因表达联系起来,确定了代表潜在增强子-基因相互作用的64878个CRE基因对。在该分析中,一个基因与5个CREs(中位数)相连,并且linkded的CREs比unlinkded的元件更保守,并且更可能由最近发布的以启动子为中心的染色体构象捕获数据集的细胞类型特异性三维(cell-type-specific three-dimensional 3D)相互作用支持。CRE可及性和基因表达的Co-variation区分了scRNA-seq和scATAC-seq中确定的细胞类型(图2C)。
聚类相关CRE可及性揭示了与神经胶质细胞群相对应的cluster间的高度可变性,证实了cluster内的差异性,并表明了GluNcluster间基因调控的动态模式。
然后,我们通过对基因活性-表达相关性进行排序,从局部单染色质可及性中确定其表达可以很好预测的基因。相关性最高的基因包括SOX2和HES1,这些基因与更多的putative增强子相关。我们假设这些基因包括一类高度调控的基因,这些基因在发育中的皮层中起着建立细胞身份的驱动作用,并定义了一组185个具有预测性染色质的基因(GPC;genes in the top decile of gene activity-expression correlations,与>10个CRE相关)(图2D)。该基因集在转录调节活性和DNA结合TF活性方面高度富集(图2E)。
为了验证这些推论,我们分析了来自PCW21人类皮层(multiome)相同细胞的scATAC-seq和scRNA-seq数据(图2F)。
通过对两种数据模式的筛选,得到8981个具有高质量转录组和表观基因组图谱的细胞(。我们将多组scATAC-seq和scRNA-seq图谱投影到相应的单独生成的landscapes中,并确认我们的细胞类型注释在联合数据中得到了很好的表示(图2G)。
将我们的CRE基因连接方法应用于真正的细胞对细胞匹配,我们发现从单时间点测量中观察到40181个推断的峰值基因linkages(53%),并确定了额外的23849个(图2H;表S2),
表明大多数推断的CRE-基因相互作用在该联合数据集中观察到。同样,我们将CCA应用于多组数据,其中正确的细胞分配是已知的。这些推论通常由真实的簇进行验证,并且通过基于CCA空间中的50个最近邻而不是单个最近邻分配簇来增加这种一致性。此外,我们发现silico-linked的单组细胞与多组细胞的GPC活性表达相关性具有很强的一致性(图2I)。
因此,GPC在这个联合数据集中也很明显,强调了它们的本地可访问性和它们在同一细胞内的转录之间的对应关系。