发表期刊和时间:Science,13 October 2023
Lab:Bing Ren, 实验室正在研究正常和癌症细胞的基因调节机制,与路德维希研究所和加州大学合作密切。
摘要:探索了三名成年人42个大脑区域110万个细胞的开放染色质景观。整合这些数据揭示了107种不同的细胞类型及其对人类基因组中544735个候选顺式调控DNA元件(cCRE)的特异性利用。近三分之一的cCRE在小鼠脑细胞中表现出保守性和染色质可及性。揭示了特定脑细胞类型与神经精神疾病之间的密切联系,包括精神分裂症、双相情感障碍、阿尔茨海默病(AD)和严重抑郁症,并开发了深度学习模型来预测非编码风险变体在这些疾病中的调节作用。将染色质图谱与单细胞转录组和DNA甲基组图谱结合起来,将cCREs与假定的靶基因联系起来。进一步预测了19种神经精神疾病的疾病相关细胞类型。
【人脑的单细胞CA图谱】
首先,使用ATAC数据进行聚类,分出了三大类,分别是:谷氨酸能神经元、GABA神经元、非神经元类群。每个亚类基于已知脑细胞类型的至少三个marker来进行注释,对于每个亚类,还进行了第三轮聚类,并确定了107种不同细胞类型。
chromatin accessibility(CA)
从三名年龄分别为29岁、42岁和58岁的男性脑(DI、D2和D4)中解剖了42个脑区,分别来自人类皮层(CTX)、海马(HIP)、基底核(BN)、中脑(MB)、丘脑(THM)、小脑(CB)和脑桥(PN)(图1A和表S1)。质控后总共保留了1,134,360个核。其中,CTX 595,713例,HIP 72,190例,BN 317,480例,MB 23,114例,THM 50,768例,CB 51,775例,PN 25,459例(表S3)。平均每个细胞核中检测到4970个染色质片段(表S3;图S1, K ~ M;材料和方法)。
用snATAC-seq数据进行聚类,并将其分为三大类,第一类富集谷氨酸能(vGlut+,假定兴奋性)神经元(11.8%),第二类富集GABA能(GABA+,假定抑制性)神经元,第三类富集非神经元细胞(81.4%)(图1,B,D和F;图S2;图S3,A和B)。迭代聚类进一步将三大类划分为14个vGlut+神经元亚类、2个颗粒细胞类型亚类、1个胆碱能神经元亚类,4个多巴胺能神经元亚类别、2个丘脑和MB衍生神经元亚类别,11个皮质GABA+神经元亚类和8个非神经元细胞亚类别(图1、B、D和F)。每个亚类基于已知脑细胞类型的至少三个marker genes的启动子和gene bodies的CA,以及细胞所在的脑区域进行注释(图1、C、E和G;图S3C;以及表S4和S5)。对于每个亚类,还进行了第三轮聚类,并确定了107种不同细胞类型的并集列表(图1H、图S4、表S3以及材料和方法)。
构建了一个层次树状图,显示了人类脑细胞的已知组织原理。非神经元类与神经元类分离,神经元类根据神经递质类型(GABA+、多巴胺能、胆碱能和vGlut+)和发育起源进一步分离(图1H、图S6以及材料和方法)。
正如预期的那样,大多数神经元细胞类型和一些神经胶质细胞类型以不均匀的方式分布在人脑中(图1J)。我们根据不同大脑区域的贡献为每个亚类定义了区域特异性评分。尽管大多数神经胶质细胞类型普遍分布在整个大脑中,显示出非常低的区域特异性(图1J,右)。
【人脑cCRE的定位和表征】
确定每种脑细胞类型的身份和功能的基因调控程序的第一步,在107种脑细胞中的每一种中鉴定了开放染色质和cCRE。聚集了来自包含每个细胞簇或类型的细胞核的CA图谱,并用MACS2鉴定了开放染色质区域(30)(图S8A)。为了更准确地表征cCRE的细胞类型特异性,将其分为37个模块。42个亚类作为(行)与顺式调控模块作为(列)的关联热图。除了第一个模块(M1)无细胞类型特异性的cCRE外,其余36个模块显示出细胞类型特异性的可及性(热图)。
【link远端cCREs与靶基因】
作者首先做的是,识别与靶基因转录呈正相关的cCRE。先与RNA-seq的数据相结合,首先计算每个细胞亚类中单个核的可及性,将255828个远端cCRE连接到14861个假定的靶基因上,结果是在500kb内总共有1661975个gene-cCRE对。接下来,确定cCRE的亚群,其可及性与假定靶基因的表达呈正相关,因此可以在神经元或非神经元类型中作为推测的增强子(图2F,底部)。总共揭示了265049对正相关的cCRE和基因,其中包括114877个推定增强子和13094个基因(图2G、图S9和表S12)。
为了研究细胞类型特异性基因表达是如何调节的,他们将这些推测增强子进一步分为27个模块。每个模块中的推测增强子在细胞亚类中具有相似的可及性模式(图2H),并且靶基因的表达显示出正相关的模式(图2I)。
【胶质细胞和神经元细胞cCREs的区域特异性】
【人和小鼠大脑CA的比较分析】
为了确定人类和小鼠大脑之间基因调控景观的保守程度,作者将本研究中定义的人类大脑cCREs与他们之前发表的小鼠大脑cCREs图谱进行了比较,首先对来自大脑的18个神经元和胶质细胞亚类进行联合聚类(图A)。
通过进行对等同源搜索,在小鼠基因组中确定了人类cCREs的同源。单独在同源CRE上使用CA聚类未能对齐相应的细胞类型,相反,基于TF基序富集的聚类允许在物种之间合理地对齐细胞亚类,这一观察结果表明,序列motif富集分数是保守的分子特征,可以可靠地将人类和小鼠大脑中的相似细胞亚类进行比对。
在这些同源基因的基因组序列中,只有一半(占人类总cCREs的32.8%)在小鼠大脑的任何细胞亚类中也被鉴定为开放染色质区域。因此,我们将32.8%同时具有DNA序列相似性和开放染色质保守性的人类cCREs定义为ca保守型cCREs,将26.8%仅具有DNA序列相似性的人类cCREs定义为ca分化型cCREs。此外,我们将小鼠基因组中没有同源基因组序列的40.4%的人类cCREs定义为人类特异性的cCREs(图4C)。
观察到,大部分CA保守的cCREs位于人类基因组的启动子tss区域或附近。此外,人类特异性的cCREs富含转座子(TEs) (图4D)。先前有研究表明,某些转座子在哺乳动物的大脑中是活跃的,并且这些活跃的转座子可能导致疾病的易感性。图E对这一说法提供了支撑,不同的TE家族可能在特定的脑细胞类型中被激活。例如,LTRs,在小胶质细胞中显示染色质可及性,而在其他脑细胞亚类中不显示可及性。
【多组学整合分析】
【解释神经系统疾病和特征的非编码风险变异】
为了探究神经系统疾病和特征的非编码风险变异,作者做了LDSC分析,为什么要做LDSC?这是因为做GWAS的目标是找到和表型显著相关的遗传位点,连锁不平衡会干扰GWAS的结果,连锁不平衡就是两个基因位点倾向于一起遗传的现象,一般就是距离近的位点一起遗传,因此找到的位点可能不是真正与表型相关的,而可能是与表型相关位点具有连锁不平衡的位点。
先前的研究表明,非编码风险变异富集于疾病相关细胞类型中活跃的cCREs中。利用新注释的细胞类型解析人脑cCREs,作者预测了与不同神经精神疾病相关的细胞类型。进行了连锁不平衡评分回归(LDSC)分析,确定与神经精神疾病相关的DNA变异的遗传遗传性是否在cCREs中显着富集。发现19种精神疾病和特征与作者鉴定的一种或多种细胞类型中的开放染色质景观之间存在显著关联,而与非中枢神经系统特征之间的关联很少。例如,AD的风险变异在小胶质细胞中的cCREs中显著富集,而在其他细胞类型中则没有。
对保守型、分化型、人类特异型CRE分开分析后,发现在保守型CRE中细胞亚类和GWAS形状之间的关联最强。例如,精神分裂症的风险变异在表观遗传保守元件中表现出最显著的富集(图7C)。人类特异型CRE大多数没有显示出关联,但是揭示了AD与小胶质细胞之间的关联。这提高了AD相关风险变异可能存在于人类特异性调控元件中的可能性。这一结果表明,AD动物模型在揭示人类疾病病理方面存在潜在局限性。例如,一个AD风险位点包含多个小胶质细胞特异性cCREs,在小鼠基因组中没有同源序列。