10X单细胞（10X空间转录组）数据分析之图神经网络框架

hello，大家好，随着我们认识的深入，分享的内容也越来越“高大上”，这次要分享的内容就是神经网络运用到我们的单细胞或者空间的数据分析。

密苏里大学许东教授和俄亥俄州立大学马勤教授的团队发表在Nature Communications上的一篇文章 “scGNN is a novel graph neural network framework for single-cell RNA-Seq analyses”。单细胞RNA测序 (scRNA-seq) 被广泛应用于揭示组织、生物和复杂疾病的异质性和动力学，但其分析仍面临多个重大挑战，包括测序的稀疏性和基因表达的复杂差异模式。本文提出了scGNN (单细胞图神经网络)，为scRNA-seq分析提供了一个无假设的深度学习框架。这个框架用图神经网络来表达和聚集细胞间的关系，并使用左截断的混合高斯模型来建模异质基因表达模式。scGNN集成了三种迭代多模态自动编码器，其在四个scRNA-seq基准数据集上的基因插补和细胞聚类性能优于现有工具。在一项阿尔茨海默症研究中，从死后脑组织中提取13214个单核，scGNN成功地阐明了疾病相关的神经发育和差异机制。scGNN为基因表达和细胞间关系的有效表达提供了帮助。它也是一个强大的可以应用于一般的scRNA-Seq分析的框架。

图片.png

一、研究背景

单细胞RNA测序 (scRNA-seq) 技术可在单个细胞中进行转录组的基因表达测量，这对于识别细胞类型簇，根据轨迹拓扑推断细胞群体的排列以及在表征复杂疾病中的细胞异质性时突出体细胞克隆结构是必不可少的。但scRNA-seq分析仍然具有挑战性，因为它的数据分布复杂且不确定，具有很高的“dropout”率。一些现有方法，例如Phenograph，MAGIC和Seurat使用K级最近邻 (KNN) 图来建模细胞之间的关系。但是，这样的图形表示可能会过度简化全局的复杂细胞和基因关系。最近，新兴的图神经网络 (GNN) 通过在深度学习体系结构中传播近邻信息来解释卷积图中的节点关系。与用于scRNA-seq分析的其他自编码器通过重建自己的输入来揭示scRNA-seq数据的有效表示相比，图自编码器的独特功能在于能够学习图拓扑的低维表示并在整个图的全局视图中训练节点关系。

本文提出了一个多模态框架scGNN (单细胞图神经网络) ，用于从scRNA-seq中建模异质细胞-细胞关系及其潜在的复杂基因表达模式。scGNN通过基于基因表达和转录调控信息的拓扑抽象，训练低维特征向量来表示细胞之间的关系。scGNN有三个独特的特征：(i) scGNN利用带有多模式自编码器的GNN来构建和聚集细胞之间的关系，提供一个无假设的框架来推导生物学上有意义的关系。该框架不需要为基因表达数据或“dropout”事件假定任何统计分布或关系。(ii) 在构建细胞图时，对细胞类型特异性的调节信号进行建模，对scRNA-seq数据采用左截断混合高斯 (LTMG) 模型。这可以提高信噪比，以嵌入生物学上有意义的信息。(iii) 自底向上的细胞关系由动态修剪的GNN细胞图表示。整个图可以通过池化在学习图上嵌入图中的所有节点来表示。可以将图嵌入作为低维、耐噪声的特征来保持细胞图的拓扑关系。在恢复基因表达值的自编码器训练中，将衍生的细胞间关系作为正则化器。

二、模型

以scRNA-seq生成的基因表达矩阵为输入。LTMG可以将输入的基因表达数据转换为离散化的调节信号，作为特征自编码器的正则化器。特征自编码器学习输入的维度表示作为嵌入，并在其上构造和修剪细胞图。图自编码器学习拓扑图嵌入的细胞图，用于细胞类型聚类。每种细胞类型的细胞都有一个单独的簇式自编码器来重建基因表达值。该框架将重构后的表达式作为一个新的输入迭代，直到收敛。最后，特征自编码器通过学习到的细胞图上的细胞间关系对预处理后的原始表达矩阵进行正则化，得到插补后的基因表达值 (图1)。

图片.png

图1 scGNN的流程结构

三、实验结果

3.1 scGNN可以有效地插补scRNA-seq数据，准确地预测细胞簇

为了评估scGNN的插补和细胞聚类性能，本文选择了四个具有黄金标准的细胞类型标签的scRNA-seq数据集 (Chung，Kolodziejczy，Klein，Zeisel) 作为基准数据集。通过将一些非零项随机转化为零来模拟“dropout”。实验计算了三个指标 (中位L1距离，余弦相似度以及RMSE) 来比较scGNN与九种插补方法的性能。在“dropout”率为10%和30%时，scGNN插补效果最好。而scGNN的余弦相似度评分在10%的“dropout”中排名第一，在30%的概率中排名第三 (图2a)。此外，scGNN可以恢复由于scRNA-seq稀疏性而在原始表达数据中丢失的潜在基因间关系。例如，两个多能性外胚层基因对，Ccnd3与Pou5f1以及Nanog与Trim28，在原始数据中相关性较低，但在经过scGNN插补后相关性变强 (图2b)。

scGNN还可以放大差异表达基因 (DEGs) 信号的倍数变化 (FC) (图2c)。本实验还利用其他插补工具比较了插值前后DEG信号的变化。使用Klein数据和Zeisel数据中第1天细胞的原始表达值和scGNN插补的表达值对DEG的logFC评分进行比较。其差异性信号在插补后被增强。结果表明，scGNN可以准确地恢复表达值，捕捉真实的基因间关系，增加DEG信号，且不会引入额外的噪声。

图片.png

图2 插补性能比较

3.2 scGNN可以准确地预测细胞簇

除了人工模拟“dropout”的基准数据集，本文继续评估scGNN和9个插补工具在相同两个数据集上的聚类性能。使用10个指标系统地评估预测的细胞标签，包括调整后的兰德指数 (ARI) 等 (图3a)。通过UMAP可视化细胞聚类结果，与其他9种工具相比，使用scGNN时，可以观察到同一簇内细胞更接近，不同簇之间更分离 (图3b)。随着胚胎干细胞发育，表达模式显示出异质性。在Klein的时间序列数据中，scGNN恢复了一个原始数据不能很好地显示的复杂结构，即从第1天到第7天细胞发育的一条排列良好的轨迹路径 (图3c)。

在此基础上，为了说明在scGNN中使用图自编码器和簇自编码器的意义，本实验进行了消融试验来绕过每个自编码器，并比较了Klein数据集上的ARI结果(图3d)。其中GA-表示去除图自编码器的结果，CA-表示去除聚类自编码器的结果，AG表示使用框架中所有基因后的结果。结果显示，除去这两个自编码器中的任何一个都会显著降低scGNN在细胞聚类精度方面的性能。

图片.png

图3 细胞聚类和轨迹评估

3.3 scGNN说明AD相关的神经发育及其潜在的调节机制

为了进一步证明scGNN的能力，本实验将其应用于在6个AD (阿尔兹海默症) 和6个对照大脑中收集的13,214个单核的scRNA-seq数据集 (GSE138852)。scGNN识别出10个细胞簇 (图4a)。这10个细胞簇中的6个少突胶质细胞亚簇在AD患者 (Oligos 2、3、4) 和健康对照者 (Oligos 1、5、6) 之间的比例不同 (图4b)。然后将这6个少突胶质细胞亚簇组合成一个簇来检测DEGs。由于scGNN可以显著增加原始数据集中的真实信号，DEG模式更加明确。在所有的DEGs中，确认了22个基因为细胞类型特异性基因 (图4c)。此外，一项生物途径富集分析显示，与所有五种细胞类型的细胞相比，AD细胞中有几种高度阳性的富集 (图5d)。

为了研究AD相关神经发育的调控机制，实验将scGNN插补的矩阵应用于IRIS3 (来自scRNA-seq的整合细胞类型特异性调控的服务器)，并在5种细胞类型中鉴定出21种细胞类型特异性调控 (CTSR) (图4e)。不足为奇的是，实验发现了一些与AD相关的转录因子 (TFs) 和靶基因，这些转录因子和靶基因已经被发现参与了AD的发展进程。其中SP2就是一种常见的TF，可在少突胶质细胞和星形胶质细胞中发现。此外，在所有细胞簇中都发现了调节神经元突触功能的SP3 TF。这一发现为发现SP3在AD研究中的作用提供了方向。

图片.png

图4 基于scGNN的阿尔茨海默氏病数据集 (GSE138852) 分析

四、总结

与以前在scRNA-seq数据分析中应用自编码器不同，scGNN可以使用自底向上的方法有效地聚合相似细胞之间的关系。且scGNN的插补可以减少不同测序技术引入的批效应。此外，scGNN通过在特征自编码正则化的LTMG中离散表示基因调控信号，而有效地集成了调控信号。这些信号可以帮助识别生物学上有意义的基因-基因关系。值得注意的是，scGNN是一个基于数据驱动细胞图模型的无假设深度学习框架，它可以灵活地合并不同的统计模型 (例如，LTMG) 来分析复杂的scRNA-seq数据集。除上述实验之外，作者在原文中还进行了一些其他的实验并在补充材料中提供了许多其他的实验数据，感兴趣的可以深入研究一下。

代码在scGNN,大家多多尝试一些新的方法，对自己的帮助很大。

生活很好，有你更好

禁止转载，如需转载请通过简信或评论联系作者。

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 203,230评论 5赞 476
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,261评论 2赞 380
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 150,089评论 0赞 336
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,542评论 1赞 273
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,542评论 5赞 365
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,544评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,922评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,578评论 0赞 257
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,816评论 1赞 296
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,576评论 2赞 320
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,658评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,359评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,937评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,920评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,156评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,859评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,381评论 2赞 342

10X单细胞（10X空间转录组）数据分析之图神经网络框架

hello，大家好，随着我们认识的深入，分享的内容也越来越“高大上”，这次要分享的内容就是神经网络运用到我们的单细胞或者空间的数据分析。

一、研究背景

二、模型

三、实验结果

3.1 scGNN可以有效地插补scRNA-seq数据，准确地预测细胞簇

3.2 scGNN可以准确地预测细胞簇

3.3 scGNN说明AD相关的神经发育及其潜在的调节机制

四、总结

代码在scGNN,大家多多尝试一些新的方法，对自己的帮助很大。

推荐阅读更多精彩内容