博文名称:Top 5 Single-cell Genomics Papers of 2021
博文链接:https://towardsdatascience.com/top-5-single-cell-genomics-papers-of-2021-d9c8cfcda643
发表时间:Dec 24, 2021
回顾今年大数据时代下一些激动人心的论文
在生物学大数据时代,数据科学和机器学习的蓬勃发展,得益于它们在生物学领域中的跨学科应用。特别是2021年,对于单细胞基因组学来说尤其重要,这是一个仍处于起步阶段的领域,它利用数据科学的概念,在单个细胞的分辨率下,解析高维生物数据。作为该学科的研究生,我读了很多文献以了解最新进展(还有大量的阅读清单要赶!),我想和大家分享一下我今年读过的一些很好的文献。
1. Specious Art of Single-cell Genomics
单细胞基因组学的奇异艺术
https://www.biorxiv.org/content/10.1101/2021.08.25.457696v3
在你读到的大约80-90%的单细胞论文中,根据研究问题的不同,至少会有一两张tSNE或UMAP图来可视化他们收集的数据,通常是单细胞RNA测序(scRNA-seq)数据,其中对单个细胞的整个基因组中的RNA丰度进行分析。
文章使用了一个极端的例子,细胞在高维空间中保持等距,然后将其释放到近等距离,他们展示了tSNE和UMAP在原始空间中具有近等间距的细胞组如何扭曲方向,并将它们与均匀分布得更远的细胞组聚集在一起。然后,他们继续演示了一种半监督降维方法,该方法可以将数据拟合到预定义的形状(例如,大象),同时似乎在将数据映射到低维嵌入方面表现更好。由于其大胆而令人信服的论据,它在推特上引起了很多积极的讨论,推特上的内容超过了1000次,资深作者Lior Pachter也积极参与了讨论。
2. Quantifying the effect of experimental perturbations at single-cell resolution
在单细胞分辨率下量化实验扰动的影响
https://www.nature.com/articles/s41587-020-00803-5
开发PHATE算法的同一个实验室,提出了一种新方法,确定实验处理(experimental treatments)如何在单细胞分辨率下影响高维数据的结构。这是医学中的一个重要问题,例如在研究新的癌症疗法或COVID-19治疗效果时。
使用单细胞方法(如 scRNA-seq)在很大程度上有助于公正地了解这些治疗对感兴趣组织的影响。但是当你考虑到批次效应产生的技术噪音,样本的生物异质性,处理数目增加(例如,样品 A 接受药物 X,样品 B 接受药物 Y,样品 C 接受安慰剂等),以及样品暴露于药物/治疗的时间,这些方法可能会受到阻碍影响。
作者使用了一种称为MELD的算法来解决这个问题,该算法使用图形信号处理来确定细胞受实验扰动影响的可能性。然后,他们扩展了这种方法,衍生出一种称为顶点频率聚类(Vertex Frequency Clustering,VFC)的聚类算法,该算法在对细胞进行分组时不仅考虑转录谱的相似性,而且还考虑了受到上述相同处理影响的可能性。在另一个研究中(详见附录),他将MELD应用于 COVID-19 患者的单细胞数据分析。
3. Chimeric Contributions of Human Extended Pluripotent Stem Cells to Monkey Embryos ex vivo
体外人扩展多能干细胞对猴胚胎的嵌合作用
https://pubmed.ncbi.nlm.nih.gov/33861963/
与第一篇文章一样,这是另一篇有争议的论文,对于一般读者来说,原因可能更清楚。在这里,作者展示了他们如何将人类干细胞移植到猴子的胚胎中,在那里他们能够生长和分化,创造出一种嵌合体(chimera)—一种由一种或多种不同生物体的细胞组成的生物体,灵感来自希腊神话中的野兽。然后,他们进行了scRNA-seq,利用tSNE将这些嵌合胚胎与纯人类和猴子胚胎进行比较和对比。这读起来像科幻小说中的东西,比如《人猿星球》,但他们为什么要这么做呢?再生医学(regenerative medicine)的一个令人兴奋的途径是能够产生细胞和器官来替换人类受损的组织或器官,建立疾病模型,并测试治疗该疾病的药物。
希望是利用患者自身的细胞创造出一种嵌合体,这种嵌合体含有专门为患者生长的人体器官,从而支持再生医学领域。目标不是创造人类/猴子的杂交,甚至不是从猴子身上获取人体器官,因为这涉及到伦理问题。相反,由于我们进化上的相似性,科学家希望以此为模型来研究宿主胚胎细胞与外来细胞之间的串扰,然后将其推广到进化上更遥远的物种(如猪)中生长的人体器官,因为在这些物种中,伦理并不那么模糊。
4. Whole-cell segmentation of tissue images with human-level performance using large-scale data annotation and deep learning
利用大规模数据注释和深度学习对组织图像进行具有人类水平的全细胞分割
https://www.nature.com/articles/s41587-021-01094-0
我的实验室为我们的研究做了很多荧光显微镜检查。在这样的实验室工作,我最喜欢的事情之一就是看到单个细胞在显微镜的荧光标记下发光。这就像观察迷你星系,但不是恒星和行星,而是细胞。与scRNA-seq不同,提取生物信息不需要破坏样本,这有助于重新利用样本进行额外检测,以及获取细胞的空间信息,从而为这些细胞作为一个整体的潜在功能提供更多信息。
然而,该领域的一个经常性挑战是在这些显微镜图像中自动分割细胞——分离和定位单个细胞。已经有许多工具被设计用来解决这些挑战,但它们在更大、更复杂的数据集和组织类型方面往往不够,而自动化在这些方面尤为重要。
为了解决这个问题,一组研究人员构建了一个名为 TissueNet 的庞大数据集,其中包含来自多个成像平台和多种器官(包括正常组织和患病组织)的超过 100 万个手动标记的细胞,包括正常和病变组织。然后,他们在这个数据集上训练了一个称为Mesmer的深度学习模型来分割单个细胞。由于组织样本的多样性和庞大的样本量,它是一种很有前景的资源,可以用作你感兴趣的数据集的迁移学习中的预训练模型,并且我可能会在新的一年里自己进行实验。
5. Single-cell transcriptomic characterization of a gastrulating human embryo
原肠胚形成的单细胞转录组学特征
https://www.nature.com/articles/s41586-021-04158-y
最后这篇论文为我们理解人类发展提供了新的视角。我们都是从一个没有意识的单个细胞开始的,它迅速膨胀成一团细胞,形成一个胚胎。一旦它附着在我们母亲的子宫上(这个过程称为着床,implantation),我们的主要组织和器官就会开始发育。
在过去的几十年里,我们已经了解了很多关于胚胎植入前(pre-implantation)发育的早期机制,但是我们对植入后(post-implantation)发育的了解还有很多不足之处。由于明显的伦理考虑,很难阐明人类这一过程的全部机制,我们只能从体外(即在皮氏培养皿中)模型中研究这么多。
本文的作者通过对受精后16-19天自愿捐赠的男性胚胎进行单细胞RNA测序来阐明这些机制。在这一阶段,胚胎正在形成早期的细胞层,形成发育中人类的主要组织和器官。在这个阶段,胚胎正在形成初始层,产生发育中的人类的主要组织和器官。对这一过程的透彻理解可以收集关于先天性疾病如何发生以及妊娠并发症的见解,从而为未来的治疗和干预工作提供信息。
使用扩散映射(diffusion maps)和RNA速率(RNA velocity)等计算方法,作者确定了发育“轨迹”—细胞在计算推断的发育时间线中的排列方式——从而洞察了诱导胚胎中新生干细胞向更成熟细胞转化的转录网络,组织特异性细胞,如早期血细胞,以及这些事件发生的时间。这项工作提供了一个令人兴奋的资源,可以与植入后发育的体外模型的数据进行比较(正如这篇伟大的论文所做的:https://www.ncbi.nlm.nih.gov/pmc/articles/PMC8185470/)也是发育生物学领域的一次重大飞跃。
附录
Multiscale PHATE Exploration of SARS-CoV-2 Data Reveals Multimodal Signatures of Disease
SARS-CoV-2数据的多尺度PHATE探索揭示疾病的多模态特征
https://www.biorxiv.org/content/10.1101/2020.11.15.383661v1
虽然 Krishnaswamy实验室的这份预印本于2020年底出版,但今年发现了它,并有机会在今年秋天参加了Dr. Smita Krishnaswamy博士的虚拟研讨会,她在会上详细介绍了这项工作。正如标题所示,这是她实验室的PHATE算法的扩展,这是另一种降维算法。Multiscale PHATE的关键在于它可以在多个分辨率或尺度上可视化高维数据——因此有了“多尺度”(multiscale)这个词。
根据分辨率(resolution)、粒度(granularity)或规模(scale),我指的是流形(manifold)中呈现的详细程度。例如,在粗粒度嵌入(oarse-grained embedding, )中,我们获得了相关数据的高层次的概要,重点是全局结构和将临近细胞折叠为奇异点。相比之下,更细粒度的流形可以深入了解细胞之间的变化(或者更一般地说,附近的数据点之间可能存在的差异)。在几乎所有降维算法中—PCA、tSNE、UMAP,甚至 PHATE——默认情况下,我们只能看到一个分辨率或底层流形的粒度级别。
然而,考虑数据中的所有详细程度可能是有用的,例如,在预测疾病严重程度时。在持续的 COVID-19 大流行中,有大量论文和预印本利用患者细胞的单细胞基因组学来了解SARS-CoV-2病毒对我们细胞的影响,这可以深入了解死亡率结果。然而,仅仅从一个尺度上看数据,我们可能会忽略通过考虑患者样本中存在多少免疫细胞来区分有效免疫反应的细节。
这就是Multiscale PHATE的动机,他们将其应用于COVID-19患者的真实的单细胞数据。 使用上述MELD算法,他们可以根据疾病严重程度对样本进行分类。受时间不均匀马尔可夫过程的启发,这种方法的数学思想非常吸引人,其应用在这场持续的流行病中非常相关,值得一读。