2022-08-04

Nat Methods | 机器学习精准标注蛋白,细胞器和其他亚细胞结构

原创 存在一棵树 图灵基因 2022-08-04 09:41 发表于江苏

收录于合集#前沿分子生物学技术

撰文:存在一棵树

IF= 47.990

推荐度:⭐⭐⭐⭐⭐

亮点:

本文开发了一种完全自我监督的蛋白质定位分析和聚类的深度学习方法,Cytoself,可生成高分辨率的蛋白质亚细胞定位图谱。


2022年7月25日陈·扎克伯格生物中心的Loic A. RoyerManuel D. Leonetti联合在Nature Methods上发表了Self-supervised deep learning encodes high-resolution features of protein subcellular localization 的文章。该团队开发了一种完全自我监督的蛋白质定位分析和聚类的深度学习方法,Cytoself,并介绍了其开发、验证和使用。


基于显微镜的系统性大规模细胞分析正成为生物学发现的重要工具,其在药物筛选、药物分析和蛋白质亚细胞定位图谱中发挥着关键作用。特别是,基于免疫荧光或内源性荧光标记的大规模数据集辅助以计算机视觉和机器深度学习,从而全面捕获人类和酵母蛋白质组的定位模式。 计算机视觉和机器学习的最新进展表明摒弃手动标记是可能的,可通过监督方法改善其性能。自我监督模型的训练是通过制定一个辅助的借口任务,比如保留部分数据,指示模型预测其隐藏部分,而训练一个模型预测图像中的隐藏部分会迫使其识别该它们的重要特征,并可用于比较和分类。基于此,该团队开发了一种基于深度学习的完全自我监督的蛋白质定位分析和聚类方法,Cytoself。

深度学习方法的先决条件是收集在统一条件下获得的荧光标记蛋白质的高质量图像,OpenCell活细胞共聚焦图像数据集包含 1,311 种内源性标记蛋白质。该团队在18.59视野 (FOV) 中对给定蛋白质的定位进行了成像,然后从每个包含 1-3 个细胞的FOV中提取大约45个裁剪图像,每个蛋白质共有800个裁剪图像。如图1所示,Cytoself基于矢量量化变分自动编码器架构 (VQ-VAE),在经典的VQ-VAE中,图像被编码成一个量化的潜在表示,一个矢量,然后解码重建输入图像;而该团队开发了一种变体,它使用分裂向量量化方案来提高大空间尺度下的量化效果。将该模型应用于每个裁剪图像,自我监督模型训练包含两个借口任务:首先是像原始 VQ-VAE 模型一样对图像进行编码然后解码;其次是仅根据编码表示来预测与图像相关的蛋白质标识符,旨在预测每个图像对应于1,311 种蛋白质中的哪一种。


随后,该团队使用统一流形近似和投影(UMAP)算法对从所有图像获得的全局定位编码集进行降维。如图2所示,获得一个高分辨率蛋白质定位图谱,代表蛋白质亚细胞定位的全部多样性;其中央 UMAP 中的每个点都根据11个不同的蛋白质定位类别(线粒体、囊泡、核质、细胞质、核膜、ER、核仁、高尔基体、染色质结构域)进行着色。图中大量未标记点(灰点)则主要对应于表现出混合定位模式的蛋白质,其中较为明显的是散布在核区和非核区之间的蛋白质带。


为验证Cytoself的聚类性能,该团队对比了其与无监督 (CellProfiler) 或自我监督 (Cell inpainting) 图像特征化方法应用于 OpenCell 图像数据集的结果,验证Cytoself获得的分辨率优于另外两种方法。自我监督方法的主要优势在于它们不受人工注释的质量、完整性或粒度的限制,并且可以揭示现有数据库中未明确存在的蛋白质定位的细微差异。

为了能够剖析和理解构成这些表征的特征并解释它们的意义,该团队创建了有助于每种蛋白质定位编码的主要成分的特征谱。如图3所示,首先通过执行分层双聚类获得了特征的有意义的光谱排序进行定量分析;接下来使用特征光谱预测蛋白质亚细胞定位,且Cytoself 可以对来自 OpenCell 以外的数据集的图像进行合理的蛋白质定位预测。


综上所述,本文开发的Cytoself模型可生成高分辨率定位图谱,不仅能够描绘细胞器,还能够描绘蛋白质复合物;此外,还可以用特征谱表示每个图像,以更好地分析数据中存在的定位模式的全部内容。由于蛋白质的定位与其细胞功能高度相关,因此Cytoself将成为对未知或研究不足的蛋白质进行初步功能预测以及定量研究细胞扰动和细胞状态变化对蛋白质亚细胞定位影响的宝贵工具。

教授介绍

Loic Royer博士是陈·扎克伯格生物中心的小组负责人。Royer最初学习工程学,然后获得人工智能硕士学位,随后在德国德累斯顿理工大学获得生物信息学博士学位,后继续在Gene Myers博士的实验室接受博士后培训。Royer认为揭示生物体发育之谜需要计算机科学、先进显微镜和生物学方面的专业知识。为此,Royer的多学科团队设计和构建了新型最先进的光片显微镜,开发了基于深度学习的图像处理和分析算法,并利用这些技术构建了脊椎动物发育的时间分辨和多模态图谱,使用斑马鱼作为模式生物。

参考文献

Kobayashi, H., Cheveralls, K.C., Leonetti, M.D. et al. Self-supervised deep learning encodes high-resolution features of protein subcellular localization. Nat Methods (2022).

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 199,440评论 5 467
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 83,814评论 2 376
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 146,427评论 0 330
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 53,710评论 1 270
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 62,625评论 5 359
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,014评论 1 275
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,511评论 3 390
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,162评论 0 254
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,311评论 1 294
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,262评论 2 317
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,278评论 1 328
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,989评论 3 316
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,583评论 3 303
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,664评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,904评论 1 255
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,274评论 2 345
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 41,856评论 2 339

推荐阅读更多精彩内容

  • 如何选择蛋白质食物 1、牛羊肉 牛羊肉性温,是冬季暖身的好选择,它们能够为身体提供大量的优质蛋白质,提高身体代谢和...
    空间失眠阅读 84评论 0 0
  • Cli Cancer Res | TB-403抗体疗法临床试验,可治疗儿童髓母细胞瘤等癌症 原创图灵基因图灵基因2...
    图灵基因阅读 158评论 0 0
  • Science | OpenCell:人类细胞蛋白质组的系统级描述 原创图灵基因图灵基因2022-04-06 14...
    图灵基因阅读 139评论 0 0
  • 背景:苯并(a)芘(BaP)是受污染食品中的一种致癌化合物。低剂量和频繁接触环境致癌物 BaP 对消化系统的影响尚...
    朗月斋主阅读 127评论 0 3
  • 提醒自己不要熬夜,不要熬夜,身体最重要! 昨天晚上回去已经十点多了,手机一不小心按了紧急呼救模式,电话短信发到了我...
    九畹小童鞋阅读 263评论 0 4