【scRW】[3]Single-cell RNA-seq data - raw data to count matrix

根据所用文库的制备方法,RNA序列((also referred to as reads or tags)将从转录本(10X Genomics, CEL-seq2, Drop-seq, inDrops)或全长转录本(Smart-seq)的3'端(或5'端)中衍生。

Image credit: Papalexi E and Satija R. Single-cell RNA sequencing to explore immune cell heterogeneity, Nature Reviews Immunology 2018 (https://doi.org/10.1038/nri.2017.76)

方法的选择涉及感兴趣的生物学问题。 下面列出了这些方法的优点:

3’ (or 5’)-end sequencing:**

  • 通过使用独特的分子标识符进行更准确的定量,从而将生物学复制品与扩增复制品(PCR)复制品区分开来
  • 测序的细胞数量更多,从而可以更好地鉴定细胞类型群
  • 降低每细胞成本
  • 获得超过10,000个细胞的最佳结果

Full length sequencing:**

  • 检测表达的同工型水平差异
  • 鉴定表达中的等位基因
  • 测序深,细胞数量少
  • 适合细胞数量少的样品

3'末端测序需要进行与全长测序相同的许多分析步骤,但3'方案越来越流行,并且在分析中还包含一些其他步骤。 因此,我们的材料将详细介绍这3'方案的数据分析,重点是基于液滴的方法(inDrops,Drop-seq,10X Genomics)。

1. 3’-end reads (includes all droplet-based methods)

对于分析scRNA-seq数据,了解每个读数中存在哪些信息以及我们如何在分析过程中使用该信息将很有帮助。

对于3'端测序方法,源自相同转录本的不同分子的reads仅会源自转录本的3'末端,因此具有相同序列的可能性很高。
但是,文库制备过程中的PCR步骤也可能会产生重复读物。 为了确定读数是生物学的还是技术的重复,这些方法使用唯一的分子标识符unique molecular identifiers或UMI。

  • UMI不同代表reads来自不同的molecule,mapping到相同转录本的不同UMI的读段代表来自不同的分子,并且是生物学重复项-每个读段均应计数;
  • 具有相同的UMI的读段来自同一分子,是技术重复项-the UMIs should be collapsed to be counted as a single read;
  • 在下图中,应折叠ACTB的读数并将其计为单个读数,而应将ARL1的读数分别计数。


    Image credit: modified from Macosko EZ et al. Highly Parallel Genome-wide Expression Profiling of Individual Cells Using Nanoliter Droplets, Cell 2015 (https://doi.org/10.1016/j.cell.2015.05.002)

因此,我们知道需要跟踪UMI,但是还需要什么其他信息来正确量化样本中每个细胞中每个基因的表达? 无论采用液滴法,在细胞水平进行正确定量都需要以下条件:

  • Sample index: determines which sample the read originated from
    => Added during library preparation - needs to be documented
  • Cellular barcode: determines which cell the read originated from
    => Each library preparation method has a stock of cellular barcodes used during the library preparation
  • Unique molecular identifier (UMI): determines which transcript molecule the read originated from
    =>The UMI will be used to collapse PCR duplicates
  • Sequencing read1: the Read1 sequence
  • Sequencing read2: the Read2 sequence

例如,当使用inDrops v3库准备方法时,以下内容表示如何通过四次读取来获取所有信息:
[图片上传失败...(image-42432b-1590059217326)], Director of the Single Cell Sequencing Core at HMS*
](https://upload-images.jianshu.io/upload_images/11904209-be5239321de7c14f.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)

image.png

对于不同的基于液滴的scRNA-seq方法,scRNA-seq的分析工作流程相似,但是UMI,cell ID和样品索引sample indices不同, 例如,以下是10X genomics读取的示意图,其中indices, UMIs and barcodes的放置位置不同:

[图片上传失败...(image-8cb477-1590059217326)], Director of the Single Cell Sequencing Core at HMS
](https://upload-images.jianshu.io/upload_images/11904209-5b3656ed47c6747e.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)

2. Single-cell RNA-seq workflow

scRNA-seq方法将确定如何从测序读数中解析条形码和UMI。 因此,尽管一些特定步骤会略有不同,但无论采用何种方法,总体工作流程通常都将遵循相同的步骤。 常规工作流程如下所示:

The steps of the workflow are:

  • 计数矩阵的生成Generation of the count matrix(method-specific steps):
    格式化读取,对样本进行多路分解demultiplexing samples,mapping and quantification;
  • 原始计数的质量控制Quality control of the raw counts:过滤质量较差的细胞
  • 过滤计数的聚类:基于转录活性相似性对细胞进行聚类(细胞类型= 不同的簇)
  • 标记鉴定:为每个簇鉴定基因标记
  • 下游步骤-可选


    image.png

无论进行何种分析,基于每种条件的单个样本得出的种群结论都不可靠。 仍然需要生物替代品!BIOLOGICAL REPLICATES ARE STILL NEEDED!也就是说,如果您要得出与总体相对应的结论,不能仅仅是单个样本。

3.Generation of count matrix

我们将从讨论此工作流程的第一部分开始,该部分将根据原始测序数据生成计数矩阵。 我们将重点介绍基于液滴的方法(如inDrops,10X Genomics和Drop-seq)使用的3'末端测序。

image.png

测序后,测序工具将以BCL或FASTQ格式输出原始测序数据,或生成计数矩阵。 如果读取的是BCL格式,则我们将需要转换为FASTQ格式。 有一个有用的命令行工具bcl2fastq,可以轻松执行此转换。

对于许多scRNA-seq方法,从原始测序数据中生成计数矩阵都将经历相似的步骤。

image.png

umiszUMIs是用于评估scRNA-seq数据表达的命令行工具,已对转录本的3'端进行了测序。 两种工具都合并了UMI的折叠,以校正放大偏差。 此过程中的步骤包括:

image.png

如果使用10X Genomics库制备方法,则上述所有步骤可以按照这个pipeline来进行:Cell Ranger pipeline

4.data处理步骤

4.1 Formatting reads and filtering noisy cellular barcodes

The FASTQ files can then be used to parse out 解析 the cell barcodes, UMIs, and sample barcodes. For droplet-based methods, many of the cellular barcodes will match a low number of reads (< 1000 reads) due to:
以下这些原因可能造成barcode匹配的RNA的显著减少:

  • barcode包裹了floating RNA from dying cells;
  • simple cell (RBCs, etc) expressing few genes;
  • cells that failed for some reasons

在读取比对之前,需要从序列数据中过滤掉这些多余的条形码。 要进行此过滤,请提取并保存每个细胞的“cellular barcode”和“molecular barcode”。 例如,如果使用“umis”工具,则信息将以以下格式添加到每次读取的标题行中:

@HWI-ST808:130:H0B8YADXX:1:1101:2088:2222:CELL_GGTCCA:UMI_CCCT
AGGAAGATGGAGGAGAGAAGGCGGTGAAAGAGACCTGTAAAAAGCCACCGN
+
@@@DDBD>=AFCF+<CAFHDECII:DGGGHGIGGIIIEHGIIIGIIDHII#

文库制备方法中使用的已知细胞条形码应该是已知的,未知的条形码将被丢弃。

4.2 Demultiplexing sample reads

The next step of the process is to demultiplex the samples, if sequencing more than a single sample. This is the one step of this process not handled by the ‘umis’ tools, but is accomplished by ‘zUMIs’. We would need to parse the reads to determine the sample barcode associated with each cell.

4.3 Mapping/pseudo-mapping to cDNAs

To determine which gene the read originated from, the reads are aligned using traditional (STAR) or light-weight methods (Kallisto/RapMap).

4.4 Collapsing UMIs and quantification of reads

The duplicate UMIs are collapsed, and only the unique UMIs are quantified using a tool like Kallisto or featureCounts. The resulting output is a cell by gene matrix of counts:

image.png

矩阵中的每个值代表源自相应基因的细胞中的读取次数。 使用计数矩阵,我们可以探索和过滤数据,仅保留更高质量的细胞数据。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,098评论 5 476
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,213评论 2 380
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 149,960评论 0 336
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,519评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,512评论 5 364
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,533评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,914评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,574评论 0 256
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,804评论 1 296
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,563评论 2 319
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,644评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,350评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,933评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,908评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,146评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,847评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,361评论 2 342