CellRanger使用学习

本文参考多篇简书教程(请查看本文最后的参考资料)

安装

可查看10xgenomics官网安装教程

# 2.0版本下载
curl -o cellranger-2.0.2.tar.gz "http://cf.10xgenomics.com/releases/cell-exp/cellranger-2.0.2.tar.gz?Expires=1557256518&Policy=eyJTdGF0ZW1lbnQiOlt7IlJlc291cmNlIjoiaHR0cDovL2NmLjEweGdlbm9taWNzLmNvbS9yZWxlYXNlcy9jZWxsLWV4cC9jZWxscmFuZ2VyLTIuMC4yLnRhci5neiIsIkNvbmRpdGlvbiI6eyJEYXRlTGVzc1RoYW4iOnsiQVdTOkVwb2NoVGltZSI6MTU1NzI1NjUxOH19fV19&Signature=HoJUuPo4iTFdQgzFU1GH7uKf3uGitQxTjB6WOA9qGPlejf7tNcBPjO65WuSUZ~w8WWdeAvky-oV7XGfheY-bUr2b7QHr7jQEqc84cyU~PLvT~fYjkgC7cG7nlpbJOT~b7U~YH9amvR~SCLlyynp7scPDIA~9~keCYrIPgevTf2QyktybuSyjNTwugefOic~~XFkc9lrS~WQ9MNA1CLl4ExlQKsxWS77PEB6mwrMZXX65obDnZW9fIs3dIny6H5YoadbkgmsT52jmLien6PsG1g2jpAO90pPuHoru8LL64Q9gmB3I0nJAqi3EmrO3GKnUpHUhGb6doKmjSN6XccpmsA__&Key-Pair-Id=APKAI7S6A5RYOXBWRPDA"
# 2.1版本下载
curl -o cellranger-2.1.1.tar.gz "http://cf.10xgenomics.com/releases/cell-exp/cellranger-2.1.1.tar.gz?Expires=1557260110&Policy=eyJTdGF0ZW1lbnQiOlt7IlJlc291cmNlIjoiaHR0cDovL2NmLjEweGdlbm9taWNzLmNvbS9yZWxlYXNlcy9jZWxsLWV4cC9jZWxscmFuZ2VyLTIuMS4xLnRhci5neiIsIkNvbmRpdGlvbiI6eyJEYXRlTGVzc1RoYW4iOnsiQVdTOkVwb2NoVGltZSI6MTU1NzI2MDExMH19fV19&Signature=RNQd-gTASTQhtnUSBfQWrnqo6Pyy2wDXtV5tlxkG97727GvoRhMqFXbEsz4gJl2BMckdVvW3S1tZRwRo5pmxPzmhq-8RKxf99pGqlzo84HYqhbIRkxXlIbLbj-u3PUJqo8cesWpbSVSKkS2TCNS-9GMFNieQswqMS2-DN4BqoBOJnWr7T4wlOMd9hypXWwOsW2P2fqaM-WP2ooMyo-oIxm3y9gDghXdDEP5lvHU7GCQcFGGexkdIrD6S5p8JPJ1DB5XieGrtEuP1YVp6tLMGXFoRWXS8dQLI1egWDYlOuRaiQgLIb3o5ZxBg5NpzLPP5kDHMAVzJFdBpf~~rkyNYTA__&Key-Pair-Id=APKAI7S6A5RYOXBWRPDA"
# 3.1.0版本下载
curl -o cellranger-3.1.0.tar.gz "http://cf.10xgenomics.com/releases/cell-exp/cellranger-3.1.0.tar.gz?Expires=1592533436&Policy=eyJTdGF0ZW1lbnQiOlt7IlJlc291cmNlIjoiaHR0cDovL2NmLjEweGdlbm9taWNzLmNvbS9yZWxlYXNlcy9jZWxsLWV4cC9jZWxscmFuZ2VyLTMuMS4wLnRhci5neiIsIkNvbmRpdGlvbiI6eyJEYXRlTGVzc1RoYW4iOnsiQVdTOkVwb2NoVGltZSI6MTU5MjUzMzQzNn19fV19&Signature=devRIwYTTAupcAWpv2pvGblUKXeqwRmRO~cp49UGz5XTM~4vzzGGS63ZwpZ8VnDy5wjbv27ydnx19jN~xyIE9dkr8XFnhTNNgs3G9AYC72oiCTbv1j38ohEy9hfoVoFCl7x5b1-4DG-~SaIggBIDJB0ADLn28xGuyoIKPpuc69hdTEzbriFDdK-596SIKGT-ljXyCddreC81RDuPQs5wARicScA058E7A4HD~5R9iPew1ZxCjkPmD7PQtg976zJA3AOtJDPDeLQM-Xps~DgbpuHvRqEYA~GTP8lTX5icO4VOcd24btgHOb5Qo2jQDb5VtHJeMlSH6mTzz4jFhZ8vBQ__&Key-Pair-Id=APKAI7S6A5RYOXBWRPDA"
# 解压 
tar -zxvf cellranger-2.0.2.tar.gz 
# 添加环境变量
echo 'export PATH=/home/biosoft/cellranger-2.2.0:$PATH' >> ~/.bashrc
source  ~/.bashrc

下载参考基因组数据

可直接下载10xgenomics官网提供的已构建好的索引文件,否则需要自己构建(使用cellranger mkgtf命令)

#人类GRCh38  #Human reference (GRCh38) dataset required for Cell Ranger
curl -O http://cf.10xgenomics.com/supp/cell-exp/refdata-cellranger-GRCh38-3.0.0.tar.gz
#人类hg19  #Human reference (hg19) dataset required for Cell Ranger
curl -O http://cf.10xgenomics.com/supp/cell-exp/refdata-cellranger-hg19-3.0.0.tar.gz
#小鼠   Mouse reference dataset required for Cell Ranger.
curl -O http://cf.10xgenomics.com/supp/cell-exp/refdata-cellranger-mm10-3.0.0.tar.gz
#解压
tar -zxvf refdata-cellranger-mm10-3.0.0.tar.gz
tar -zxvf refdata-cellranger-GRCh38-3.0.0.tar.gz

下载单细胞测序example data(fastq格式)

官网example data

#小鼠 1k Brain Cells from an E18 Mouse(931 cells ) 5.31 GB (Analysis run with --expect-cells=2000)(Analysis run with reference version 1.2.0)
nohup wget 'http://cf.10xgenomics.com/samples/cell-exp/2.1.0/neurons_900/neurons_900_fastqs.tar' &
tar -xvf neurons_900_fastqs.tar
#人类 4k PBMCs from a Healthy Donor(4,340 cells)36.38 GB  (Analysis run with --expect-cells=5000)
nohup wget 'http://s3-us-west-2.amazonaws.com/10x.files/samples/cell-exp/2.1.0/pbmc4k/pbmc4k_fastqs.tar' &
#人类 1k PBMCs from a Healthy Donor (996 cells ,v2 chemistry)  5.94 GB     (run with --expect-cells=1000)
wget http://cf.10xgenomics.com/samples/cell-exp/3.0.0/pbmc_1k_v2/pbmc_1k_v2_fastqs.tar

如果从GEO下载SRR数据,再用fastq-dump转换为fastq格式,需注意使用另外一个参数--split-files来替代--split-3,才能生成3个fastq文件I1、R1、R2(index、barcode+UMI、测序reads)

cellranger流程

cellranger有多个流程,主要有4个流程 mkfastq、定量 count、组合 aggr、reanalyze。
如果是bcl原始测序数据,需用mkfastq转换为fastq格式(根据index将reads分配至不同的样本)。如果是fastq格式数据,则可直接用count命令定量,得到表达矩阵,然后用aggr命令整合样本(比如实验组有多个重复样本),最后reanalyze进行后续降维聚类等等分析。(最简单的流程:如果是单个样本,只用count命令+R包即可)

定量 count

命令行参考:
https://www.jianshu.com/p/c7e41948ad0a
https://www.jianshu.com/p/5157ab9f6977
官网tutorial

cellranger count --help  #查看更多参数

cellranger count --id=sample345 \
                   --transcriptome=/opt/refdata-cellranger-GRCh38-1.2.0 \
                   --fastqs=/home/scRNA/runs/HAWT7ADXX/outs/fastq_path \
                   --sample=mysample \
                   --expect-cells=1000 \
                   --nosecondary
# id指定输出文件存放目录名
# transcriptome指定与CellRanger兼容的参考基因组
# fastqs指定mkfastq或者自定义的测序文件
# sample要和fastq文件的前缀中的sample保持一致,作为软件识别的标志
# expect-cells指定复现的细胞数量,这个要和实验设计结合起来
# nosecondary 只获得表达矩阵,不进行后续的降维、聚类和可视化分析(因为后期会自行用R包去做)

输出结果说明:
filtered_gene_bc_matrices:是重要的一个目录,下面又包含了 barcodes.tsv.gz、features.tsv.gz、matrix.mtx.gz,是下游Seurat、Scater、Monocle等分析的输入文件。
web_summary.html:质控比对报告(一般认为外显子的比对率要在60%以上)。barcode用来标记细胞,UMI用来标记转录本;其次,barcodes数量时要大于细胞数量的(以保证每个细胞都会有barcode来进行区分)。

组合 aggr

参考 https://www.jianshu.com/p/5157ab9f6977
官网tutorial

当处理多个生物学样本或者一个样本存在多个重复/文库时,最好的操作就是先分别对每个文库进行单独的count定量,然后将定量结果利用aggr整合成单一的feature-barcode matrix。

cellranger aggr --help
### step1 分别count
$ cellranger count --id=LV123 ...
... wait for pipeline to finish ...
$ cellranger count --id=LB456 ...
... wait for pipeline to finish ...
$ cellranger count --id=LP789 ...
... wait for pipeline to finish ...

## step2 构建Aggregation CSV
# 示例AGG123_libraries.csv
library_id,molecule_h5
LV123,/opt/runs/LV123/outs/molecule_info.h5
LB456,/opt/runs/LB456/outs/molecule_info.h5
LP789,/opt/runs/LP789/outs/molecule_info.h5
# 其中
# molecule_h5:文件molecule_info.h5 file的路径 

### step3
cellranger aggr --id=AGG123 \
                  --csv=AGG123_libraries.csv \
                  --normalize=mapped
# 结果输出到AGG123这个目录中
# --id 命名输出目录
# --csv Aggregation CSV,为逗号分隔的2列,第一列为自定义的library id,第二列为上一步骤count流程的输出文件molecule_info.h5的路径
# --nosecondary 跳过降维聚类

aggr还可以整合不同Chemistry Versions(如V2,V3)的文库,矫正批次效应(batch effect correction)
只需要Aggregation CSV多加一列:
library_id,molecule_h5,batch
LV123,/opt/runs/LV123/outs/molecule_info.h5,v2_lib
LB456,/opt/runs/LB456/outs/molecule_info.h5,v3_lib
LP789,/opt/runs/LP789/outs/molecule_info.h5,v3_lib

术语解释

index标记样本,barcode标记细胞,UMI标记转录本。
i7 sample index (library barcode)
是加到Illumina测序接头上的,保证多个测序文库可以在同一个flow-cell上或者同一个lane上进行混合测序(multiplexed)。它的作用就是在CellRanger的mkfastq 功能中体现出来的,它自动识别样本index名称(例如:SA-GA-A1),将具有相同4种oligo的fq文件组合在一起,表示同一个样本。它保证了一个测序lane上可以容纳多个样本。一个index set有4个oligos。

Barcode
是10X特有的,用来区分GEMs,也就是对细胞做了一个标记。一般在拆分混样测序数据(demultiplexing)这个过程后进行操作,当然这也很符合原文的操作。

UMI
UMI就是Unique Molecular Identifier,由4-10个随机核苷酸组成,在mRNA反转录后,进入到文库中,每一个mRNA随机连上一个UMI,根据PCR结果可以计数不同的UMI,最终统计mRNA的数量。它的主要作用是,处理PCR 扩增偏差,因为起始文库很小时需要的PCR扩增次数就越多,因为越容易引入扩增误差。

v2 chemistry和v3 chemistry的区别:
和V2相比,V3试剂盒中所用的UMI和PolyT的长度都发生了变化,从而导致测序得到的R1和R2端的序列长度也不一致,V2试剂盒的R1端长度为26bp, 包含16bp的barcode和10bp的UMI序列,V3试剂盒的R1端长度为28bp, 包含16bp的barcode和12bp的UMI序列;V2试剂盒的R2端为98bp, V3试剂盒的R2端为91bp。

注意

CellRanger 定量count过程输入文件指定命名格式为
[sample name]S1_L00[lane number][read type]_001.fastq.gz
read type有3种,I1为sample index read, R1为barcode和UMI, R2才是测序read.
例如:
pbmc_1k_v2_S1_L001_I1_001.fastq.gz
pbmc_1k_v2_S1_L001_R1_001.fastq.gz
pbmc_1k_v2_S1_L001_R2_001.fastq.gz
在SRA或ENA下载的数据要自己重命名为cellranger输入命名格式,
比如,将原来的SRR7692286_1.fastq.gz改成SRR7692286_S1_L001_I1_001.fastq.gz
依次类推,将原来_2的改成R1,将_3改成R2

cat  SRR_Acc_List-9245-3.txt | while read i ;do (mv ${i}_1*.gz ${i}_S1_L001_I1_001.fastq.gz;mv ${i}_2*.gz ${i}_S1_L001_R1_001.fastq.gz;mv ${i}_3*.gz ${i}_S1_L001_R2_001.fastq.gz);done

cellranger还提供了一个小工具,让你全面了解你的linux性能,查看服务器配置。比如查看当前电脑可用核数。

cellranger sitecheck > sitecheck.txt

参考资料:
https://www.jianshu.com/p/9040b7573380
https://www.jianshu.com/p/18665f9de0c1
https://www.jianshu.com/p/8926dc87898d
https://www.jianshu.com/p/c7e41948ad0a
https://www.jianshu.com/p/62f209128f91
https://www.jianshu.com/p/46f6b08cbec2
http://www.bio-info-trainee.com/3017.html
https://www.jianshu.com/p/5157ab9f6977
https://www.jianshu.com/p/30de2aea4b74
https://www.jianshu.com/p/e8b2b9a43cb3

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 194,088评论 5 459
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 81,715评论 2 371
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 141,361评论 0 319
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,099评论 1 263
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 60,987评论 4 355
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,063评论 1 272
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,486评论 3 381
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,175评论 0 253
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,440评论 1 290
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,518评论 2 309
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,305评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,190评论 3 312
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,550评论 3 298
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 28,880评论 0 17
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,152评论 1 250
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,451评论 2 341
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,637评论 2 335