单细胞测序上游分析-从原始数据到cellranger定量

为避免造成环境污染，建议使用conda创建隔离环境进行分析

#创建隔离环境
conda create -n 10X
#激活隔离环境
conda activate 10X

添加必要的conda镜像

conda config --add channels conda-forge　　　
conda config --add channels defaults　　　
conda config --add channels r　　　
conda config --add channels bioconda
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/conda-forge/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/msys2/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/bioconda/
conda config --add channels https://mirrors.ustc.edu.cn/anaconda/pkgs/free/
conda config --add channels https://mirrors.ustc.edu.cn/anaconda/cloud/bioconda/
conda config --set show_channel_urls yes

1.原始数据下载及转换

从GEO下载原始数据需要使用官方工具sra-tools
安装sra-tools

conda install -y -c bioconda sra-tools

数据下载

在SRA数据库中检索后勾选需要下载的数据并导出为文件

将获取的文件上传至服务器，并启用sra-tools中的prefetch下载

#顺序下载
prefetch --option-file SraAccList.txt

下载后会在目录下得到包含sra文件的文件夹

1.多线程下载。

cat SRR_Acc_List.txt | parallel -j 10 "prefetch {} -X 5000000000000"

2.这里还可以使用ascp进行下载，速度快，但个人使用体会不如prefetch稳定，反正是丢到服务器，不如图个稳定安心睡觉。

将所有下载的SRA文件转移到一个目录下方便后续批量分析

mkdir raw
mv SRR*/*.sra raw/
cd raw

这样我们就将所有的sra文件汇总到了raw文件夹下。接下来需要对sra文件转换为fastq。

SRA批量转换为fastq

首先在raw目录下写一个批量脚本,我这里命名为sra2fastq.sh
脚本内容：

for i in *sra  
do  
echo $i  
pfastq-dump --gzip --split-files -t 32 $i  
done

由脚本可见，这里我使用了pfastq-dump以实现多线程运算。具体安装方法：shell下运行

git clone https://github.com/inutano/pfastq-dump
cd pfastq-dump
chmod a+x bin/pfastq-dump
##将pfastq-dump添加到环境
sudo vim ~/.bashrc
#最后面添加一行,注意修改你保存的绝对路径
export PATH=$PATH:/home/xuran/Desktop/10X/pfastq/pfastq-dump/bin:$PATH
#保存后刷新bash环境
source ~/.bashrc

为脚本添加权限并运行

chmod 777 sra2fastq.sh
bash sra2fastq.sh

运行完毕后我们就讲sra文件转换为了gz压缩后的fastq文件。

这里存在三种情况：

从sra拆分的fastq文件只有一个：单端测序
从sra拆分的fastq文件有两个：双端测序
从sra拆分的fastq文件有三个：双端测序read+index

单细胞测序都为第2,3种情况

详见下图说明

index文件不是必须的,因此不必纠结分割出来的是两个还是三个，只需要下面分析注意一下就可以。

i7 sample index是加到Illumina测序接头上的，保证多个测序文库可以在同一个flow-cell上或者同一个lane上进行混合测序(multiplexed)。当然可以自己指定index，但更多情况下会使用10X公司提供的index序列(bundled index sets)，针对不同项目使用的index也是不同的。不过共性就是：96孔板的每个孔中都加入了4种不同的index oligos混合(详见：https://kb.10xgenomics.com/hc/en-us/articles/218168503-What-oligos-are-in-my-sample-index-)。

还可以对fastq文件进行质控，对于单样本的多个run，可以舍弃其中质量较差的run，这里省略，个人认为意义不大。

2.cellranger流程

为了在下游分析中让cellranger指定识别我们的fastq文件进行下游分析，使用官网推荐的命名格式进行命名

写一个批量重命名为cellranger推荐格式的脚本，这里我保存为rename.sh。脚本内容如下：

cat SraAccList.txt | while read i ;do (mv ${i}_1*.gz ${i}_S1_L001_R1_001.fastq.gz;mv ${i}_2*.gz ${i}_S1_L001_R2_001.fastq.gz);done

由于我这里作者上传的只有两边Read的fastq，不包含Index，因此我只批量命名了两个Read文件名称，如果你得项目包含了index可根据你的需求结合cellranger官方建议进行改写。

chmod 777 rename.sh
bash rename.sh

bb430563c2ce9.png

cellranger安装及参考基因组下载

下载

#参考基因组下载（human）
curl -O https://cf.10xgenomics.com/supp/cell-exp/refdata-gex-GRCh38-2020-A.tar.gz
#cellranger下载
curl -o cellranger-6.1.2.tar.gz "https://cf.10xgenomics.com/releases/cell-exp/cellranger-6.1.2.tar.gz?Expires=1649559567&Policy=eyJTdGF0ZW1lbnQiOlt7IlJlc291cmNlIjoiaHR0cHM6Ly9jZi4xMHhnZW5vbWljcy5jb20vcmVsZWFzZXMvY2VsbC1leHAvY2VsbHJhbmdlci02LjEuMi50YXIuZ3oiLCJDb25kaXRpb24iOnsiRGF0ZUxlc3NUaGFuIjp7IkFXUzpFcG9jaFRpbWUiOjE2NDk1NTk1Njd9fX1dfQ__&Signature=Zwk8l6ickwwGCQCAcsHziaoVtnS3MI0yjZMiaqV8UiyL6rW4vTjpyMHFLl04KDWpKpuMi~6D6RfHrJlZKTli---KBfC05b5u8mVcA28uDEZuSyHiOnEpI-cDdwtJ5SuGyjuNbvsUBxTCyJ~mMkrNxTivGC5XCpx6dj312qL4d4RImwEWmwMl0Nm7L8OcRGVLlujgODH51bwB03LCq1VoYIE-ECu7IhVCHlkXRzG9jLpnP98b4xf5x50WitToM4BcsW3kuQBk6w8AXjNLk3zLJwLbqKPxjAhWGZofYIKV4p-3C6G0wuJm-6XRYE0q25KrTYuDVm6Hhr~Yk46XM7Z1MA__&Key-Pair-Id=APKAI7S6A5RYOXBWRPDA"

解压两个文件

tar -xzvf filename

把cellranger添加到系统环境。

sudo vim ~/.bashrc

将下方这句添加到.bashrc文件中，注意修改目录

export PATH=~/download/cellranger-6.1.2:$PATH

更新一下.bashrc文件。

source ~/.bashrc

测试安装是否正确

cellranger testrun --id=tiny

如果运行成功会显示Pipestance completed successfully!

接下来就进入到了cellranger 定量的正式环节，为批量运行先在目录下写一个运行脚本

在目录下编写一个cellranger运行脚本，我保存为run-cellranger.sh。内容如下：

db=/home/xuran/Desktop/10X/cellranger/refdata-gex-GRCh38-2020-A  
ls $db  
fq_dir=/home/xuran/Desktop/10X/raw 
cellranger count --id=$1 \  
--localcores=32 \  
--transcriptome=$db \  
--fastqs=$fq_dir \  
--sample=$1 \  
--nosecondary \  
--expect-cells=5000

注意修改

db后面为你所下载的参考基因组目录。
fq_dir后面为你得原始fastq地址
--localcores为指定最大使用线程数
--nosecondary为不进行聚类分群分析，因为后续使用seurat分析
--expect-cells为指定最大细胞数，根据项目决定

批量并行run-cellranger.sh进行比对定量

cat SraAccList.txt |while read id;do (nohup  bash run-cellranger.sh $id 1>log-$id.txt 2>&1 & );done

批量顺序运行run-cellranger.sh进行比对定量
写一个脚本命名为muti.sh

cat SRR_Acc_List.txt |while read id;do ( bash run-cellranger.sh $id  );done

后台执行脚本

nohup bash mutil.sh

SraAccList.txt为最一开始从sra网站上保存的访问号文件。

至此，单细胞转录组从上游原始数据下载到cellranger定量的流程就结束了。

结果查看

分样本的文件夹和每个样本的运行日志，我们进入其中一个去查看。

其中最重要的就是outs文件夹

其中web_summary.html为本次分析的质量情况

filtered_feature_bc_matrix目录下则保存了用于下游Seurat分析的三个文件

参考来源：
https://cloud.tencent.com/developer/article/1949641
https://support.10xgenomics.com/single-cell-gene-expression/software/downloads/latest?

鸣谢：
I thank Dr.Jianming Zeng(University of Macau), and all the members of his bioinformatics team, biotrainee, for generously sharing their experience and codes.

问题交流：
Email: xuran@hrbmu.edu.cn

最后编辑于：2022.05.03 14:13:44

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 202,056评论 5赞 474
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 84,842评论 2赞 378
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 148,938评论 0赞 335
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,296评论 1赞 272
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,292评论 5赞 363
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,413评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,824评论 3赞 393
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,493评论 0赞 256
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,686评论 1赞 295
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,502评论 2赞 318
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,553评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,281评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,820评论 3赞 305
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,873评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,109评论 1赞 258
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,699评论 2赞 348
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,257评论 2赞 341