使用Macbook进行单细胞测序上游sra文件处理

前言

想要白嫖子宫内膜癌的单细胞测序数据用来做验证，搜到一篇做的很全面的单测文章，但作者上传的是SRA文件，只好拾起3年前跟生信技能树曾老师启蒙的上游数据分析技能。

网上一顿搜索，装了好多包，结果本次白嫖前的工作准备真正用上的就3个，sra-tool，parallel-fastq-dump（基于 sra-tool，所以 sra-tool 是必须的）和star solo，嗯还有迅雷（10年没用过了我）。

这篇笔记旨在记录一些我记不住的设置（主要是star使用的g++编译，在非intel芯片上安装需要进行的环境设置），也希望能给想用mac进行上游数据分析的同道一些参考。

image.png

一、搭建测序数据处理环境

1. conda环境搭建参考

https://blog.csdn.net/weixin_47614014/article/details/118070452

image.png

2. 上游数据处理包安装参考

https://mp.weixin.qq.com/s/mo_oDD_ZWrC18EKHkLNR9g

image.png

二、参考基因组下载

http://ftp.ebi.ac.uk/pub/databases/gencode/

①genome.fa.gz是基因组文件，解压为genome.fa文件
②gtf或gff3.gz是注释文件（有全基因组注释的、外显子注释的、非编码RNA注释的，按需）
③可用复制链接使用迅雷下载

image.png

三、上游测序数据下载（本例数据量大，勿作练习用）

https://www.ncbi.nlm.nih.gov/sra/?term=SRP349751

1. 网上教程教我的

①点All runs

image.png

②下载Accession list

image.png

③使用Sra toolkit下载

image.png

2. 速度实在太慢了，我用的迅雷

①15个数据，也不是很多，链接慢慢改吧，速度喜人！
②下载 normalize 的数据，跟使用 sra toolkit 下载的一致，可以用 fast-dump 直接转，lite.sra的数据需要特殊处理
③需添加后缀.sra

image.png

四、sra文件解压为fastq文件

使用parallel-fastq-dump，因为快
1. 安装 parallel-fastq-dump
https://anaconda.org/bioconda/parallel-fastq-dump/files
下载noarch版本（python环境，兼容Mac系统）或者osx版本，因为在终端使用conda下载容易出现不兼容OSX的版本，所以我都是进官网下载，再解压安装（反正用Macbook，也是因为没租用linux服务器是吧？不需要在乎服务器可视化问题）

image.png

# 需要使用python环境的包，我都放在miniforge2/pkgs文件夹里面了，我也不知道不放里面解压有没有影响
tar -vxzf parallel-fastq-dump-0.6.3-py36_1.tar.bz2
# 配置环境
vim ~/.zshrc
# export PATH="/Users/用户名/miniforge2/pkgs/parallel-fastq-dump-0.6.3-py36_1/bin:$PATH"
source ~/.zshrc
# 查看是否安装成功
conda list

2. 使用parallel-fastq-dump解压sra文件
双端的单测数据一般都生成3个fastq文件，分别是I1（index文件），R1（细胞标签read文件）和R2（单个细胞内测序文件），后续分析主要用到R1和R2具体可参考https://www.jianshu.com/p/dadd202c34be

# 即便使用parallel-fastq-dump 8线程，20几G的sra文件也用了半个多小时
parallel-fastq-dump --sra-id SRR17165228 --threads 4 --outdir ../rawfq/ --split-files --gzip
# 如果测序文件只是几个G（细胞量少吧），可以使用批量程序挂机
ls *.sra | while read id
do ( nohup parallel-fastq-dump -t 72  -O ../rawfq/ --split-files --gzip -s $id &)
done
# 没有试fasterq-dump，虽然它也支持多线程，但不支持gzip压缩，本例数据太大，应该不够空间存放。。fastq-dump、fasterq-dump和parallel-fastq-dump区别和使用可以参考https://www.jianshu.com/p/97e7a70aaf79

五、fastq文件比对并输出Counts文件

1. 安装STAR

https://github.com/alexdobin/STAR
我遇到的主要问题包括：
①git clone速度慢→可以通过GitHub Desktop进行下载
②gcc编译→修改编译环境，参考https://blog.csdn.net/qq_33957603/article/details/131757260
③-mavx2报错→source/Makefile文件里修改为CXX_SIMD_FLAGS=-march=native
ps. 更新了2.7.11a版本似乎可以使用zip下载了，同时makefile文件里面也不存在“CXX_SIMD_FLAGS”了，应该已经解决Mac安装该软件时候-mavx2报错问题。

image.png

image.png

image.png

image.png

2. 建立比对索引

STAR --runMode genomeGenerate --genomeDir ~/Downloads/Reference/hg38 --genomeFastaFiles ~/Downloads/Reference/hg38/GRCh38.p14.genome.fa --sjdbGTFfile ~/Downloads/Reference/hg38/gencode.v44.annotation.gtf

3. 下载barcodes

STARsolo与普通的转录组比对区别在于你需要在比对时加上whitelist，参考https://www.jianshu.com/p/b2076d670558
barcodes是细胞的标签序列文件，使用10XGenomics试剂盒产生的数据，可以从10XGenomics处下载barcodes
https://github.com/10XGenomics/cellranger/tree/master/lib/python/cellranger/barcodes
本例用到的是3M-february-2018.txt

image.png

4. 运行单细胞比对

先解压fastq.gz文件解压到移动硬盘（其实上面可以用faster-dump生成fastq文件，这里就不需要解压了，主要还是硬盘容量不够，fastq缓冲文件会占用硬盘空间）
尽量删除占用电脑硬盘的文件，因为bam文件比fastq文件大几倍，本例生成的bam文件200G左右（请大佬们教我怎么将缓冲文件也保存到移动硬盘，可能可以解决这个电脑硬盘不够的问题）

STAR --runThreadN 16 \ #多线程，所以比cellrange快，但是Mac本来也用不了cellrange，不知道修改编译环境后能不能安装，未尝试   
--genomeDir ../../Reference/hg38 \ #比对索引目录
--readFilesIn *_3.fastq *_2.fastq \ #见上述3为R2文件，2为R1文件，starsolo需要先比对R2文件，再通过R1文件分配到单细胞里面去
--soloType CB_UMI_Simple \ #10X的单细胞测序用这个one UMI and one Cell Barcode of xed length in read2, e.g. Drop-seq and 10X Chromium
--soloCBwhitelist ../../Reference/barcodes/3M-february-2018.txt \ #barcodes文件
--soloBarcodeReadLength 0 #默认是1，但本例报错，可能与添加了接头序列导致与barcodes文件的碱基数不匹配

starsolo还可以根据不同的比对文件使用单细胞测序数据进行多种分析，例如ncRNA、exon可变剪接等，参考文章先保存在这了https://mp.weixin.qq.com/s/XoXBq6OMkghlhsg4yurHJA

5. 生成进行下游分析的文件啦

image.png

后话

这次白嫖花了半个月时间，希望后面再白嫖需要上游分析的测序数据，可以少花些时间，毕竟代码这东西用着用着就又报错了😭😭😭

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 203,179评论 5赞 476
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,229评论 2赞 380
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 150,032评论 0赞 336
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,533评论 1赞 273
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,531评论 5赞 365
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,539评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,916评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,574评论 0赞 256
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,813评论 1赞 296
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,568评论 2赞 320
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,654评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,354评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,937评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,918评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,152评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,852评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,378评论 2赞 342

使用Macbook进行单细胞测序上游sra文件处理

前言

一、搭建测序数据处理环境

1. conda环境搭建参考

2. 上游数据处理包安装参考

二、参考基因组下载

三、上游测序数据下载（本例数据量大，勿作练习用）

1. 网上教程教我的

2. 速度实在太慢了，我用的迅雷

四、sra文件解压为fastq文件

五、fastq文件比对并输出Counts文件

1. 安装STAR

2. 建立比对索引

3. 下载barcodes

4. 运行单细胞比对

5. 生成进行下游分析的文件啦

后话

推荐阅读更多精彩内容