这是转录组数据分析的第二章节,原文链接看这里:https://mubu.com/doc61Rk37B58xx#
1. 安装软件所需环境——Miniconda
为什么要安装Miniconda:
在了解Miniconda安装之前,需要知道bioconda, miniconda, conda, anaconda 四者之间的区别
Bioconda
Bioconda 是 conda 软件包管理器的一个镜像,专门从事生物信息学软件。
Conda
Conda 是一个开源的软件包管理系统和环境管理系统,用于安装多个版本的软件包及其依赖关系,并在它们之间轻松切换,是通用的包管理器,能装pip包(例如numpy),也能装其他语言的软件包(例如ninja, cmake),类似360软件管家。
Miniconda
Miniconda 是最小的 conda 安装环境(大小为50Mb左右),相当于conda+python+pip;只包含了conda、python、和一些必备的软件工具。
Anacond
Anaconda是一个开源的Python发行版本(安装包大小为400Mb左右),包含了conda、python等180多个科学包及其依赖项,是miniconda的扩展。
所以,安装miniconda有几个优点:
安装包小:对电脑内存小的童鞋比较友好;
自主化:用户可以自主选择需要下载的软件;
安装方法
下载软件:桌面右击Cmder——输入clear(清空桌面,第一次打开时会有很多信息挡住界面),开始开始进行操作
Miniconda官网:https://docs.conda.io/en/latest/miniconda.html (参考适合自己计算机的版本,一般时选择最新的 64位),苹果版本页面在后面,本次不做介绍,原理同上。
进入Cmder界面,输入代码:wget -c https://repo.anaconda.com/miniconda/Miniconda3-latest-Windows x86_64.exe (下载miniconda)
等待下载完即可(下载时长,与网速有关,最好选择网络好的时段下载)
安装
等下载完全以后,开始在Cmder中输入如下命令:
bash Miniconda3-latest-Windows-x86_64.exe #输入刚刚安装的最新版本#
等待上一步完成以后,开始按enter--三下空格--输入yes--再按一下enter--输入yes;
输入命名:source ~/.bashrc
如下图:
移除安装包:rm Miniconda3-latest-Windows-x86_64.exe
配置安装镜像
直接在Cmder中黏贴复制以下命名就行:
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/freeconda
config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/conda-forgeconda
config--add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/biocondaconda
config --set show_channel_urls yes
如果后面发现下载软件比较慢,可以及时更新镜像(浏览最新的博客、公众号,添加镜像即可 )
激活rna环境,进行转录组软件安装(重要,安装软件前别忘记了)
创建名为rna的软件安装环境,同时安装python=2版本的软件
conda create -n rna python=2
激活/进入conda的rna环境,进行软件安装(激活以后,软件安装快到飞起)
conda activate rna
关闭当前环境
conda deactivate
2. 安装转录组软件:
这一步教程就非常多,大家有需要可以看看后面的参考文档,我会列举一些常用的软件安装,具体的软件要依据你们自己的分析需求(这一步主要参考:青山屋主的博客http://www.biotrainee.com/space-uid-424.html)
fastqc:二代测序数据质量分析软件
代码:
conda install fastqc
fastqc #测试是否能正常打开该软件
hisat2:将测序结果比对到人类参考基因组上。HISAT2是TopHat2/Bowti2的继任者,使用改进的BWT算法,实现了更快的速度和更少的资源占用。
代码:
conda install hisat2
hisat2 -h #测试
samtools:一种处理SAM、BAM文件的工具软件。BAM格式文件是存放高通量测序中比对结果的标准格式文件。
代码:
conda install samtools
samtools –help #测试
htseq-count:htseq-count 是一款用于reads计数的软件,他能对位于基因组上的一些单位的reads数进行统计,这里所说的单位主要是指染色体上的一组位置区间(我们常见的就是gene exon)
代码:
conda install -c bioconda htseq
#手动安装ubuntu
sudo apt-get install build-essential python2.7-dev
python-numpy python-matplotlib
#Redhat系列 包括CentOs
sudo yum install python-devel numpy
python-matplotlib
#下载HTSeq
wget
[url=https://pypi.python.org/packages]https://pypi.python.org/packages[/url]
... /HTSeq-0.8.0.tar.gz
#解压
tar -zxvf HTSeq-0.8.0.tar.gz
#安装
mv HTSeq-0.8.0 Biosoft #移动到Biosoft文件夹中
cd
HTSeq-0.8.0
#进入该文件夹
python setup.py install –user #安装
#测试 在非HTSeq-0.8.0文件夹下进行
python
>>>import HTSeq
>>>
#能够在python中导入HTSeq这个包,说明安装成功。
R:一种常用语统计分析的编程语言,在生物信息分析中用于数据分析和绘图
代码:
sudo yum install epel-release
sudo yum install r
r #测试
Rstudio:Rstudio是R的集成开发环境
代码:
conda install rstudio
rstudio #测试
参考文档:
https://www.jianshu.com/p/0534043b4471 原理详细版回答
https://www.zhihu.com/question/369468216 原理简洁版回答
https://www.jianshu.com/p/0511decff9f8 Miniconda安装过程回答详细
http://www.biotrainee.com/thread-1750-1-1.html 转录组软件安装非常详细