第一章 - Python和软件生态

在这一章,我们将介绍如下内容:

  • 使用Anaconda安装软件
  • 使用docker安装软件
  • 通过rpy2与R进行交互
  • 使用Jupyter Notebook来展示R magic

介绍

我们将从安装所需的软件开始学习。其中包括Python的发行版,一些基础的Python库和扩展的生信软件。在此,我们还将关注Python之外的世界。在生信和大数据领域,R语言也扮演着重要的角色。你将会学习如何通过rpy2这个桥梁与R进行交互。我们也会通过Jupyter Notebook探索IPython框架提供的优势,可以让我们便利地与R交互。这一章将会为我们本书余下的计算生物学奠定基础。

针对不同的使用者有着不同的需求环境,我们将介绍两种不同软件安装方式。一种方法是使用 Anaconda Python (http://docs.continuum.io/anaconda/) 发行版,另一种方式则是通过Docker(一种基于容器共享同一个操作系统内核的服务器虚拟化方法——https://www.docker.com/)进行软件安装。如果你使用的是Winodws操作系统,强烈建议更换操作系统或者通过修改Windows设置使用Docker;在macOS,可以本地安装大部分软件,但也可以使用Docker。

通过Anaconda安装所需的软件

在我们开始之前,我们需要预先安装一些软件。下面部分将带你了解软件及安装它们的步骤。一个可选的方式使用Docker,之后的一切可以通过docker 容器处理好。

如果你已经使用了不同Python版本,那么强烈推荐考虑使用Anaconda,因为它已经成了数据科学的事实标准。此外,它是允许从 Bioconda 安装软件的发行版 (https://bioconda.github.io/)。

Getting ready

Python 可以在不同的环境之上运行。 例如,可以在 Java 虚拟机 (JVM)(通过 Jython)或 .NET(使用 IronPython)中使用 Python。 但是,在这里,我们关心的不仅仅是Python,还有围绕它的完整的软件生态; 因此,我们将使用标准 (CPython) 实现,因为 JVM 和 .NET 版本的存在主要是为了与这些平台的本机库进行交互。 一个可能可行的替代方案是使用 Python 的 PyPy 实现,注意不要与 Python Package Index (PyPI) 混淆。

除注明的情况外,我们将只使用Python3。如果你刚开始学习Python和生物信息,那么任何的操作系统都可以,但是在这里,我们主要关注的是中级至高级的应用。因此,虽然使用Windows和macOS是可行的,但大部分繁重的分析将在Linux系统上运行(也可能是Lunux集群上运行)。下一代测序(Next-generation sequencing ,NGS )数据分析和复杂的机器学习大部分都在Linux计算集群上运行。

如果您使用的是 Windows,则应考虑升级到 Linux 以进行生物信息学工作,因为大多数现代生物信息学软件无法在 Windows 上运行。 macOS 几乎适用于所有分析,除非计划使用可能基于 Linux 的计算机集群。

如果你使用的Windows或者macOS,无法方便的方便地访问Linux,也无需担心。现代的虚拟化软件(诸如VirtualBox和Docker)将会拯救你,它允许在操作系统上安装一个虚拟的Linux。

Warning: 如果使用Windows,那么很多工具将无法使用

Tip : 生物信息和数据科学正以惊人的速度发展;这不是大话,而是现实。当安装一些软件库时,选择版本可能会很棘手。根据代码中的依赖,它可能在一些旧版本上不可用,或者甚至在一些更新的版本上也不可用。希望使用的所有代码可以正确地标明依赖关系(尽管很难)。

本书的使用的代码存放在git仓库:https://github.com/PacktPublishing/Bioinformatics-with-Python-Cookbook-Second-Edition.git。(考虑到有些朋友访问github仓库比较慢,我在gitee上拷贝了一份,地址是:https://gitee.com/bingpeng/Bioinformatics-with-Python-Cookbook-Second-Edition.git)。为了访问git仓库,需要安装Git。可选的,你可以从github上直接下载ZIP压缩包。事实上,习惯git使用可能是一个好主意,因为很多的科学计算软件在git上面开发。(学习git推荐廖雪峰老师的git教程:https://www.liaoxuefeng.com/wiki/896043488029600

在开始安装Python技术栈之前,将需要先安装一些额外的需要与之交互的非Python软件。安装列表随着章节而异,并且所有的章节特定的包都在其代表章节中进行解释。一些不常见的包也会在其特定章节中提及。幸运的是,从本书第一版开始,绝大部分的生信软件都能简单地通过conda基于Bioconda项目进行安装。

如果你对于特定的章节不感兴趣,那么你可以跳过相关的包和库。当然,你可能有很多其他生信软件,如针对NGS分析有bwa和GATK。因为我们没有与它们直接交互(尽管可能与它们的输出有交互),所以在此我们不会讨论它们。

你将需要安装一些编译开发器和库,所有这些都是免费的。在Ubuntu,可以使用apt-get工具;在centos,可以使用yum工具,在macOS,可以考虑Xcode(https:/ /developer.apple.com/xcode/ )。

在下面的表格中,你将发现最重要的Python软件列表:


软件列表

在大部分示例中,我们都采用了某种保守的方法处理表格。尽管我们会不时使用pandas,但大部分时候我们使用标准的Python。随着时间推移和pandas变得越来越普遍,使用pandas处理所有的表格数据可能是有意义的(如果内存合适的话)。

How to do it

查看以下步骤开始使用:

  • 从anaconda网站( https://www.anaconda.com/)下载发行版。选择Python3版本下载。你可以接受所有的默认安装选项,但是需要确保conda的二进制执行文件在环境变量中(别忘记开一个新的窗口使得环境生效)。如果你已有一个Python的发行版,需要注意PYTHONPATH变量和已存在的python执行文件路径。最好的方式是重置PYTHONPATH。如果可能的话,卸载其他python版本和库。
  • 我们可以通过conda创建一个含有biopython=1.70的名叫bioinformatics的环境,命令如下:
conda create -n bioinformatics biopython biopython=1.70
  • 激活该环境
source activate bioinformatics
  • 添加bioconda和conda-forge的channel到软件源列表中
conda config --add channels bioconda conda config --add channels conda-forge
  • 安装核心包
conda install scipy matplotlib jupyter-notebook pip pandas cython numba scikit-learn seaborn pysam pyvcf simuPOP dendropy rpy2

其中的部分包可能已经在核心发行版中已被安装

  • 使用conda安装R
conda install r-essentials r-gridextra

r-essentials包含了ggplot2在内的众多R包,稍后我们会用到它。同样的,我们还安装了r-gridextra,将会在Notebook中使用到它。

(按照我自己的使用体会来看,conda确实非常好用,但不建议大家直接本地安装,可以与docker连用,在容器中安装conda和对应环境。使用conda的时候可以把源替换为清华的镜像源,具体替换方法可以见清华镜像源官网(https://mirror.tuna.tsinghua.edu.cn/help/anaconda/),速度会得到极大提升)

通过Docker安装所需软件

Docker 是实现操作系统级别虚拟化使用的最广泛的框架。这种技术允许你开启一个独立的容器:一个比虚拟机更轻量的层,但是仍允许划分(compartmentalize)软件。它隔绝了所有的进程,使得每个容器都类似一个虚拟机。

Docker 在开发范围的两个极端都运行良好:它是设置本书所需环境以用于学习目的的便捷方式,并且可能成为在复杂环境中部署应用程序的首选平台。

然而,对于长期开发环境,上一节描述的conda方法可能是最佳途径,尽管它需要更多的费劲的初始设置。

Getting ready

安装Docker环境。
(这个不赘述了,作者写的也不详细,网上教程一搜一大把,有空的时候我单独写下docker的用法。建议大家都在Linux上操作)

How to do it

查看以下步骤开始使用:

  • 首先构建镜像
git clone https://gitee.com/bingpeng/Bioinformatics-with-Python-Cookbook-Second-Edition.git
cd Bioinformatics-with-Python-Cookbook-Second-Edition/docker
docker build -t bio .
  • 通过镜像开启一个容器
docker run -ti -p 9875:9875 -v YOUR_DIRECTORY:/data bio

使用操作系统真实的路径替代YOUR_DIRECTORY。这个路径会被Docker容器和操作系统共享。-p 9875:9875 将开放容器的TCP端口9875到宿主机的9875端口上。

(基于作者的dockerfile构建镜像失败,即使deb和conda的源改为清华的源也无法构建成功,可以不基于anaconda构建,尝试从头构建该镜像;另一个选择是可以从清华下载anaconda软件,在本机上安装相关包,也可以运行成功。运行成功可以通过网页访问,如下图所示)

jupyter运行实例

通过rpy2与R进行交互

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 194,491评论 5 459
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 81,856评论 2 371
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 141,745评论 0 319
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,196评论 1 263
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,073评论 4 355
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,112评论 1 272
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,531评论 3 381
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,215评论 0 253
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,485评论 1 290
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,578评论 2 309
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,356评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,215评论 3 312
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,583评论 3 299
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 28,898评论 0 17
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,174评论 1 250
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,497评论 2 341
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,697评论 2 335

推荐阅读更多精彩内容