“工欲善其事,必先利其器”,这里我们来搭建一套高效的 Python 开发环境,为后续的数据分析做准备。
关于高效作业,对于需要编写 Python 代码进行数据分析的工作而言,主要涉及两个方面。
1. 一款具备强大的自动完成和错误提示的开发工具
Python 丰富的函数库和组件库是这门语言强大的核心原因,但我们不可能去记忆所有的方法名和参数名,往往只能记住一些常用的或者某个方法开头的几个字母。这个时候一个好的开发工具就需要能聪明地“猜”出你想输入的代码,并给出候选列表方便你选择(类似于输入法的字词提示功能)。
另外,当你输入错误的时候,这个工具能够提示你具体是哪里错了,建议改成什么,从而大幅提升编写效率。在别人还在查到底是哪个单词拼错了导致代码跑不起来的时候,你已经写完一个完整的模块了。
2. 掌握快捷键
Python 数据分析需要边写边看结果,甚至每写两行代码就需要点击运行、新建文本段落、代码段落等操作。所以熟练地掌握快捷键,可以使绝大多数的操作都不需要鼠标,手不用离开键盘就能完成,起到事半功倍的效果。
整个配置过程相比传统的环境安装稍微多了几步,不过并不复杂,只需要跟着一步一步操作就可以。
搭建环境的版本说明如下:
Anaconda3.0
VS Code 1.51.1
实际并无太多版本限制,你安装最新版即可。
第一步、数据科学增强版的 Python 环境:Anaconda
Anaconda 是一个 Python 数据科学工具包,里面包含了 Python 做数据计算最常用的库和工具,属于必装软件。目前它已经非常成熟,并且整套 Anaconda 可以免费提供给个人使用。
1. 用浏览器访问 Anaconda 的个人版页面:https://www.anaconda.com/products/individual ,点击 Download,页面会自动跳转到具体的下载页面:
[图片上传失败...(image-6cf6f4-1703413609806)]
2. 根据自己的设备类型 (Mac/Windows),选择合适的安装包版本。无论 Windows 还是 Mac, 都选择 Graphical Installer,它代表图形化的安装器,之后更易于使用。
3. 下载之后双击安装包进行安装(如图所示),直接点击 Next。
[图片上传失败...(image-8dcc85-1703413609806)]
4. 接下来就是使用协议界面,点击 I Agree,代表同意使用协议。
[图片上传失败...(image-b3534a-1703413609806)]
5. 之后连续 Next,可以看到选择安装位置的界面,如果没有特殊的需求,直接默认位置就好,继续点击 Next。
6. 最后一个配置界面是高级选项,不用更改,直接点击 Install,等待 2~3 分钟之后,即可完成安装。
安装完毕之后,可以从程序中找到 Anaconda Navigator,点击打开就可以看到整套 Anaconda3 的所有工具(如下图所示):
[图片上传失败...(image-54e0a8-1703413609806)]
其中 Notebook 是数据分析应用范围最广泛的工具,但它却不是一款足够有效率的工具,因为它缺乏智能的代码输入联想、自动完成和错误提示。而有效率的分析师是不会容忍自己用“记事本”写代码的。
所以,接下来,我们可以在自己的电脑中配置一个智能、强大的 Notebook(此时安装好的 Anaconda3 页面先不关闭)。
第二步,飞一般的代码编辑器:VS Code
VS Code( Visual Studio Code),是微软开发的跨平台代码编辑器,靠着其强大的插件生态,目前已经成为全球最流行的代码编辑器。本次我们就通过 VS Code,来解决 Notebook 开发效率的问题。
首先按照以下的步骤安装和配置 VS Code。
1. 下载:用浏览器访问https://code.visualstudio.com/,网页会直接识别当前的操作系统,直接点击下载按钮,下载安装包。
2. 安装:下载完毕后,双击安装包进行安装,全部默认配置即可。
3. 安装中文语言包【可选,习惯英文的同学可以跳过】:启动 VS Code,进入插件 Tab(左侧边栏最后下方的图标),输入 【Chinese】,出现的第一个插件,点击 Install 安装。安装完成后,重启 VS Code 即可生效。
[图片上传失败...(image-db1818-1703413609806)]
4. 安装 Python 插件:依旧是在插件面板,输入 【Python】,安装列表中的第一个插件。
[图片上传失败...(image-a681dc-1703413609806)]
至此,基础的 VS Code 环境已经配置完毕。
第三步,配置 VS Code 使用 Anaconda 的 Python 环境
打开 VS Code,选择【文件】-【新建文件】,会建立一个默认的文本文件,按 CTRL +s 保存,文件名为【hello.py】。
后缀名一定要是 .py,因为 VS Code 要根据文件的后缀名来匹配合适的工具链。
保存之后,如果 VS Code 识别到 Python 文件,我们上一步安装的 Python 插件就会开始工作,寻找本机的 Python 环境,结果会展示在下方的状态栏上。
[图片上传失败...(image-78f690-1703413609806)]
Anaconda 的 Python 环境包含了丰富的科学计算的库,所以是做数据分析的首选。
确认环境之后,我们即可进入最后一步。
第四步,Jupyter in VS Code
我们进入 VS Code 的插件 Tab(左侧边栏最下方的图标),输入 Jupyter 安装由微软官方出品的 Jupyter 插件(前几个有 Microsoft 字眼的)。
[图片上传失败...(image-28e9ef-1703413609806)]
安装完成之后,重启 VS Code(如果显示是禁用,那就是安装好了,直接操作后续即可)。按 【CTRL+P】 弹出命令面板,输入【>Jupyter】,此时会列出所有 Jupyter 插件支持的操作,选择 【Jupyter: Create New Blank Jupyter Notebook】,如下图所示。
[图片上传失败...(image-3be0f4-1703413609806)]
选择之后,VS Code 内部就出现了一个类似 Notebook 的编辑界面,和传统的网页版 Notebook 不同,VS Code 中的 Notebook 具备强大的代码提示和自动完成的功能。接下来,我们来学习一下它的主要操作。
打开编辑界面,我们将 Notebook 可操作性的区域分为三个部分:主操作区、Cell 操作区、 边栏操作区。
主操作区:主要用来控制整个 Notebook 的一些行为.(大家可以把鼠标放在图标上看一下各个按钮对应的功能)。
边栏操作区:不同位置的“+”号代表在不同位置插入 Cell。
Cell 操作区:主要用来控制当前 Cell 的行为。
Cell 是 Notebook 中的核心概念,直译过来是“单元格”,但 Notebook 中的 Cell 却不能用单元格简单概括,所以本文统一用 Cell 描述,一个 Notebook 由多个 Cell 组成。
Cell 一共有两种类型:
代码 Cell,主要用来编写 Python 代码,每个代码 Cell 都可以单独执行,并且执行结果会展示在 Cell 的下方。
文本 Cell,顾名思义,用来编写文本, 对于数据分析工作而言,除了代码本身,分析的思路、推导的逻辑同样非常重要,文本 Cell 就是用来承载这些内容。
这也是 Notebook 区别于 IPython 最大的地方,可以实现代码和文本的混排,来最大化的呈现数据分析的产出。
Notebook 的基本操作
接下来,我们通过一个具体的目的,学习一下 Notebook 的基本操作。这些操作在后续的博文中会经常用到,我们先通过几个简单的小案例初步熟悉一下。
1、创建一个 Notebook,保存为 my_practice.ipynb。
2、添加一个 Cell,通过代码打印“this is my first Notebook”, 并运行。 在之后的案例中,我们每介绍一个小阶段,都会通过新建一个 Cell 来编写代码测试我们实验的内容。
3、添加一个 Cell,并转换成文本 Cell,输入文字“我的数据分析启程了!”。
4、添加一个 Cell,通过代码打印 1+1 的结果。
下面我们开始完成上面的案例:
第一步,按【CTRL + P】(Mac 对应【CMD + P】), 调出 VS Code 的命令面板,输入【> Jupyter】可以看到 Notebook 插件支持的命令,其中比较常用的几个如下。
- Create New Black Jupyter Notebook: 创建新的空白 Notebook 工作区。
- Export to PDF:将当前的 Notebook 导出为 PDF,在后续写数据分析报告的时候会用到。
- Import Jupyter Notebook:导入已有的 Notebook。用来导入已有的 Notebook 文件。
[图片上传失败...(image-c2c00f-1703413609806)]
首先选择第一个,创建一个新的 Notebook,创建之后按 【CTRL + S】 保存,文件名输入:first.ipynb。
第二步,新建 Cell,我们点击边栏操作区的 + 号即可新建 Cell, 然后我们输入以下代码:
[图片上传失败...(image-69d24d-1703413609806)]
第三步,我们类似第二步首先新建一个 Cell,并点击 Cell 操作区中的 M 图标,切换为文本模式,并输入“我的数据分析启程了!”。输入完毕后鼠标点击 Cell 之外的任意区域即可退出编辑模式,进入预览模式(双击 Cell 可重新进入编辑模式)。这样,我们的第三步就完成了。 如图所示。
[图片上传失败...(image-23b3cd-1703413609806)]
第四步,就很简单了,我们直接新建一个 Cell, 并输入以下代码:
print(1+1)
运行 Cell,可以看到打印了“2”,至此,我们的任务已经全部完成。整个过程如图所示。
[图片上传失败...(image-76ab4e-1703413609806)]
至此,你已经在自己电脑上配置出一套面向数据分析的 Python 开发环境,也知道如何新建 Notebook,以及在 Notebook 中添加代码 Cell 来输入代码、文本 Cell 来输入文字。