这个系列是我自己学习ML过程中,走了很多弯路后的一些总结和思考。希望可以给大家提供一个学习思路,少走一些弯路,也欢迎一起讨论,共同进步。
关于机器学习概念的介绍不胜枚举,所以在此处也不多做介绍。总之机器学习是一门跨概率论,统计学,计算机科学等多个领域的学科。关注的是数据之间的关联关系(HOW)而非因果关系(WHY)。
环境搭建
工欲善其事必先利其器。主要使用Python的scikit learn库,同时结合matplotlib库进行图形绘制。
操作系统:windows 7
编程语言:Python 2.7
主要依赖库:numpy,sklearn, pandas, matplotlib, seaborn
编程环境:jupyter
-
安装jupyter
第一种方法(分别安装)
- 安装python 2.7和pip
https://www.python.org/downloads/
https://pypi.python.org/pypi/pip - 安装依赖库
pip install numpy,scipy,sklearn,pandas,matplotlib,seaborn
- 安装jupyter notebook
python -m pip install --upgrade pip
python -m pip install jupyter
第二种方法(安装anaconda全家桶)
anaconda已经集成了机器学习的常用库以及jupyter notebook
- 安装anaconda
- 开始菜单中找到anaconda2,打开子程序jupyter notebook,随即启动jupyter服务,同时打开浏览器显示jupyter主页。我们将在网页的环境中开发程序。(这里安装的window64版本,Linux安装类似)
-
设置远程连接jupyter
更多时候我们是把jupyter部署在Linux版本的服务器上局域网共享,在windows工作站进行代码编写和测试,这时需要设置jupyter远程连接功能。
- 设置访问密码
PS C:\ProgramData\Anaconda2\Scripts> .\jupyter-notebook.exe password
Enter password:
Verify password:
- 导出jupyter notebook配置文件
PS C:\ProgramData\Anaconda2\Scripts> .\jupyter-notebook.exe --generate-config
- 修改配置文件
## 所有IP都可以访问,默认为localhost
c.NotebookApp.ip = '*'
## 设置访问端口,默认为8888
c.NotebookApp.port = 8886
## 启动jupyter后,不立刻打开浏览器,默认为True
c.NotebookApp.open_browser = False
## 设置默认工作目录
c.NotebookApp.notebook_dir = u'd:\work'
- 重启jupyter服务
jupyter notebook & - 访问远程jupyter服务
http://<ip address>:<port>
下一篇讲解一个具体的例子进入机器学习的世界。