本篇学习笔记总结自唐宇迪老师的《【决胜AI系列】机器学习&深度学习系统实战》。
1.环境搭建——Anaconda在手,python我有
Anaconda是个什么鬼?以下是官网上给出的介绍:
它是一个用于科学计算的python发行版,提供了包管理与环境管理功能。Anaconda = python安装器+上百个库。这些库包括NumPy, Pandas, SciPy, Matplotlib等,完全满足正常使用所需。它还支持很多库的一键安装,只需要输入“canda install package-name”就可以了。所以,安装一个anaconda,就相当于安装了python和各种常用的库。
对于初学者,建议安装个anaconda,相当于单反相机的自动挡,环境、库一键给你配置好。自己下载python、安装各种库相当于单反的手动挡,适合高端玩家。总之Anaconda在手,天下我有。各版本下载地址,总有一款适合你。
并且,conda将python和各种工具全部当作包来对待,因此可以随意切换版本,具体参考这篇文章。
其中anaconda Prompt是一个类似于cmd的环境,可以输入命令行。Jupyter Notebook打开后,会在浏览器上出现一个界面,在这里,可以将代码分步骤编写并运行,并且,notebook在进行数据预处理、可视化时,非常方便。
2.机器学习的一般步骤
1.训练样本。
机器学习目前还是依赖现有数据,对未知数据进行预测,因此训练样本是基础。例如房价的数据。
2.特征提取。
将样本转化为计算机可识别的数据,需要将对数据有重要影响的因素抽象出来。例如房子的面积、房间数量。
3.学习函数。
即对提取的特征进行建模。
4.预测与修正。
3.机器学习用到的库
Numpy:科学计算库。
Pandas:数据分析处理库。
Matplotlib:数据可视化。
Scikit-learn:非常重要的一个库,机器学习库。
4.线性回归算法原理
关于回归问题、梯度下降法的介绍,以及最小二乘法的推导,在之前的文章中都有介绍,思路都是一样的。
5.numpy库简介
这里介绍几个经常使用的,详细使用网络有很多教程,不再赘述。
numpy.array([……])
创建数组
XXX.shape
展示维度,查看有无异常。
XXX.dtype
查看数组类型