1. 机器学习基础知识入门
入门知识我没有太多可讲的,详细原理与基础知识可参考https://www.cnblogs.com/subconscious/p/4107357.html
1.1 机器学习概念
我认为:机器学习就是将计算机当做小学生一样教育,教会他人类的学习方法,利用计算机强大的运算速度,得到较好的运算结果或判断,专业的说机器学习是通过利用数据,训练出模型,然后使用模型预测的一种方法。它允许计算机使用现有的数据来预测未来的行为、结果和趋势。
1.2 机器学习应用范围
模式识别,统计学习,数据挖掘,计算机视觉,语音识别,自然语言处理等领域
我需要注意的是模式识别,统计学习,数据挖掘
机器学习是一种数据科学技术,而数据科学只可解答以下五种问题:
1.是A还是B? 使用分类算法
2.是否异常? 使用异常检测算法
3.多少? 使用回归算法
4.怎么组织?使用聚类分析算法
5.接下来该怎样做?使用强化学习算法
1.3 机器学习方法
机器学习常用的不同算法:
以下算法为比较经典的监督学习算法:
回归算法: 线性回归如拟合出一条直线最佳匹配我所有的数据;而逻辑回归是在对线性回归的计算结果转化为了0到1之间的概率,进行分类。
神经网络(ANN):就是分解与整合工作。将复杂的事物进行分解,拆分成较为简单的事物,放在下一级处理单元,进行处理分析,通过不断地拆分与分析,将复杂事物拆分为最简单的零件进行逻辑判断,最后将所有零件整合处理得出判断。在这个网络中,分成输入层,隐藏层,和输出层。输入层负责接收信号,隐藏层负责对数据的分解与处理,最后的结果被整合到输出层。
在神经网络中,每个处理单元事实上就是一个逻辑回归模型,逻辑回归模型接收上层的输入,把模型的预测结果作为输出传输到下一个层次。
SVM(支持向量机):非常重要,是逻辑回归算法的强化。支持向量就是距离分隔超平面最近的那些点,寻找解决此问题的最优求解方案就是需要最大化支持向量到分隔面的距离。
通俗上理解:SVM算法核心就是在一组数据中画一直线,使得该直线能够更好地将这组数据分成两个部分,要求分成两个部分的数据都到该直线的距离最远。(与线性回归类似,线性回归是找一直线,使得所有数据点距离该直线距离最近,这样的直线能够反应所有数据的变化规律)
以下算法为比较经典的非监督学习算法:
聚类算法:聚类算法就是计算种群中的距离,根据距离的远近将数据划分为多个族群。
聚类算法中经典的为:K-Means算法
降维算法: 主要特征是将数据从高维降低到低维层次,主要作用是压缩数据与提升机器学习其他算法的效率。
降维算法中经典的为:PCA算法,t-SNE算法
1.4 Big data大数据
大数据的核心是利用数据的价值,机器学习是利用数据价值的关键技术,对于大数据而言,机器学习是不可或缺的。相反,对于机器学习而言,越多的数据会越 可能提升模型的精确性。
It's not who has the best algorithm that wins. It's who has the most data.
1.5 机器学习子类—Deep Learning深度学习
深度学习即:传统的神经网络发展到了多隐藏层的情况,具有多个隐藏层的神经网络被称为深度神经网络,基于深度神经网络的学习研究称之为深度学习。
优点:1.多隐层的神经网络具有优异的特征学习能力,学习得到的特征对数据有更本质的刻画,从而有利于可视化或分类;2.深度神经网络在训练上的难度,可以通过“逐层初始化” 来有效克服。
'