深度学习学习笔记（四）

这篇笔记，主要记录花书第五章机器学习的基础知识。通过对基础知识的理解，看看如何把前面几章学到的数学知识运用到实际的机器学习当中。

什么是机器学习？

在1959年，Arthur Samuel：不用编程去指定机器做什么，而是让机器有能力自己学习；

在1998年，Tom Mitchell：首先定义任务T，经验E，表现P，如果机器有一个任务T，随着经验E的增多，表现P也会变好，则表示机器正在经验E中学习；

在本书中我们采用Tom Mitchell的定义来解释机器学习。

一些概念

通常在训练机器学习模型时，我们需要使用某个训练集（training set）,在训练集上的度量误差称为训练误差（training error）。以及用来测试性能的测试集（test set），测试集上的误差称为测试误差（test error）。

欠拟合（underfitting）:是指模型不能再训练集上获得足够低的误差。

过拟合（overfitting）：是指训练误差和测试误差之间的差距太大。

容量（capacity）：是指拟合各种函数的能力。通常容量高的模型可能过拟合，容量低的模型可能很难拟合训练集。

正则化（regularizatioin）:是指修改学习算法，使其降低测试误差而非训练误差。

超参数（Hyperparameters）：大多数机器学习算法都有多个设置来控制机器学习算法的行为。这些设置成为超参数。

验证集（validation set）：用于挑战超参数的数据子集，称为验证集。

点估计（point estimator）：是用样本统计量来估计总体参数，点估计可以是样本参数上的任意一个函数。

函数估计（function estimation）:描述输入和目标变量之间关系的点估计，称为函数估计。

偏差（bias）：是指个别测定值与测定的平均值之间的差，它可以用来衡量测定结果的精密度高低。一个估计的偏差记作：

如果偏差为0，则称为无偏（unbiased）,如果m趋向无限，偏差趋向0，则称为渐进无偏（asymptotiacally unbiased）.尽管无偏估计是令人满意的，但是不一定是最好的估计。偏差度量着偏离真实函数或者参数的误差期望；而方差度量着数据上任意指定采样可能导致的估计期望的误差。

均方误差（mean squared error）:为了度量方差偏差估计和方差估计差异比较大的情况下。偏差平方+方差。

最大似然估计

最大似然估计（Maximum Likelihood Estimation）：在已经得到试验结果的情况下，我们应该寻找使这个结果出现的可能性最大的那个参数作为真的参数估计。

求最大似然函数估计值的一般步骤：

（1）写出似然函数

（2）对似然函数取对数，并整理

（3）求导数

（4）解似然方程

最大似然估计一些性质：

1.一致性：当训练样本数目趋向于无穷大的时候，参数的最大似然估计会收敛到参数的真实值。

2.统计效率：某些一致估计可能只需要较少的样本就能达到一个固定程度的泛化误差。

贝叶斯统计

先验分布（prior probability distribution）：它是总体分布参数θ的一个概率分布。贝叶斯学派的根本观点，是认为在关于θ的任何统计推断问题中，除了使用样本X所提供的信息外，还必须对θ规定一个先验分布，它是在进行推断时不可或缺的一个要素。贝叶斯学派把先验分布解释为在抽样前就有的关于θ的先验信息的概率表述，先验分布不必有客观的依据，它可以部分地或完全地基于主观信念。

后验分布（posterior distribution）：根据样本 X 的分布Pθ及θ的先验分布π（θ），用概率论中求条件概率分布的方法，可算出在已知X=x的条件下，θ的条件分布 π（θ|x）。因为这个分布是在抽样以后才得到的，故称为后验分布。贝叶斯学派认为：这个分布综合了样本X及先验分布π（θ）所提供的有关的信息。抽样的全部目的，就在于完成由先验分布到后验分布的转换。

最大后验估计（Maximum A Posterior Estimation）：最大后验估计是根据经验数据获得对难以观察的量的点估计。与最大似然估计类似，但是最大的不同时，最大后验估计的融入了要估计量的先验分布在其中。故最大后验估计可以看做规则化的最大似然估计。

用“瓜熟蒂落”这个因果例子，从概率（probability）的角度说一下以上几个概念。

先验概率，就是常识、经验所透露出的“因”的概率，即瓜熟的概率。应该很清楚。

后验概率，就是在知道“果”之后，去推测“因”的概率，也就是说，如果已经知道瓜蒂脱落，那么瓜熟的概率是多少。后验和先验的关系可以通过贝叶斯公式来求。也就是：

P（瓜熟 | 已知蒂落）=P（瓜熟）×P（蒂落 | 瓜熟）/ P（蒂落）

似然函数，是根据已知结果去推测固有性质的可能性（likelihood），是对固有性质的拟合程度，所以不能称为概率。在这里就是说，不要管什么瓜熟的概率，只care瓜熟与蒂落的关系。如果蒂落了，那么对瓜熟这一属性的拟合程度有多大。似然函数，一般写成L（瓜熟 | 已知蒂落），和后验概率非常像，区别在于似然函数把瓜熟看成一个肯定存在的属性，而后验概率把瓜熟看成一个随机变量。

再扯一扯似然函数和条件概率的关系。似然函数就是条件概率的逆反。意为：

L（瓜熟 | 已知蒂落）= C × P（蒂落 | 瓜熟），C是常数。具体来说，现在有1000个瓜熟了，落了800个，那条件概率是0.8。那我也可以说，这1000个瓜都熟的可能性是0.8C。

注意，之所以加个常数项，是因为似然函数的具体值没有意义，只有看它的相对大小或者两个似然值的比率才有意义，后面还有例子。

----------------------------------------------------------------------------------------------------

同理，如果理解上面的意义，分布就是一“串”概率。

先验分布：现在常识不但告诉我们瓜熟的概率，也说明了瓜青、瓜烂的概率

后验分布：在知道蒂落之后，瓜青、瓜熟、瓜烂的概率都是多少

似然函数：在知道蒂落的情形下，如果以瓜青为必然属性，它的可能性是多少？如果以瓜熟为必然属性，它的可能性是多少？如果以瓜烂为必然属性，它的可能性是多少？似然函数不是分布，只是对上述三种情形下各自的可能性描述。

那么我们把这三者结合起来，就可以得到：后验分布正比于先验分布 × 似然函数。先验就是设定一种情形，似然就是看这种情形下发生的可能性，两者合起来就是后验的概率。

至于似然估计：

就是不管先验和后验那一套，只看似然函数，现在蒂落了，可能有瓜青、瓜熟、瓜烂，这三种情况都有个似然值（L（瓜青）：0.6、L（瓜熟）：0.8、L（瓜烂）：0.7），我们采用最大的那个，即瓜熟，这个时候假定瓜熟为必然属性是最有可能的。

但如果现在是冬天，瓜熟概率为零，那么你根据贝叶斯估计，就不会判断瓜熟了……

监督学习算法

监督学习算法（Supervised Learning Algorithms）：通俗来讲，监督学习算法是给定一组输入x和输出y的训练集，学习如何关联输入和输出关系。

支持向量机（Support Vector Machines）：在机器学习中，支持向量机是最有影响力的监督学习模型之一，可以分析数据，识别模式，用于分类和回归分析。

(博文分享)

K最近邻（k-NearestNeighbor）：该方法的思路是：如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别，则该样本也属于这个类别。

决策树（decision tree）:是一种简单但是广泛使用的分类器。通过训练数据构建决策树，可以高效的对未知的数据进行分类。决策数有两大优点：1）决策树模型可以读性好，具有描述性，有助于人工分析；2）效率高，决策树只需要一次构建，反复使用，每一次预测的最大计算次数不超过决策树的深度。

无监督学习算法

无监督学习（Unsupervised Learning Algorithms）：无监督学习只处理特征，而不操作监督信号。机器将使用无标记的数据，在这种场景下，我们只需要提供输入数据，机器学习的关键点是通过计算找出数据隐含的特性。

主成分分析(Principal Components Analysis): PCA学习算法提供一种比原始输入更低维度的一种表示。如第二章中提到的压缩算法就是PCA算法。

K均值聚类（k-means Clustering）：K-MEANS算法是输入聚类个数k，以及包含 n个数据对象的数据库，输出满足方差最小标准k个聚类的一种算法。

随机梯度下降

随机梯度下降（Stochastic Gradient Descent）：因为每次计算梯度都需要遍历所有的样本点。这是因为梯度是J(θ)的导数，而J(θ)是需要考虑所有样本的误差和，这个方法问题就是，扩展性问题，当样本点很大的时候，基本就没法算了。所以接下来又提出了随机梯度下降算法(stochastic gradient descent )。随机梯度下降算法，每次迭代只是考虑让该样本点的J(θ)趋向最小，而不管其他的样本点，这样算法会很快，但是收敛的过程会比较曲折，整体效果上，大多数时候它只能接近局部最优解，而无法真正达到局部最优解。

好了，书上关于机器学习的基本概念回顾结束了，为下一章开始深度学习奠定基础知识。

Q&A：

如果有兴趣相投的朋友，欢迎来http://www.jokls.com/提问或者解答其他小伙伴的提问。

最后编辑于：2017.12.10 02:27:49

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 202,802评论 5赞 476
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,109评论 2赞 379
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 149,683评论 0赞 335
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,458评论 1赞 273
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,452评论 5赞 364
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,505评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,901评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,550评论 0赞 256
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,763评论 1赞 296
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,556评论 2赞 319
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,629评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,330评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,898评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,897评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,140评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,807评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,339评论 2赞 342