《统计学习方法》笔记（一）：统计学习方法概论

统计学习

统计学习的特点

以计算机及网络为平台
以数据为研究对象
目的是对数据进行预测和分析
以方法为中心（统计学习方法构建模型并应用模型进行预测和分析）
多学科领域的交叉学科

Herbert A. Simon对“学习”的定义：

如果一个系统能够通过执行某个过程改进它的性能，这就是学习

统计学习的目的

统计学习是通过构建概率统计模型，对数据进行预测和分析。因此需要考虑：

学习什么样的模型
如何学习模型
如何尽可能提高学习效率

统计学习的方法

在监督学习的情况下，统计学习的方法可以概括如下：

从给定的、有限的、用于学习的训练数据（training data）出发，假设数据是独立同分布产生的；并且假设要学习的模型属于某个函数的集合，称为假设空间（hypothesis space）；应用某个评价准则（evaluation criterion），从假设空间中选取一个最优的模型，使它对已知训练数据及未知测试数据（test data）在给定的评价准则下有最优的预测；最优模型的选取

实现统计学习方法的步骤：

得到一个有限的训练数据集合

确定包含所有可能的模型的假设空间，即学习模型的集合

确定模型选择的准则，即学习的策略

实现求解最优模型的算法，及学习的算法

利用学习的最优模型对新数据进行预测或分析

从以上步骤中，可以看到，统计学习方法包含模型的假设空间、学习的策略以及学习的算法，即统计学习方法的三要素：模型（model）、策略（strategy）和算法（algorithm）

监督学习

监督学习的基本概念

监督学习（supervised learning）的任务是学习一个模型，使模型能够对任意给定的输入，对其相应的输出做出一个好的预测

输入空间：输入所有可能取值的集合
特征空间：所有特征向量存在的空间
输出空间：输出所有可能取值的集合
假设空间：由输入空间到输出空间的映射的集合

这里需要注意：特征空间的每一维对应对一个特征。有时假设输入空间与特征空间相同而不与区分；有时输入空间与特征空间不同，就需要将输入空间映射到特征空间。模型是定义在特征空间上的。

问题的形式化

监督学习的过程分为学习和预测两个过程。在学习过程中，学习系统利用训练集，通过训练得到一个模型；在预测过程中，预测系统对于给定的输入，利用训练的模型，给出相应的输出。

统计学习三要素

模型

在监督学习过程中，模型就是所要学习的条件概率分布或决策函数。其中，由条件概率表示的模型为概率模型，由决策函数表示的模型为非概率模型。

决策函数

假设空间 $\mathcal{F}$ 定义为决策函数的集合 $\mathcal{F} = \{f|Y=f(X)\}$ ，这里的 $X$ 和 $Y$ 定义为输入空间 $\mathcal{X}$ 和输出空间 $\mathcal{Y}$ 上的变量。在这种情况下， $\mathcal{F}$ 一般是一个由参数向量 $\theta$ 决定的函数族 $\mathcal{F} = \{f|Y=f_{\theta}(X),\theta\in{R^n} \}$ 。

条件概率

假设空间 $\mathcal{F}$ 定义为条件概率的集合 $\mathcal{F} = \{ P|P(Y|X)\}$ ,这里的 $X$ 和 $Y$ 定义为输入空间 $\mathcal{X}$ 和输出空间 $\mathcal{Y}$ 上的随机变量。在这种情况下， $\mathcal{F}$ 一般是一个由参数向量 $\theta$ 决定的条件概率分布族 $\mathcal{F} = \{P|P_{\theta}(Y|X),\theta\in{R^n} \}$ 。

策略

损失函数与风险函数

这里先引入概念：损失函数度量模型一次评测的好坏，风险函数度量平均意义下模型预测的好坏

损失函数是 $f(X)$ 和 $Y$ 的非负实值函数，记作 $L(Y,f(X))$
风险函数是损失函数的期望，记作 $R_{exp}(f)=E_p[L(Y, f(X))]=\int_{\mathcal X\times\mathcal Y}L(y,f(x))P(x,y), {\rm d}x{\rm d}y$

常用的损失函数有：

0-1损失函数： $L=\begin{cases}1, Y \neq f(X) \\ 0, Y=f(X) \end{cases}$
平方损失函数： $L=(Y-f(X))^2$
绝对损失函数： $L=|Y-f(X)|$
对数损失函数： $L=-\log P(Y|X)$

在现实中，由于不可能知道联合概率分布 $P(X, Y)$ （否则就不用学习了），因此引入经验风险 $R_{emp}(f)=\frac{1}{N}\sum^{N}_{i=1}L(y_i,f(x_i))$ 。根据大数定律，当样本容量N趋于无穷大时，经验风险趋于期望风险。

经验风险最小化

经验风险最小化（ERM）的策略认为经验风险最小的模型是最优模型，因此经验风险最小化就是求解最优化问题：

$\mathop {\min }\limits_{f \in \mathcal{F}} \frac{1}{N}\sum\limits_{i = 1}^N {L({y_i},f({x_i}))}$

经验风险最小化在样本容量足够大时有较好的效果
极大似然估计（MLE）就是经验风险最小化的一个例子（当模型是条件概率分布，损失函数是对数损失函数时）

结构风险最小化

但是当样本容量较小时，采用经验风险最小化的策略可能会产生过拟合（over-fitting）现象。结构风险最小化（SRM）通过引入正则化项来防止过拟合，其定义为：

${R_{srm}}(f) = \frac{1}{N}\sum\limits_{i = 1}^N {L({y_i},f({x_i}))} + \lambda J(f)$

其中 $J(f)$ 是模型的复杂度，用来惩罚复杂模型。结构风险最小化就是求解最优化问题：

$\mathop {\min }\limits_{f \in \mathcal{F}} \frac{1}{N}\sum\limits_{i = 1}^N {L({y_i},f({x_i}))} + \lambda J(f)$

结构风险小的模型往往对训练数据和测试数据有较好的预测
最大后验概率估计（MAP）就是结构风险最小化的一个例子（当模型是条件概率分布，损失函数是对数损失函数，复杂度由先验概率表示时）

算法

统计学习算法通常可以转化为求解最优化问题的算法，而最优化问题通常不存在解析解，因此就要利用数值计算的方法求解。为了高效地求解最优化问题，就要设计高效的最优化算法。

模型评估与模型选择

训练误差与测试误差

训练误差是模型关于训练数据集的平均损失；测试误差是模型关于测试数据集的平均损失。这里需要注意，统计学习方法具体采用的损失函数未必是评估时使用的损失函数。

过拟合与模型选择

如果一味地想要提高模型对训练数据集的预测能力，模型的复杂度往往会比真实模型的复杂度高，这时就会出现过拟合（over-fitting）的现象。由于训练数据中本身存在噪声，因此一味的追求训练数据的预测能力会使得测试数据的预测误差增大。在学习中，要防止过拟合，选择复杂度适当的模型。

正则化与交叉验证

正则化

模型选择的典型方法就是正则化。正则化项一般是模型复杂度的单调递增函数。

交叉验证

交叉验证是另一种常用的模型选择方法。

简单交叉验证
S折交叉验证
留一交叉验证

泛化能力

泛化误差

学习方法的泛化能力（generalization ability）是指由该方法学习到的模型对未知数据的预测能力。统计学习理论试图从理论上对学习方法的泛化能力进行分析。

泛化误差事实上就是所学习到的模型的期望风险。

泛化误差上界

即泛化误差的概率上界。

样本容量的函数：样本容量增加时，泛化误差上界趋于0
假设空间容量的函数：容量越大，泛化误差上界越大

生成模型与判别模型

生成方法学习联合概率分布 $P(X,Y)$ ，然后求出条件概率分布 $P(Y|X)$ 。典型的生成模型：朴素贝叶斯、隐马尔可夫模型。

可以还原出联合概率分布
学习收敛速度更快
存在隐变量时，依然可以使用

判别方法直接学习决策函数 $f(X)$ 或者条件概率分布 $P(Y|X)$ 。典型的判别模型：k近邻法、感知机、决策树、逻辑斯谛回归模型、最大熵模型、支持向量机、提升方法和条件随机场。

直接面对预测，学习的准确率更高
可以对数据进行抽象、定义并使用特征，可以简化学习问题

分类问题

对于二分类问题常用的评价指标是精确率（precision）与召回率（recall）。对于分类的四种情况，记作：

TP：True Positive
FN：False Negative
FP: False Positive
TN: True Negative

精确率：所有被预测为正类的样本中，真正样本所占的比例。

$P = \frac{{TP}}{{TP + FP}}$

召回率：所有真正样本中，被预测为正类的样本所占的比例。

$R = \frac{{TP}}{{TP + FN}}$

F1值：精确率与召回率的调和平均数。

标注问题

标注问题的输入是一个观测序列，输出是一个标记序列或者状态序列。评价指标与分类问题相同。标注常用的统计学习方法有：隐马尔可夫模型、条件随机场。

回归问题

回归模型是表示从输入变量到输出变量之间映射的函数。回归问题的学习等价于函数拟合。回归学习最常用的损失函数是平方损失函数，此时可使用最小二乘法求解。

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 193,968评论 5赞 459
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 81,682评论 2赞 371
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 141,254评论 0赞 319
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 52,074评论 1赞 263
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 60,964评论 4赞 355
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 46,055评论 1赞 272
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 36,484评论 3赞 381
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 35,170评论 0赞 253
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 39,433评论 1赞 290
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 34,512评论 2赞 308
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 36,296评论 1赞 325
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 32,184评论 3赞 312
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 37,545评论 3赞 298
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 28,880评论 0赞 17
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 30,150评论 1赞 250
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 41,437评论 2赞 341
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 40,630评论 2赞 335