统计学习方法读书笔记——第一章 统计学习方法概论

本章概要

  1. 统计学习是关于计算机基于数据构建概率统计模型并运用模型对数据进行分析与预测的一门学科。统计学习包括监督学习非监督学习半监督学习强化学习

  2. 统计学习方法三要素——模型、策略、算法,对理解统计学习方法起到提纲挈领的作用。

3.本书主要讨论监督学习,监督学习可以概括如下:从给定有限的训练数据出发, 假设数据是独立同分布的,而且假设模型属于某个假设空间,应用某一评价准则,从假设空间中选取一个最优的模型,使它对已给训练数据及未知测试数据在给定评价标准意义下有最准确的预测。

4.统计学习中,进行模型选择或者说提高学习的泛化能力是一个重要问题。如果只考虑减少训练误差,就可能产生过拟合现象。模型选择的方法有正则化与交叉验证。学习方法泛化能力的分析是统计学习理论研究的重要课题。

5.分类问题、标注问题和回归问题都是监督学习的重要问题。本书中介绍的统计学习方法包括感知机、[Math Processing Error]近邻法、朴素贝叶斯法、决策树、逻辑斯谛回归与最大熵模型、支持向量机、提升方法、EM算法、隐马尔可夫模型和条件随机场。这些方法是主要的分类、标注以及回归方法。它们又可以归类为生成方法判别方法

1.2 监督学习

1.2.1 基本概念

  1. 输入空间、特征空间与输出空间


特征空间(有时假设输入空间和特征空间相同):

输入实例:

训练集表示:

根据输入、输出变量的不同类型,对预测任务给予不同的名称:回归问题、分类问题、标注问题...

  1. 联合概率分布

    监督学习假设输入变量X和输出变量Y遵循联合概率分布P(X,Y):
  2. 假设空间


1.3 统计学习三要素

方法=模型+策略+算法

1.3.1 模型

在监督学习的过程中,模型就是所要学习的条件概率分布或决策函数。模型的假设空间包含所有可能的条件概率分布或决策函数。



常用的损失函数

本书中称由决策函数表示的模型为非概率模型,由条件概率表示的模型为概率模型

1.3.2 策略

有了模型的假设空间,统计学习接着需要考虑的是按照什么准则学习或选择最优的模型。
1. 损失函数和风险函数
用损失函数(代价函数)来度量预测错误的程度。


损失函数越小,模型就越好。损失函数的期望称为风险函数期望损失
风险函数

学习的目标就是选择期望风险最小的模型,而由于联合分布未知,因此期望损失不能直接计算,导致监督学习是一个病态问题。

经验风险(经验损失):模型关于训练数据集的平均损失

经验风险

根据大数定律,当样本容量N趋于无穷时,经验风险R_{emp}趋于期望风险R_{exp},因此很自然的想法是用经验风险估计期望风险。但由于训练样本有限,用经验风险估计往往不理想,需要对经验风险进行一定的矫正。

2. 经验风险最小化与结构风险最小化
经验风险最小化的策略认为:经验风险最小的模型是最优的模型。(极大似然估计MLE就是经验风险最小化的一个例子,当模型为条件概率分布,损失函数是对数损失函数时,经验最小化就等价于MLE)

但当样本容量很好使,会产生“过拟合overfitting”。由此诞生结构风险最小化(SRM),结构风险最小化等价于正则化,在经验风险上加上表示模型复杂度的正则化项(regularizer)罚项(penalty term)。贝叶斯估计中的最大后验概率估计(MAP)就是SRM的一个例子。当模型为条件概率分布,损失函数时对数函数时,SRM和MAP等价。


1.3.3 算法

算法指学习模型的具体计算方法。统计学习基于训练数据集,根据学习策略,从假设空间中选择最优模型,最后需要考虑用什么样的计算方法求解最优模型。
这是,统计学习问题归结为最优化问题,统计学习的算法成为求解最优化问题的算法

1.4 模型评估与模型选择

1.4.1 训练误差与测试误差

测试误差反映了学习方法对测试数据集的预测能力,这种能力称为泛化能力(generalization ability)

1.4.2 过拟合与模型选择

模型选择的原则:逼近真模型,参数向量与真模型参数向量接近
过拟合:一味提高对训练数据的预测能力,复杂度比真模型更高



训练误差和测试误差与模型的复杂度之间的关系:



为了避免过拟合,引入两种常用的模型选择方法:正则化与交叉验证。

1.5 正则化与交叉验证

1.5.1 正则化


岭回归:

LASSO:

正则化符合奥卡姆剃刀原理

1.5.2 交叉验证

另一种常用的模型选择方法是交叉验证(cross validation).


但是在实际应用中,数据常常不充足,为了选择好的模型,可以采用交叉验证方法,基本思想:重复地使用数据。

  1. 简单交叉验证


  2. S折交叉验证


  3. 留一交叉验证
    S折交叉验证的特殊情形,只留一个样本作为测试集


1.6 泛化能力

1.6.1 泛化误差

学习方法的泛化能力是指由该方法学习到的模型对未知数据的预测能力。
现实中采用最多的办法:通过测试误差来评价泛化能力,但这种评价依赖于测试数据集。
统计学习理论试图从理论上对学习方法的泛化能力进行分析。
泛化误差:就是所学到的模型的期望风险

1.6.2 泛化误差上界

学习方法的泛化能力往往是通过研究泛化误差的概率上界进行的,简称为泛化误差上界(generalization error bound)。



书中以二分类问题的泛化误差上界为例,得到:



证明要用到Hoeffding不等式,略。
这就是说,训练误差小的模型,其泛化误差也会小。

1.7生成模型和判别模型

生成方法(所学到的模型称为生成模型,包括朴素贝叶斯,隐马尔可夫):由数据学习联合概率分布P(X,Y),然后求出条件概率分布P(Y|X)作为预测的模型。

判别方法 (所学到的模型称为判别模型,包括k近邻、感知机、决策树、逻辑斯蒂回归模型、最大熵、支持向量机、提升方法和随机场等):直接学习决策函数或者条件概率分布作为预测的模型。

生成方法的特点:联合概率分布、收敛快、隐变量


判别方法的特点:准确率高、可以进行抽象、定义特征、简化学习问题


1.8 分类问题

分类问题是监督学习的一个核心问题,输出变量Y取有限个离散值时,预测问题便成为分类问题。
分为问题定义:



分类问题

评价分类器性能的指标一般是分类准确率(accuracy):



对于二分类问题常用的评价指标是精确率(precision)与召回率(recall)和F1值。

1.9 标注问题

标注也是一个监督学习问题,可以认为标注问题是分类问题的一个推广,又是更复杂的结构预测问题的简单形式。



标注问题

标注常用的统计学习方法有:隐马尔可夫模型、条件随机场

1.10 回归问题

回归用于预测输入变量(自变量)和输出变量(因变量)之间的关系。特别是当输入变量的值发生变化时,输出变量的值随之发生变化。回归问题的学习等价于函数拟合。


回归问题

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 193,812评论 5 459
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 81,626评论 2 371
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 141,144评论 0 319
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,052评论 1 263
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 60,925评论 4 355
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,035评论 1 272
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,461评论 3 381
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,150评论 0 253
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,413评论 1 290
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,501评论 2 307
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,277评论 1 325
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,159评论 3 312
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,528评论 3 298
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 28,868评论 0 17
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,143评论 1 250
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,407评论 2 341
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,615评论 2 335

推荐阅读更多精彩内容