第一章 统计学习方法概论

1.1 统计学习

▶︎ 计算机系统通过运用数据及统计方法提高系统性能的机器学习。变量或变量组表述数据,数据分为连续变量离散变量数据多样化包括数字,文字,图像,视频,音频以及组合

▶︎ 统计学习通过构建概论统计模型实现数据数据预测与分析。基本假设:同类数据具有一定的统计规律性。目标:学习什么模型,如何学习模型,提高准确度和学习效率。

▶︎ 统计学习主要分为监督学习非监督学习半监督学习强化学习

1.2 监督学习

▶︎ 基本假设:XY具有联合概率分布,训练数据与测试数据为依照联合概率分布独立同分布产生
▶︎ 假设空间:模型在输入到输出的映射集合中,即假设空间中。输出预测一般为条件概率P(y|x)y=f(x)

  1. 给定一个有限的训练数据集合,假设数据独立同分布
  2. 确定包含所有可能的模型假设空间,即模型集合
  3. 确定模型选择的准则,即学习策略
  4. 实现求解最优模型的算法,即学习算法
  5. 通过学习方法选择最优模型
  6. 利用学习最优模型对新数据进行预测或分析

▶︎ 输入输出变量为XY,具体取值为xy,第i个输入变量为x_i
输入实例x的特征向量为x=(x^{(1)},x^{(2)},...,x^{(n)})^{T}
训练集为T=\{(x_1,y_1), (x_2,y_2),...,((x_N,y_N)\}

▶︎ 分类问题
输出变量为有限个离散值,一般评价指标为分类准确率
二分类问题常用精确率与召回率。
TP——将正类预测为正类数
FN——将正类预测为负类数
FP——将负类预测为正类数
TN——将负类预测为负类数
精确率:
P={TP\over TP+FP}
召回率:
R={TP\over TP+FN}

▶︎ 标注问题
输入为观测序列,输出为标记序列或状态序列
可能的标记个数是有限的,但其组合所成的标记序列的个数是依序列长度呈指数级增长的
P(Y^{(1)}, Y^{(2)},...,Y^{(n)}|X^{(1)}, X^{(2)},...,X^{(n)})
每个X取值为所有可能的观测,对新的观测序列是找到使条件概率最大的标记序列。例如隐马尔可夫模型,条件随机场

▶︎ 回归问题
输入输出均为连续,最常用的损失函数为平方损失函数,最小二乘法

1.3 统计学习三要素

方法=模型+策略+算法

▶︎ 模型
F=\{f|Y=f_{𝜃}(X), 𝜃∈R^{n}\} or F=\{f|P_{𝜃}(Y|X), 𝜃∈R^{n} \}
参数空间:参数向量𝜃取值于n维欧氏空间R^{n}

▶︎ 策略
损失函数度量模型一次预测的好坏, 风险函数度量平均意义下模型预测好坏

  1. 0-1损失函数
    L(Y,f(X)) = \begin{cases} 0, & \text{Y = f(X)} \\ 1, & \text{Y $\neq$ f(X)} \end{cases}
  2. 平方损失函数
    L(Y,f(X)) =(Y-f(X))^2
  3. 绝对损失函数
    L(Y,f(X)) =|Y-f(X)|
  4. 对数损失函数/对数似然损失函数
    L(Y,P(Y|X)) =-logP(Y|X)

期望损失:模型关于联合分布的期望损失,导致病态问题
R_{exp}(f)=E_p[L(Y,f(X))]=\int_{xy}L(Y,f(X))P(x,y)dxdy
经验损失:模型关于训练样本集的平均损失,样本小时不可靠
R_{emp}(f)={1\over N}\sum_{i=1}^nL(y_i,f(x_i))

经验风险最小化: 适合样本容量非常大,例如极大似然估计,否则出现“过拟合”。
\min_{f\in F} {1\over N}\sum_{i=1}^nL(y_i,f(x_i))

结构风险最小化:防止过拟合,即正则化。例如最大后验概率估计
\min_{f\in F} {1\over N}\sum_{i=1}^nL(y_i,f(x_i))+\lambda J(f)
J(f)为模型复杂度;\lambda≥0权衡经验风险和模型复杂度

▶︎ 算法
求解最优化的算法问题

1.4 模型评估与模型选择

▶︎ 模型评估:统计学习方法具体采用的损失函数未必是评估时使用的损失函数;训练误差的大小能判定问题是不是容易学习,测试误差更为重要反应学习方法对未知预测的能力
▶︎ 模型选择:所选择模型要与真模型参数个数相同且参数向量接近。模型复杂度过高则为过拟合

1.5 正则化与交叉验证

模型选择两种常用方法可帮助选择复杂度适中的模型
▶︎ 正则化:结构风险最小化策略实现,选择经验风险与模型复杂度同时较小的模型
参数向量w的L_2范数
L(w)= {1\over N}\sum_{i=1}^N(f(x_i;w)-y_i)^2+{\lambda\over 2}||w||^2

参数向量w的L_1范数
L(w)= {1\over N}\sum_{i=1}^N(f(x_i;w)-y_i)^2+\lambda||w||_1

▶︎ 交叉验证:训练集用来训练模型,验证集用于模型选择,测试集用于方法评估。

1.6 泛化能力

该方法学习到的模型对未知数据的预测能力,因为仅依据测试数据集的评价结果是不可靠的。泛化误差即为所学到的模型的期望风险

▶︎ 泛化误差上界
样本容量和假设空间容量的函数
样本容量增加,趋于0
假设空间容量增加,趋于更大

经验风险最小化函数
f_N=arg\,\min_{f\in F}\hat R(f)
泛化能力
R(f_N)=E[L(Y,f_N(X))]

1.7 生成模型与判别模型

生成模型:由数据学习联合概率分布,然后求出条件概率分布作为预测模型,朴素贝叶斯法,隐马尔可夫模型
特点:可还原出联合概率分布,学习收敛速度更快,适用于存在隐变量

判别模型:由数据直接学习f(X)活着条件概率模型,给定X预测Y,k近邻法,感知机,决策树,logistic回归等等
特点:直接面对预测,学习准确度更高,可简化学习问题

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,230评论 5 476
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,261评论 2 380
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,089评论 0 336
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,542评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,542评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,544评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,922评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,578评论 0 257
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,816评论 1 296
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,576评论 2 320
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,658评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,359评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,937评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,920评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,156评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,859评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,381评论 2 342

推荐阅读更多精彩内容