机器学习——绪论(三)

摘要:归纳偏好

参考:

(1)《机器学习》周志华著,清华大学出版社

(2)归纳偏置_百度百科 (baidu.com)

(3)没有免费午餐定理_百度百科 (baidu.com)

4.归纳偏好

问题引入:版本空间中的每一个假设都代表了一种与训练集一致模型,但他们面临新样本时产生的输出却不一定相同,这并不符合我们的预期。我们想要的模型,是一个输入数据后得到唯一输出的一个“函数”,否则学得的模型有时告诉我们结果是y_{i} ,有时告诉我们结果是y_{j},这样的学习结果将毫无意义,因此我们必须从版本空间中选出一个假设来作为我们最后解决问题的模型,这时,学习算法本身的“偏好”就会起到关键作用。

4.1定义

周志华老师的机器学习中对“归纳偏好”有如下定义:

\bullet 机器学习算法在学习过程中对某种类型假设的偏好,称为“归纳偏好”(inductive bias),或简称为“偏好”。

百度百科对“归纳偏置”有如下定义:

\bullet 当学习器去预测其未遇到过的输入的结果时,会做一些假设(Mitchell, 1980)。而学习算法中归纳偏置则是这些假设的集合。

任何一个有效的额机器学习算法必有其归纳偏好,否则它将被假设空间中看似在训练集上“等效”的假设所迷惑,而无法产生确定的学习结果。

“归纳偏好”在一些文章里也被叫做“归纳偏置”。

4.2常用的归纳偏好假设

\bullet 最大条件独立性(conditional independence):如果假说能转成贝叶斯模型架构,则试着使用最大化条件独立性。这是用于朴素贝叶斯分类器(Naive Bayes classifier)的偏置。

\bullet最小交叉验证误差:当试图在假说中做选择时,挑选那个具有最低交叉验证误差的假说,虽然交叉验证看起来可能无关偏置,但天下没有免费的午餐理论显示交叉验证已是偏置的。

\bullet最大边界:当要在两个类别间画一道分界线时,试图去最大化边界的宽度。这是用于支持向量机的偏置,它假设不同的类别是由宽界线来区分。

\bullet最小描述长度(Minimum description length):当构成一个假设时,试图去最小化其假设的描述长度。假设越简单,越可能为真的。例如奥卡姆剃刀。

\bullet最少特征数(Minimum features):除非有充分的证据显示一个特征是有效用的,否则它应当被删除。这是特征选择(feature selection)算法背后所使用的假设。

\bullet最近邻居:假设在特征空间(feature space)中一小区域内大部分的样本是同属一类。给一个未知类别的样本,猜测它与它最紧接的大部分邻居是同属一类。这是用于最近邻居法的偏置。这个假设是相近的样本应倾向同属于一类别。

4.3举例:奥卡姆剃刀(Occam's razor)

“奥卡姆剃刀”是一种常用的、自然科学研究中最基本的原则。即“若有多个假设与观察一致,则选择最简单的那个”。

例如我们现在处理一个回归问题,训练集为图一中的实心圆点,曲线A和B分别代表了版本空间中的两个模型,假设我们认为“越平滑”代表着“越简单”,那么对于该例,我们会自然的偏好“平滑”的曲线A。


图1:回归问题的版本空间(摘自周志华《机器学习》)

4.4没有免费午餐定理(No Free Lunch Theorem)

4.4.1定理内容

1)对所有可能的的目标函数求平均,得到的所有学习算法的“非训练集误差”的期望值相同;

2)对任意固定的训练集,对所有的目标函数求平均,得到的所有学习算法的“非训练集误差”的期望值也相同;

3)对所有的先验知识求平均,得到的所有学习算法的“非训练集误差”的期望值也相同;

4)对任意固定的训练集,对所有的先验知识求平均,得到的所有学习算法的的“非训练集误差”的期望值也相同。

NFL定理表明没有一个学习算法可以在任何领域总是产生最准确的学习器。不管采用何种学习算法,至少存在一个目标函数,能够使得随机猜测算法是更好的算法。

简单概括来说,对于一个算法\xi_{a} ,如果在某些问题上它的性能比算法\xi_{b}要好,那么必然存在另外一些问题,在这些问题上算法\xi_{b}比算法\xi_{a}的性能好。也就是说算法的好坏是相对的而不是绝对的。

4.4.2定理结论

该定理的结论是,由于对所有可能函数的相互补偿,最优化算法的性能是等价的。该定理暗指,没有其它任何算法能够比搜索空间的线性列举或者纯随机搜索算法更优。

关于定理的证明周志华老师在书中很详细,南瓜书也有详细记载,可以参考南瓜书PumpkinBook (datawhalechina.github.io)

4.4.3定理的前提

1.所有“问题”出现的机会相同、或所有问题同等重要

2.假设f均匀分布

然而实际情况并不一定能满足上列条件,而且大多数情况是满足不了这个条件的,所以

NFL最重要的寓意,是让我们清楚的认识到,脱离具体问题,空泛地谈论“什么学习算法更好”毫无意义

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 202,980评论 5 476
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,178评论 2 380
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 149,868评论 0 336
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,498评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,492评论 5 364
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,521评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,910评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,569评论 0 256
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,793评论 1 296
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,559评论 2 319
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,639评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,342评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,931评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,904评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,144评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,833评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,350评论 2 342

推荐阅读更多精彩内容