机器学习读后感(二)概念学习和一般到特殊序

从特殊的训练样例中提取出一般的特征是机器学习的中心问题,这一问题被称为概念学习(concept learning),或称从样例中逼近布尔值函数。定义: 概念学习是指从有关某个布尔函数的输入输出训练样例中推断出该布尔函数。

术语定义

概念定义在一个实例(instance)集合之上,表示为X。
  目标概念(target concept): 待学习的概念或函数,记作c。一般来说,c是可以定义在实例集X上的任意布尔函数,即c:X→{0,1}。
  训练样例(training examples):每个样例为X中的一个实例x以及它的目标概念值c(x)。对于c(x)=1的实例被称为正例(positive example),对于c(x)=0的实例为反例(negative example)。经常可以用序偶<x,c(x)>来描述训练样例。
  假设(hypothese):对目标概念的估计,所有可能假设的集合为H。H中的每个假设h表示X上的定义的布尔函数即h:X→{0,1}。机器学习的目标就是寻找一个假设,使对于X中的所有x,h(x) = c(x)。
  归纳学习假设:任一假设如果在足够大的训练样例集中很好的逼近目标函数,它也能在未见实例中很好的逼近目标函数。

假设的一般到特殊序

如果任何被h1划分为正例的实例都会被h2划分为正例,那么我就说h2比h1更一般。


FIND-S:寻找极大特殊假设

FIND-S算法使用一般到特殊序,在偏序结构的一个分支上执行一般到特殊搜索,以寻找与样例一致的最特殊假设。从H中最特殊假设开始,然后再该假设覆盖正例失败时将其一般化(当一假设能正确地划分一个正例时,称该假设“覆盖”该正例),算法如下:



  FIND-S算法的重要特点是:对以属性约束的合取式描述的假设空间,FIND-S保证输出为H中与正例一致的最特殊的假设。然而,这一学习算法仍存在一些未解决的问题:

  • 学习过程是否收敛到了正确的目标概念,也就是没法确定它是否找到了唯一合适的假设。
  • 为什么要用最特殊的假设。
  • 训练样例是否相互一致。训练数据中的某些错误或噪声会严重破坏FIND-S算法,因为它忽略了所有反例。
  • 如何处理有多个极大特殊假设的情况

变型空间和候选消除算法

候选消除(candidate-elimination)算法能解决FIND-S中的若干不足之处。FIND-S输出的假设只是H种能够拟合训练样例的多个假设中的一个,而候选消除算法输出的是如训练样例一致的所有假设的集合。候选消除算法利用一般到特殊序,通过渐进地计算极大特殊假设集合S和极大一般假设集合G计算变型空间。

表示

当一个假设能正确分类一组样例时,我们称这个假设是与这些样例一致的(consistent)。



  候选消除算法能够表示与训练样例一致的所有假设,在假设空间中这一子集被称为关于假设空间H和训练样例D的变型空间(version space),因为他包含了目标概念的所有合理变型。


列表后消除算法

列表后消除算法列出所有成员来表示变型空间。



  这一算法能保证得到所有与训练数据一致的假设,但是要繁琐的列出H中所有假设,这对于大多数实际的假设空间是并不现实。

变型空间的更简洁表示

候选消除算法与列表后消除算法遵循同样的原则,但它使用一种更简洁的变型空间表示法。变型空间被表示为它的极大一般和极大特殊的成员。这些成员形成了一般和特殊边界的集合,这些边界在整个偏序结构中划分出变型空间。


候选消除学习算法


关于变型空间和候选消除的说明

候选消除算法是否会收敛到正确的假设

由候选消除算法得到的变型空间能够收敛到正确假设的条件是:

  • 在训练样例中没有错误
  • H中确实包含描述目标概念的正确假设

下一步需要什么样的训练样例

一般来说,概念学习的最优查询策略,是产生实例以满足当前变型空间中大约半数的假设。这样,变型空间的大小可以在遇到每个新样例时减半,正确的目标概念就可在只用⎡㏒₂|VS|⎤次实验后得到。

归纳偏置

现在还有一些问题,比如目标概念不在假设空间中怎么办?假设空间的大小对算法推广到未见实例的能力有什么影响?假设空间的大小对所需训练样例的数量有什么影响?这些都是归纳推理中的一些基本问题。

有偏的学习器

如果扩大假设空间来使每个可能的假设都被包含在内,则有偏的假设空间可定义的目标概念数量会过于巨大。

无偏的学习器

为了保证目标概念在假设空间中,我们需要一个能表达所有的可教授概念(every teachable concept)(即能够表达实例集X的所有可能的子集)的假设空间。一般我们把集合X的所有子集的集合称为X的幂集(power set)。
  如果我们使用无偏的形式,将假设空间定义为允许使用前面假设的任意析取、合取或否定式,这样我们可以安全的使用候选消除算法而不必担心无法表达目标概念。然而新的问题是:概念学习算法将完全无法从训练样例中泛化。

无偏学习的无用性

以上的讨论说明了归纳推理的一个基本属性:学习器如果不对目标概念的形式做预先的假定 ,它从根本上无法对未见实例进行分类。由于归纳学习需要某种形式的预先假定,或称为归纳偏置(inductive bias),我们可以用归纳偏置来描述不同学习方法的特征。



  候选消除算法的归纳偏置:目标概念c包含在给定的假设空间H中。
  一种算法如果有偏性越强,那它的归纳能力越强,可以分类更多的未见实例。



最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 199,393评论 5 467
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 83,790评论 2 376
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 146,391评论 0 330
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 53,703评论 1 270
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 62,613评论 5 359
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,003评论 1 275
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,507评论 3 390
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,158评论 0 254
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,300评论 1 294
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,256评论 2 317
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,274评论 1 328
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,984评论 3 316
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,569评论 3 303
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,662评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,899评论 1 255
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,268评论 2 345
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 41,840评论 2 339

推荐阅读更多精彩内容