<机器学习>西瓜书,读书笔记

机器学习的发展阶段

1:推荐书目:周志华<机器学习西瓜书>,李航教授<统计学习方法>,这两本书都用简单的方式介绍了一批重要并且常用的机器学习算法

机器学习所发展的几个重要的阶段:

1符号学习,在人工智能发展的早期,机器学习的技术内涵基本都是符号学习,转折点发现在二十世纪九十年代,统计机器学习的出现,最近几年的人工智能在很大程度上都集中在与统计学和大数据,并且很多的科学家都相信,未来的机器学习的未来都将要转向更加基本的认知科学研究,但是这将需要更长的时间进行探索.

2:统计机器学习并不会一帆风顺,统计机器学习算法都是基于样本数据独立同分布的假设.但是很多人提出了独立同分布的条件对于机器学习来说是必须的么?不过我反而认为前些时候出现的迁移学习会给这个问题带来一定的解决方法.尽管现在迁移学习还需要要求双方需要具备独立同分布的条件,但是不同分步之间的迁移学习也许会提前出现.

3:最近出现的比如深度学习和无终止学习等等,在社会上有很多的关注,其实有很多的学者们都在认为深度学习掀起的热潮都大于了它本身的贡献.并且目前现状在理论和技术上并没有太大的创新的前提下,只不过是由于硬件的技术的革命,计算机的速度大大的提高了,从而使人们有可能采用比原来更加复杂的算法,获得比之前更加精细的结果.并且现在深度学习主要适合用于神经网络,在现在各种机器学习的算法百花齐放的今天,其实它的应用范围还是比较有限的,并且现在统计学习的思想在机器学习的领域依旧被充分地使用.

2:计算机利用经验

在计算机利用系统中,经验通常用数据的形式存在,因此机器学习所研究的主要内容,是关于计算机在数据中产生模型的算法,即学习算法,拥有了学习算法,当我们把我们的经验数据提供给他,模型就会给我们提供相应的判断.如果说计算机科学是研究关于算法的学问,那么机器学习可以说是关于学习算法的学问.而模型就可以泛指从数据中学到的结果,有文献用模型指全局性的结果,而用模式指局部性结果(例如一条结果)

Mitchell提出了一个更加可以形式化的定义:

假设可以用P来评估计算机程序在某种任务类T中的任务获得性能的改善,则我们就说关于T和P,该程序对于E进行了学习.

经典的术语的集合:

1:数据集:记录的集合称为数据集,其中每条记录是关于一个事件或者对象的一个描述,可以称之为事例或者样本,反映事物或者对象在某些方面的表现或者性质的事项就可以称为属性或者特征,属性张成的空间可以属于属性空间,样本空间或者输入空间.比如我们把三个属性作为三个坐标轴,则他们可以张成一个可以用于描述这件实物的一个三维的空间,每个属性构成的量其实都可以找到自己的坐标位置.由于在空间中每一个点都对应一个坐标向量,因此我们可以把一个事例成为特征向量.

2:有时候整个数据集也可以称为一个样本,因为他们也可以看做一个样本空间的一个采样,同时可以通过上下文的判断可以看出样本是单个事例还是数据集.

3:从数据中学得模型的过程叫做学习或者训练,这个过程通过执行某个学习算法完成.训练过程中使用的数据叫做训练数据,其中的每个样本称为训练样本.训练样本组成的集合称为训练集,学得模型对应了数据存在的某种假设依据,因此也称为假设.这种潜在规律自身则成为真相或者真事.学习过程就是为了找出或者逼近真相,模型有时候称为学习器,可以看做学习算法给定数据和参数空间的实例化.(训练样本有时候也称为训练事例)

4:学习算法通常可以有参数需设置,使用不同的参数值或者训练数据,将产生不同的结果,关于事例结果的信息,例如好瓜,可以称之为标签,拥有了标记信息的示例,可以称之为样例.一般的(Xi Yi)表示为第i个样例,其中Yi是属于Y的示例Xi的标记,则Y是所有标记的集合,也称为标记空间或者输出空间.如果我们想要预测离散值,比如说”好人””坏人”,这样的学习任务就可以称之为分类,想要预测的是连续值,比如西瓜成熟度0.7 0.6之类的,这样的学习任务就叫做回归.对于只涉及两个级别的’二分类’任务,一般称一个类是正类,另一个类是反类,当涉及多个级别的时候,就可以称为多分类.

5:学得模型之后,使用其进行预测的过程称为测试,被预测的样本称为测试样本,例如在学得f以后,对应测试列x,可以得到测试项目y=f(x).我们还可以对这些样本进行聚类,即将训练集中的样本分成若干个组,这样每个样本就可以称为一个簇,这样自动形成的簇可能会对应一些潜在的概念的划分.在这样的学习过程中,可以有助于我们了解数据的内在的规律,更为深入的分析建立数据的基础.并且在聚类学习中,一些概念我们是不知道的,而且学习过程中使用数据样本通常不具有标记信息.

根据训练数据是否具有标记信息,学习任务大概可以分为下列两大类,”监督学习”和”无监督学习”,分类和回归是前者的代表,而聚类是后边的代表作.而监督学习和无监督学习也称为有导师学习和无导师学习,更加需要注意的是,机器学习的目的是使学得的模型可以更好的适用于新的样本,而不仅仅是在这些训练样本上的工作做得很好;即便对于聚类这样的无监督学习任务,我们也希望学得的簇可以适用于没在训练集出现的样本,学得的模型可以适用于学得新样本的能力,称为泛化,因此具有强烈的泛化能力的模型可以很好的适用于整个样本空间.尽管有时候训练集通常只是训练样本中一个很小的采样,我们仍然希望他们能很好的反映出整个样本空间的特性,否则就很难在训练集上学得的模型能在整个样本空间上都工作的很好.一般而言,训练样本越多,我们能得到的关于未知分步的信息也就越多,这样也就越有可能通过学习获得具有强烈泛化能力的模型.

6:归纳学习:归纳和演绎是科学推理的两个基本手段,前者是特殊到一般的泛化过程,即从具体的事实归纳出一般性的规律,而后者则是从一般到特殊的特化过程,即从基础原理推理到具体的状况.就好比从样例中进行学习,就是一个很显然的归纳的过程,这也就是所谓的归纳学习.

归纳学习也有狭义和广义之分,广义的归纳学习大体相当于从样例中学习,而狭义的归纳学习则要求从训练集中学得概念,因此也称为概念学习和概念形成.概念模型中最基本的是布尔概念模型.

7:假设区间学习:我们可以把学习的过程看做一个在所有假设组成的空间中进行搜索的过程,搜索目标是找到与训练集匹配的假设,即能够将训练集中的样本判断正确的假设.假设的表示一旦确定,假设空间及其规模大小就可以确定了.对于如何对假设空间进行搜索,其实有很多的策略,例如自顶向下,从一般到特殊,或者从下到顶,从特殊到一般,搜索过程可以不断删除与正例不一致的假设,和或者与反例一致的假设,最终将会获得与训练集数据一致的假设(即对所有训练数据样本能够进行正确判断的假设),这就是我们学得的结果.但是在现实过程中我们会面临很多的假设空间,但是学习过程是针对很多的有限样本训练集进行的,因此可能有多个假设和训练集一致的假设集合,我们称之为版本空间.

8:归纳偏好:通过学习得到的模型对应了假设空间的一个假设,在机器学习算法中对于某种类型假设的偏好,称为归纳偏好,(注意:尽可能特殊”适用情形可能少”,尽可能一般即”适用情形尽可能多”),对于属性的选择,也称为特征选择,但是机器学习中特征选择仍是基于训练样本的分析进行的,但是我们有时候也可以基于某种领域知识而产生归纳的偏好.

归纳偏好可以看做学习算法自身有一个可能很庞大的假设空间中对假设进行启发和价值观,其实可以使用奥卡姆剃刀的原则,(如果有多个假设和观察一致,则选哪个最简单的哪个),事实上,归纳偏好对应了学习算法本身所作出关于什么模型更好地假设.在具体的现实问题中,这个假设是否成立,即算法的归纳偏好能否与问题相匹配,大多数直接决定了算法是否可以取得好的性能.

iM1Swpl

最后编辑于：2017.12.05 21:51:17

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 202,529评论 5赞 475
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,015评论 2赞 379
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 149,409评论 0赞 335
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,385评论 1赞 273
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,387评论 5赞 364
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,466评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,880评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,528评论 0赞 256
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,727评论 1赞 295
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,528评论 2赞 319
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,602评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,302评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,873评论 3赞 306
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,890评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,132评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,777评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,310评论 2赞 342

<机器学习>西瓜书,读书笔记

推荐阅读更多精彩内容