《分布式机器学习》笔记1-机器学习基础


今天开始更新《分布式机器学习》的系列笔记,保证每周2-3更,大家一起学习啊~~


第一次笔记是机器学习基础,就简单的整理一下知识点。


机器学习的基本概念

机器学习关注的核心问题是如何用计算的方式模拟人类的学习行为:从历史经验中获取规律或者模型,并将其应用到新的类似场景中。

多维度梳理机器学习问题:

  • 从学习目标的角度,可以大体分为回归、分类、排序、有结构预测等。
  • 从训练数据特性的角度,可以大体分为有监督学习、半监督学习、无监督学习、弱监督学习等。
    1. 有监督学习:每个训练数据都拥有标签;
    2. 半监督学习:训练集里同时存在有标签数据和无标签数据,通常需要对无标签数据进行预处理;
    3. 无监督学习:数据都是无标签的,学习的目的是从数据中发掘关联规则,或者利用数据在输入空间中的相互关系对数据进行聚类和影响力排序;
    4. 弱监督学习:存在某种形式的奖励信号,该信号可以用于模型训练,但没有样本标签那么直接、准确,比如强化学习。
  • 从模型复杂的程度,可以大体分为线性模型和非线性模型。
  • 从模型的功能角度,可以分为生成模型和判别模型。

机器学习的基本流程

机器学习的流程可以用下图表示:


常用的损失函数

  • Hinge损失函数
    l(w;x,y) = max\{0, 1-yg(x;w)\}
  • 指数损失函数
    l(w;x,y)=exp(-yg(x;w))
  • 交叉熵损失函数
    假设标签的概率分布:
    P(Y=1|x;w)=\frac{exp(g(x;w))}{exp(g(x;w))+exp(-g(x;w))}
    P(Y=-1|x;w)=\frac{exp(-g(x;w))}{exp(g(x;w))+exp(-g(x;w))}
    则交叉熵损失函数定义为:
    l(w;x,y)=-\sum_{z\in{-1,1}}I_{y=z}logP(Y=z|x;w)

常用的机器学习模型

(感兴趣的可以自己找资料看,在这里只进行简单梳理,不做详细笔记)

  • 线性模型
  • 核方法与支持向量机
  • 决策树与Boosting
  • 神经网络
    1. 全连接神经网络
    2. 卷积神经网络
    3. 循环神经网络

常用的优化方法

典型的优化方法:

一阶算法 二阶算法
确定性算法 梯度下降法
投影次梯度下降
近端梯度下降
Frank-Wolfe算法
Nesterov加速算法
坐标下降法
对偶坐标上升法
牛顿法
拟牛顿法
随机算法 随机梯度下降法
随机坐标下降法
随机对偶坐标上升法
随机方差减小梯度法
随机拟牛顿法

还有一些针对神经网络优化的算法,例如,带冲量的随机梯度下降法、Nesterov加速方法、AdaGrad、RMSProp、AdaDelta、Adam、AMSGrad、等级优化算法以及基于熵的随机梯度下降法等。

机器学习理论

  • 机器学习的泛化误差
    机器学习算法的最终目标是最小化期望损失风险,但由于数据的真实分布通常未知,因此学习目标转化为最小化经验风险。
    min_{g\in G}\hat{l_n}(g)=\frac{1}{n}l(g;x_i,y_y)
  • 泛化误差的分解
    希望算法输出的模型\hat{g_T}与最优模型g^{ \ast}的期望风险之差L(\hat{g_T})-L(g^{\ast})尽可能小,这个差距成为泛化误差。对其进行如下分解:
    L(\hat{g_T})-L(g^{\ast})=L(\hat{g_T})-L(\hat{g_n})+L(\hat{g_n})-L(g^{\ast}_ G)+L(g^{\ast}_ G)-L(g^{\ast})
  1. L(\hat{g_T})-L(\hat{g_n}):优化误差。衡量的是优化算法迭代T轮后输出的模型与精确最小化经验风险的差别。是由于优化算法的局限性带来的,与选用的优化算法、数据量大小、迭代轮数以及函数空间有关。
  2. L(\hat{g_n})-L(g^{\ast}_ G):估计误差。衡量的是最小化经验风险误差的模型和最小化期望风险的模型所对应的的期望风险的差别。是由训练集的局限性带来的,与数据量的大小和函数空间的复杂程度有关。
  3. L(g^{\ast}_ G)-L(g^{\ast}):近似误差。衡量的是函数集合G的最优期望风险与全局最优期望风险的差别。与函数空间的表达力有关。
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 202,802评论 5 476
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,109评论 2 379
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 149,683评论 0 335
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,458评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,452评论 5 364
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,505评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,901评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,550评论 0 256
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,763评论 1 296
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,556评论 2 319
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,629评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,330评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,898评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,897评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,140评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,807评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,339评论 2 342

推荐阅读更多精彩内容

  • 机器学习术语表 本术语表中列出了一般的机器学习术语和 TensorFlow 专用术语的定义。 A A/B 测试 (...
    yalesaleng阅读 1,957评论 0 11
  • 谷歌开发者机器学习词汇表:纵览机器学习基本词汇与概念 姓名:钟航 转载自:http://mp.weixin.qq....
    XavierZHH阅读 1,942评论 0 7
  • A 准确率(accuracy) 分类模型预测准确的比例。在多类别分类中,准确率定义如下: 在二分类中,准确率定义为...
    630d0109dd74阅读 1,305评论 0 3
  • 本文编译自谷歌开发者机器学习术语表项目,介绍了该项目所有的术语与基本解释。 A 准确率(accuracy) 分类模...
    630d0109dd74阅读 1,980评论 0 1
  • 下班后,我急匆匆地赶到公交站台,在吹了二十多分钟的冷风后,我打着寒颤挤进了公交车。 今天运气不好,公交车上很多人,...
    一只黄胖阅读 721评论 8 6