分布式机器学习(上)-并行计算与机器学习

本视频来源于Shusen Wang讲解的《分布式机器学习》,总共有三讲,内容和连接如下:

  • 并行计算与机器学习(上)

  • 并行计算与机器学习(下)

  • 联邦学习:技术角度的讲解

    这一节讲解《并行计算与机器学习(上)》,这节课的主要内容:

    • Motivation:并行计算有什么用?为什么机器学习的人需要懂并行计算。

    • 最小二乘回归。

    • 用并行计算来解最小二乘回归。

    • 并行计算中的通信问题。

    • MapReduce,已经如何用MapReduce实现并行梯度下降,以及通信、同步的问题

    image

    首先,我们为什么需要对机器学习进行并行计算呢?这点其实很好理解,因为:

    • 机器学习模型通常很大:如ResNet-50有2500万个参数

    • 大模型是基于大数据训练的,比如ImageNet有1400万张图片

    • 大模型和大数据共同构成了大的计算开销

    • 利用并行计算可以使得运算更快(此处指的是钟表时间而不是总的计算量)

    我们先以最小二乘法为例开始讲解:

    image

    最小二乘法的目标如上图所示,我们希望找到 ​ 使得 ​ 最小。那么我们就是要求这么一个梯度:

    image

    假如我们有两块处理器,我们就可以将数据分为两份,由两个处理器分别执行,然后执行完再对数据进行合并(通信),如下:

    image

    通信的目的是做Aggregation,一般有两种通信方法,分别是 Share memory 和 Message passing。

    image

    Share memory 的架构图如上,简单来说就是不同的处理器共享一块内存,然后他们可以共同访问这一块内存,这样就很容易实现通信。这种方法有着一定的限制,因为处理器要连着同一个内存,这样就没办法同时用很多处理器进行工作,规模是上不去的。

    image

    另一种方法叫做 Message passing,有多个节点,节点的处理器之间是可以采用共享内存,节点之间不能共享内存。节点之间可以网线相连接也可以使用 TCP/IP 进行消息传递。这种方式可以适用于大规模的计算。做并行计算的时候,一个很重要的点是如何协调这些节点,于是我们有了 Client-Server 架构:

    image

    我们把一个节点作为server,用来协调其他节点,其他节点作为worker,用于计算。

    image

    另一种架构叫做P2P架构,每个节点有邻居,邻居之间可以通信。

    然后我们讲一下如何用MapReduce做并行梯度下降。这个是MapReduce的简单介绍。

    image

    MapReduce是Client-Server架构,Server可以把信息广播到worker节点。Server先定义一个 Map 操作,这个 Map 操作是由worker节点完成,然后worker把结果传回client并处理,这个叫做reduce。

    image

    利用 MapReduce 做并行梯度计算的过程如上,过程也比较通俗易懂就不在加以解释了

    image

    那么假如有 ​ 个节点的话,我们可以吧数据均匀分给他们,那么差不多每个worker的运行时间变成了 ​,当然实际上是不会降到那么低,因为还有同步的时间。这个加速比实际上如下图所示:

    image

    真实情况加速比实际上是到不了 ​ 的,如果算法或者模型不好,通信时间可能比计算时间要长很多。通信时间由两部分构成,一个是通信复杂度,一个是网络延迟。

    image

    还有一部分开销是由同步造成的,因为worker是有快有慢造成的。假如一个节点挂掉了那大家都得等它。

    image

    这种情况下,这个节点就叫做straggler,其会导致钟表时间增大,因为要等这个节点。概括一下,这节课程讲了一下几点:

    • 梯度下降可以用 MapReduce 进行并行化。

    • 并行化的过程中,数据被分给 worker 进行计算。

    • 每一个梯度下降过程包含一个广播、map和一个 reduce 操作。

    • 主要有计算代价、通信代价和同步代价。

    • 如果有 ​ 个 worker,那么加速比是低于 ​ 的。


    欢迎关注公众号《差分隐私》

image
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 202,802评论 5 476
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,109评论 2 379
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 149,683评论 0 335
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,458评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,452评论 5 364
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,505评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,901评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,550评论 0 256
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,763评论 1 296
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,556评论 2 319
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,629评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,330评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,898评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,897评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,140评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,807评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,339评论 2 342

推荐阅读更多精彩内容