深度模型常见加速训练策略架构篇(一)---分布式训练介绍

一、当前模型训练速度的瓶颈

(一)、当前模型训练步骤

  1. 读取Mini batch,前向传播计算loss
  2. loss反向传播得到各个参数的梯度
  3. 根据算出的梯度,选用特性的优化器更新参数

(二)、当前模型训练模式分类

  1. 单机单卡
  2. 单机多卡
  3. 多级多卡

(三)、采用分布式系统训练中涉及到的通信方式分类

  1. 点对点通信(只有一个发送者和接收者)
  2. 集合通信(有多个发送者和接收者)

(四)、分布式系统中基于集合通信的常用操作

  1. boradcast,将参数从一个node发到多个node上
  2. reduce,将参数从多个node收集到一个node上,同时对手机到的参数进行归并(求和求积)

(五)、大规模训练的技术挑战(研究点/优化点)

1. 显存墙(决定能否训练)

(1)介绍

  • Model states、
    模型参数
  • Avtivations
    用于 autograd 的中间变量。如 Forward Output、Output Gradient 以及 cuDNN Workspace。

(2)优化方式

2. 通信墙(决定训练速度)

(1)介绍

在进行分布式训练时对神经网络进行了各种各样的切分,但是神经网络的训练任务仍是一个整体,因而,切分需要通信来进行聚合。

聚合所产生的通信需求隐含了不少问题,首先,深度学习迭代式训练的特性导致更新频繁,需要大量的交换局部更新。但是目前网络的传输速率远远不能匹配 GPU 或 TPU 这种专用加速芯片的运算速率。

  • 能否增大带宽
    不行。增大带宽,带宽利用率会降低。因为网络协议栈会占用带宽

3.计算墙(决定训练速度)

(1)介绍

顾名思义,前向传播和反向传播的计算以及参数更新的计算瓶颈。

opeator-level算子级别的优化
  • 小算子过多
  • Kernel实现不够高效
  • 内存局部性差
Graph-level计算图级别的优化
  • 如何搜索出计算效率更高的计算图
  • 如何用计算编译技术解决小算子问题
  • 如何进行通信和计算的 overlap 等
Task-level训练阶段的系统设计

与传统训练不同,在包含大规模训练技术的训练系统设计时,不仅要考虑到庞大的节点数,也要考虑到在解决显存、通信问题时带来的系统层面的变化。因此,Task-level 的关键挑战在于,如何给出一个最终计算效率最高的系统设计

  • 采用何种分布式训练架构,才能使得大规模训练具备良好的拓展性。在节点数很多时仍能保持较好的加速比(scale factor)
  • 如何 balance 显存优化与速度优化

二、如何从系统框架层面上对训练加速---并行

(一)分类

  • 数据并行(解决计算墙)
    1.不同 node 输入不同数据,运行相同的完整的模型。
    2.通过修改 Sampler 切分输入,每张卡只需要处理一部分数据
  • 模型并行(解决显存墙)
    1.不同 node 输入相同数据,运行模型的不同部分
    2.通过修改层内的计算方式,将单层的计算负载和显存负载切分到多张卡上
  • 流水并行(解决显存墙)
    将不同的层放到不同的卡上,进而将计算负载和显存负载切分至多张卡上

一旦使用分布式并行计算,就会涉及到数据通信的问题,因此还需要对通信进行加速(解决通信墙)

一般来说,模型并行比数据并行的通信量更少。但是模型并行需要自己地将模型的计算进行分解。因此一般使用数据并行加速。

(二)数据并行

1. Parameter Server模式(tensorflow)

(1)结构介绍

类似于master-slave 的同步模式:


image.png

将 node 分成两种角色:

  • parameter server(ps) 负责维护一份最新的参数 ,
  • worker 负责利用从 ps 读到的最新参数计算出梯度(forward 和 backprop),并对 ps 发送梯度和参数更新请求。

(2)优化方式介绍

优化方式分为两类:同步更新(synchronous update)和异步更新(asynchronous update)。

同步更新

ps 会同时充当 reducer 的角色,等待所有 worker 都发来梯度和参数更新请求后,ps 会对梯度取平均(reduce mean),并用平均过后的梯度更新一次参数。各个 worker 在从 ps 读取最新参数的过程中,以及等待 ps 更新参数的过程中,都是处于空闲状态。

  • 优点:收敛好(相比于异步更新而言)
  • 缺点:慢
异步更新

与同步更新不同,异步更新中 ps 在收到 worker 的梯度以及更新请求的时候,会立即对参数发起更新,而不等待其他 worker。在完成梯度的计算后,worker 会立刻从 ps 上读取参数,进行下一步的迭代。

  • 异步更新的一些问题及解决方案
    (i) 参数和更新用的梯度并不来自同一个迭代。用来更新的梯度可能是几步更新前的参数算出来的。
    解决:直接丢掉落后于当前迭代的梯度。(造成了不同 worker racing 的情况,对计算资源和数据的利用效率不高。)
    (ii)参数的读取并没有加锁。这导致 worker 可能会读到更新一半的参数。
    直接丢掉落后于当前迭代的梯度。

(3)PS方式优缺点

优点: 容错能力强(设置多个PS)
缺点:PS传输带宽制约训练速度
目前,因为机器计算能力增强,需要地机器数越来越少,所以机器故障率贬低,因此不需要容错能力,反而需要加快训练速度。

2. All Reduce模式

image.png

(1)介绍

在 Allreduce 模式中,所有 node 同时充当 ps 和 worker 的角色。

  • 每个 node 可以直接利用本地的参数拷贝θi进行 forward 和 backprop 的计算
  • 所有 node 都得到算出梯度后,执行 allreduce 操作,各个 node 都会得到全部 node 的梯度平均.
  • 最后各个 node 利用拿到的梯度平均对本地的θi 进行一次更新。
    给个epoch内,各个 node 需要发送和接受一份梯度。

(2)优缺点

  • 优点
    传输耗时在一定规模内基本不随 node 数目的增加而变化
    同步更新,收敛好,可采用大学习率
  • 缺点
    当系统中存在异构的 worker 的时候,更新仍然会被最慢的 worker 阻塞住

3.主流方案 ring-allreduce

(1).介绍

  • 架构拓扑结构
    假设各个 node 以一个环排列,这种假设可以适用于很多种拓扑结构,有其工程实现上的方便性。


    image.png
  • 主要算法内容


    image.png

    image.png

(三)、附录

梯度平均的实现细节

image.png

Reference:

https://zhuanlan.zhihu.com/p/350707888
https://zhuanlan.zhihu.com/p/50116885

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,271评论 5 476
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,275评论 2 380
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,151评论 0 336
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,550评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,553评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,559评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,924评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,580评论 0 257
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,826评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,578评论 2 320
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,661评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,363评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,940评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,926评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,156评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,872评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,391评论 2 342