Flink容错机制-双十一神话的安全保障

Flink容错机制以及Chandy-Lamport算法

流式计算分为有状态和无状态两种情况，所谓状态就是计算过程中的中间值；

对于无状态计算，会独立观察每个独立事件，并根据最后一个事件输出结果：对于一个流式系统接收到一系列的数字，当数字大于N则输出，这时候在此之前的数字的值、和等情况，压根不关心，只和最后这个大于N的数字相关就行；

有状态计算：想求过去一分钟所有数字的和或者平均数等，这种就需要保存中间结果的情况有状态的计算；当分布式计算系统中引入状态计算时，就无可避免一致性问题：若是计算过程中出现流故障，中间数据怎么办？若是不保存，那就只能重新从头计算，不然怎么保证计算结果的正确性；这就需要要求系统具有容错性

一致性

所谓一致性就是，成功处理故障并恢复之后得到的结果与没有发生任何故障得到的结果相比，前者的正确性(故障的发生是否影响得到的结果)，分为三个级别：

at-most-once：至多一次；故障发生之后，计算结果可能丢失，就是无法保证结果的正确性；
at-least-once：至少一次；计算结果可能大于正确值，但绝不会小于正确值，就是计算程序发生故障后可能多算，但是绝不可能少算；
exactly-once：有且仅有一次；系统保证发生故障后得到的计算结果和值和正确值一致；

(最重要的分布式一致性问题：拜占庭将军问题，也是当下很火的区块链的核心问题及优化方向)

Flink的容错机制保证流exactly-once，也可以选择at-least-once；Flink的容错机制是通过对数据流不停的做快照(snapshot)实现的；

Chandy-Lamport算法(Flink容错的基石)

论文地址 http://lamport.azurewebsites.net/pubs/chandy.pdf

Flink使用了分布式快照算法来保证Exactly-once，而Flink的算法是基于Chandy和Lamport在1985年提出的分布式快照算法(称为Chandy-lamport算法)改进而来的；
Lamport也是著名的拜占庭将军问题的提出者，在分布式计算领域有诸多重要贡献；
Chandy-Lamport算法可以说是Flink实现Exactly-once的重要基石(Spark中的容错机制也是基于Chandy-Lamport)

Channdy-lamport

上图所示的是Chandy与Lamport发布的论文 -> 分布式快照：确定分布式系统的全局状态

全局快照(Global Snapshot)：

Global Snapshot我们也可以理解为Global State---全局状态，在系统做Failure Recovery的时候非常有用，也是广泛应用在分布式系统，更多是分布式计算系统中的一种容错处理理论基础；

在Chandy-Lamport算法中，为了定义分布式系统中的全局状态，我们先将分布式系统简化成有限个进程和进程之间的channel组成，也就是一个有向图，节点是进程，边是channel；一个分布式系统的全局状态就是有进程的状态和channel中的message组成，这个也是分布式快照算法需要记录的；

因为是有向图，所以每个进程对应着两个类channel:input channel,output channel;同时假设Channel是一个容量无限大的FIFO队列，收到的message都是有序且无重复的，Chandy-Lamport分布式快照算法通过记录每个进程的local state和它的input channel中有序的message，我们可以认为这是一个局部快照，那么全局快照就是通过将所有的进程的局部快照合并起来得到的；

Chandy-Lamport算法的流程

在论文中分布式系统被简化为两个进程(porcess)上进行的论证

process

进程p与进程q，它们之间数据的交互通过socket channel：c与c'；p发送消息通过c到达q，q发送消息通过c'到达p；
然后采用了single-token conservation 的模型，在此模型中进程中只有一个token，当进程拥有token状态记为sl，进程未拥有token状态记为s0；

pccq

首先进程p和q启动，token in p[p:s1 q:s0]
p发送token去q进程，此时正在socket channel中传输，token in channel[p:s0 q:s0]
q收到token，token in q[p:s0 q:s1]
这个时候q ack回复p，token in channel[p:s0 q:s0]
p收到回复token in p [p:s1 q:s0]

通过上面的流程，在任意时刻都可以记录下两进程中token的状态，此时再推广到多个进程，多个token基本都是一样

Chandy-Lamport算法具体的流程主要包括下面三个部分

Initating a snapshot：也就是开始创建snapshot，可以由系统中的任意一个进程发起
propagating a snapshot：系统中其他进程开始逐个创建snapshot的过程；
Terminating a snapshot：算法结束条件；

Initating a snapshot：

进程Pj发起：记录自己的进程状态，同时生产一个标识信息marker，marker和进程通信的message不同；
将marker信息通过output channel发送给系统里面的其他进程；
开始记录所有input channel接收到的message；

Propagating a snapshot

对于进程Pj从input channel Ckj接收到marker信息；
如果Pj还没有记录自己的进程状态，则
- Pj记录自己的进程状态；同时将channel Ckj置为空；
- 向output channel发送marker信息；
否则
- 记录其他channel在收到marker之前的channel中收到所有message；

这里的marker其实就充当一个分隔符，分隔进程做local snapshot(记录进程状态)的message；

Terminating a snapshot：

所有的进程都收到marker信息并且记录下自己的状态和channel的状态(包含的message)

Chandy-Lamport特点：

任何节点的snapshot由本地状态snapshot和节点的input channel snapshot组成；
任何src可以任意时间决定take本地状态snapshot，take完本地snapshot，广播一个marker给所有下游；
任意没有take本地snapshot的节点，收到第一个marker的时候，take本地状态snapshot，然后给所有output channel广播这个marker；
从收到第一个marker并take完本地snapshot之后，记录所有input channel的msg到log里，直到从所有的input channel 都收到这个marker，作为这些input channel的channel snapshot；

Flink 的 Exactly-once一次语义：

Flink实现Exactly-once 采用的是checkpoint，使用的是Asynchronous barrier snapshots算法(ABS算法)，该算法正是由Chandy-Lamport Algorithm进行一些轻微的变种而来；

Checkpoint

Flink容错机制的核心就是持续不断的创建分布式数据流和操作算子状态的snapshot，这些快照(snapshot)充当检查点(Checkpoint)，系统可以在程序出错失败时将其回滚；受分布式快照的标准Chandy-Lamport算法启发，并针对Flink执行量身定制；

Barriers(栅栏)

Flink分布式快照的核心是stream barriers；这些barriers被插入到数据流中，并作为数据流的一部分和记录一起向下游；Barriers永远不会超过正常数据，数据流严格有序，一个barrier将数据流中的记录分割为进入当前快照的一组记录和进入下一个快照的记录，每个barrier都带有快照ID，并且barrier之前的记录都进入了此快照，Barriers不会中断数据流，所以非常的轻量；多个不同快照的多个barriers可以同时在stream中出现，即多个快照可能同时创建；

image.png

如上图所示，Barriers在Source stream的并行数据流中插入，当snapshot n的barriers 被插入(记作Sn)，
Sn点是Source中snapshot覆盖数据的位置，例如在Kafka中，此位置表示某个分区中最后一条数据的偏移量(offset)；Sn点被发送给checkpoint coordinator[位于Flink JobManager中]；

然后barrier继续移动，当中间算子所在其所有的输入流(input stream)中收到snapshot n的barrier时，会向其所有输出流(outgoing stream)插入snapshot n的barrier；一旦Sink operator(流式DAG的末端)从其所有输入流中接受到barrier n，向check pint coordinator确认snapshot n已经完成，在所有sinks确认之后，该snapshot被认为已完成；

当快照n完成后，由于数据源中先于Sn的数据已经通过了整个拓扑图，我们可以确定不再需要这些数据了---作业将永远不会再向source请求source请求Sn之前的记录；

image.png

接收超过输入流的operator需要基于snapshot barrier对齐(align)输入；

当算子从输入流接收到snapshot的barrier n，就不能继续处理此数据流的后续数据，知道其接收到其余流的barrier n为止，否则会将属于snapshot n 和 snapshot n+1的数据混淆；
接收到barrier n的流的数据会被放在一个input buffer中，暂时不会处理；
当从最后一个流中接收到barrier n 时，算子会emit所有暂存在buffer中的数据，然后自己向下游发送Snapshot n；
最后算子恢复所有输入流数据的处理，优先处理缓存中的数据

恢复

Flink恢复机制十分直接：在系统失效时，Flink选择最近的已经完成的检查点，系统接下来重部署整个数据流图，然后给每个Operator在检查点k时的相应状态，数据源则被设置为从数据流的Sk位置开始读取；例如，在Kafka执行恢复时，系统会通知消费者从偏移量开始获取数据；

先决条件：

持续的数据源，比如消息队列或文件系统；
状态存储的持久化，通常是分布式文件系统(如HDFS，S3，GFS)

State Backends：

流计算中以下场景中需要保存状态；

窗口操作；
使用了KV操作；
继承了C和CheckpointedFunction的函数；

当检查点(checkpoint)机制启动时，状态将在checkpoint中持久化来应对数据丢失以及恢复；
而状态在内部是如何表示的，状态是如何持久化到检查点中以及持久化到哪里都取决于选定的State Backend；
Flink在保存状态时，支持3种存储方式：

MemoryStateBackend(如果没有配置其他内容，系统默认将使用MemoryStateBackend)
FsStateBackend
RocksDBStateBackend

Savepoint 保存点

Flink的Savepoints与Checkpoints的不同之处在于备份与传统数据库中的恢复日志不同；checkpoint的主要目的是在job意外失败时提供恢复机制；checkpoint的生命周期由Flink管理；即Flink创建，拥有发布Checkpoint----无需用户交互；

Checkpoint：

轻量级；
尽可能快地恢复；

与此相反，Savepoints由用户创建，拥有和删除；他们一般是有计划的进行手动备份和恢复；他们一般是有计划的进行手动备份和恢复；例如，Flink版本需要更新的时候，或者更改你的流处理逻辑，更改并行性等等；在这种情况下，我们往往关闭一下流，这就需要我们将流中的状态进行存储，后面重新部署job的时候进行恢复；

从概念上讲，Savepoints的生成和恢复成本可能更高；并且更多地关注可移植性和对前面提到的作业更改的支持；

参考文献

[1]. Distributed Snapshots: Determining Global States of Distributed Systems.
[2]. Apache Flink Documentation
[3]. 分布式快照算法: Chandy-Lamport 算法

最后编辑于：2019.11.17 14:54:29

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 202,607评论 5赞 476
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,047评论 2赞 379
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 149,496评论 0赞 335
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,405评论 1赞 273
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,400评论 5赞 364
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,479评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,883评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,535评论 0赞 256
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,743评论 1赞 295
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,544评论 2赞 319
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,612评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,309评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,881评论 3赞 306
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,891评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,136评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,783评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,316评论 2赞 342