简单解释: 分布式快照(Chandy-Lamport算法)

早于Flink的异步快照的一个算法,比flink那个有名很多~ (十)简单解释: 分布式数据流的异步快照(Flink的核心)

非常简单的一个给分布式系统做consistency的快照的算法,可以应对环形流,且不需要节点知道有环(Flink的算法要求环的交接节点知道哪个input channel是环的回路),但是要求所有通信channel是FIFO的(flink也是, 相比之下Google的MillWheel则不需要)。

算法简述

任何节点的snapshot由本地状态snapshot和节点的input channel snapshot组成

任何src可以任意时间决定take本地状态snapshot,take完本地snapshot,广播一个marker给所有下游

任意没有take本地snapshot的节点(注意这个算法里src也是可以接受别人的msg的),假设从第x个channel收到第一个marker的时候,take本地状态snapshot(且take接受到第一个marker的input channel-x的channel snapshot为空),然后给所有output channel广播这个marker

从收到第一个marker并take完本地snapshot之后,记录所有input channel的msg到log里,直到从所有的input channel都收到这个marker. 作为这些input channel的channel snapshot。

Flink在系统内有环形通信时的算法

套路跟Chandy-Lamport算法几乎一样。

当一个节点是环的msg流动的起点时(或者说这个节点正好同时是环的起点和终点),它必定有一个input channel是来自自己的downstream节点的。

这个节点不能像其他节点一样,等待所有的input channel的barrier到来,才take snapshot且广播barrier,因为它有一个或多个input channel的消息是被自己往“下游”发的消息所引发的。如果它自己不向下游广播barrier,那么这些回环input channel永远也不会有barrier发来,那么算法会永久等待。

所以这个这个节点只需要等待所有非回环input channel的barrier到了,它就知道所有可能的barrier都到齐了,那么它就可以take本地snapshot且往“下游”广播barrier了(从而造成barrier会通过回路再次抵达这个节点)

重点: 此节点take完本地snapshot之后,需要记录所有回环input channel的msg到log里,直到从此回环input channel收到自己发出的barrier,当所有回环input channel都收到barrier-n. 此时在Step3 take的本地snapshot,加上所有回环input channel的msg log一起,成为此节点在barrier-n的本地snapshot

Failover,failover的时候,除了从本地snapshot恢复状态之外,还需要replay所有input channel的msg。

简单的玄学解释“为什么”

一个分布式系统的snapshot可以理解为时间静止时,系统的各个节点的状态和他们之间的channel的状态(channel里的msg list),就是一个stream集合和table集合的剪影。stream指还在channel里没有融入到table里的msg list,tables可以理解为各个节点的本地状态。

从src开始,当src take一个snapshot之后,任何被src在snapshoting之前发出过的"历史msg"所引起的“蝴蝶效应”都必须被下游记录,才能构成完整的整个系统的consistent global snapshot, 难点在于, 我们无法时间静止,所以src在不知道下游什么状况的情况下,还是要继续往下游发msg,那么对所有下游节点,区分那些是“历史msg”和“历史msg引起的蝴蝶效应msg”,还是“new event”, "new msg引起的蝴蝶效应msg"是难点;任何被src的eventA所因果导致的eventB,C,D,E,都必须记录,对任意系统的msg(或者说event),要么这个event已经被状态吸收,merge在某节点最终的table里(这时候这个节点有可能会因为接受到这个event而发出另外的别的event,也需要保证在下游记录),要么这个event需要记录在这个节点的input stream log里。

对于环来说,所有的被"历史event“所因果导致的"发给本节点的需要记录的"未来状态"还未到来,但是已经有"new event"(比如从src来的新消息)来改本地状态了,所以不能等待回环的消息,而必须先把本地状态take snapshot了才行,作为”历史msg的因果导致的msg“,只能作为”未来event“记录在stream log里了。

当然flink的算法也可以设计为,即使非回环input channel的barrier都到齐了,也不unblock input channel ,而是等待所有的回环input channel的barrier也都到齐了,才take本地snapshot,且一起unblock所有的input channel;这样就不需要维护stream log了。

但是这很蠢。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 202,607评论 5 476
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,047评论 2 379
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 149,496评论 0 335
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,405评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,400评论 5 364
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,479评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,883评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,535评论 0 256
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,743评论 1 295
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,544评论 2 319
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,612评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,309评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,881评论 3 306
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,891评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,136评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,783评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,316评论 2 342

推荐阅读更多精彩内容