Zookeeper的FastLeaderElection算法分析

我们知道,在经典的paxos算法中每一个peer都是proposer,但是这就不可避免的产生提案冲突,为了减少这种冲突带来的系统消耗与时间延迟,就产生了Leader这个角色,整个系统中,就只允许Leader可以发出提案。ZooKeeper就是按照这个思路来实现的。本文主要讨论ZooKeeper中的FastLeaderElection算法,来说明Leader是如何产生的。

我们先要清楚以下几点

  • 一个Server是如何知道其它的Server?
    在ZooKeeper集群中,Server的信息都在zoo.conf配置文件中,根据配置文件的信息就可以知道其它Server的信息。

  • ZooKeeper服务器有哪几种状态?(选主相关的状态)
    LOOKING:寻找leader状态
    LEADING:领导状态(节点为leader)
    FOLLOWING:跟随者状态
    OBSERVING:观察者状态(此状态不参与选举)

  • 成为Leader的必要条件?
    Leader要具有最高的zxid;集群中大多数的机器(至少n/2+1)得到响应并follow选出的Leader。

  • 如果所有zxid都相同(例如: 刚初始化时),此时有可能不能形成n/2+1个Server,怎么办?
    ZooKeeper中每一个Server都有一个ID,这个ID是不重复的,如果遇到这样的情况时,ZooKeeper就推荐ID最大的哪个Server作为Leader。

  • lookForLeader函数什么时候被调用?
    当Server的状态为LOOKING时,lookForLeader就会被调用。具体参见QuorumPeer类的run方法。

  • ZooKeeper中Leader怎么知道Fllower还存活,Fllower怎么知道Leader还存活?
    Leader定时向Fllower发ping消息,Fllower定时向Leader发ping消息,当发现Leader无法ping通时,就改变自己的状态(LOOKING),发起新的一轮选举。

算法相关的数据结构

收到的通知的数据结构:

static public class Notification {

long leader;//被推荐的leader的id

  long zxid;//被推荐的leader的事务id        
  long electionEpoch;//推荐者的选举周期

  QuorumPeer.ServerState state;//推荐者的状态

  long sid;//推荐者的id

  long peerEpoch;//被推荐的leader的选举周期

}

发送通知使用数据结构(跟接收其实差不多):

static public class ToSend {

static enum mType {crequest, challenge, notification, ack}

 
  ToSend(mType type,

                  long leader,

                long zxid,

                long electionEpoch,

                ServerState state,

                long sid,

                long peerEpoch) {

 
            this.leader = leader;

            this.zxid = zxid;

            this.electionEpoch = electionEpoch;

            this.state = state;

            this.sid = sid;

            this.peerEpoch = peerEpoch;

        }

        long leader;//推荐的Leader ID

        long zxid;//推荐的Leader的最大事务ID

        long electionEpoch;// 推荐者本身的选举周期

        QuorumPeer.ServerState state;// 推荐者本身的状态

        long sid; // 推荐者本身的ID

        long peerEpoch; // 推荐的Leader的选举周期

}

关键字段、函数解释

  • leader
    所推荐的leader的id。

  • zxid(ZooKeeper transaction id)
    ZooKeeper事务Id,每个ZooKeeper状态的改变都会形成一个新的zxid值,这个值越大表示更新越新。

  • electionEpoch/logicalclock/peerEpoch
    选举周期,用来判断是否为同一次选举。每调用一次选举函数,logicalclock自增1,并且在选举过程中如果遇到election比当前logicalclock大的值,就更新本地logicalclock的值。

  • public Vote lookForLeader() throws InterruptedException
    选举函数,当ZooKeeper Server的状态变为LOOKING时,就会发起选举。函数会阻塞式地进行选主,直到最终的主产生,并返回为最终的投票结果。

  • synchronized void updateProposal(long leader, long zxid, long epoch)
    更新投票

  • private boolean totalOrderPredicate(long newId, long newZxid, long newEpoch, long curId, long curZxid, long curEpoch)
    将收到的对方的投票与当前自己的投票对比,判断对方的投票是否优于自己的投票。具体代码:

    protected boolean totalOrderPredicate(long newId, long newZxid, long newEpoch, long curId, long curZxid, long curEpoch) {

        LOG.debug("id: " + newId + ", proposed id: " + curId + ", zxid: 0x" +

                Long.toHexString(newZxid) + ", proposed zxid: 0x" + Long.toHexString(curZxid));

        // 使用计票器判断当前server的权重是否为0

        if(self.getQuorumVerifier().getWeight(newId) == 0){

            return false;

        }

       
       
        // 通过Epoch、zxid、id来比较两个候选leader

        return ((newEpoch > curEpoch) ||

                ((newEpoch == curEpoch) &&

                ((newZxid > curZxid) || ((newZxid == curZxid) && (newId > curId)))));

    }

FastLeaderElection算法(lookForLeader函数的主要逻辑)

  1. 发起一轮投票选举,推举自己作为leader,通知所有的服务器,等待接收外部选票。
  1. 只要当前服务器状态为LOOKING,进入循环,不断地读取其它Server发来的通知、进行比较、更新自己的投票、发送自己的投票、统计投票结果,直到leader选出或出错退出。具体作法:

从队列中取出一个Notification(选票),则根据消息中对方的状态进行相应的处理。

1)LOOKING状态:

a.如果发送过来的逻辑时钟大于目前的逻辑时钟,那么说明这是更新的一次选举投票,此时更新本机的逻辑时钟(logicalclock),清空投票箱(因为已经过期没有用了),调用totalOrderPredicate函数判断对方的投票是否优于当前的投票(判断规则上面提过了),是的话用对方推荐的leader更新下一次的投票,否则使用初始的投票(投自己),调用sendNotifications() 通知所有服务器我的选择,跳到d。

b.如果对方处于上轮投票,不予理睬,回到2。

c.如果对方也处于本轮投票,调用totalOrderPredicate函数判断对方的投票是否优于当前的投票,是的话更新当前的投票,否则使用初始的投票(投自己)并新生成notification消息放入发送队列。调用sendNotifications() 通知所有服务器我的选择。

d.将收到的投票放入自己的投票箱中。

e.调用计票器的containsQuorum函数,判断所推荐的leader是否得到集群多数人的同意(根据计票器的实现不同,可以是单纯看数量是否超过n/2,也可以是按权重来判断,我们这里假设单纯看数量),如果得到多数人同意,那么还需等待一段时间,看是否有比当前更优的提议,如果没有,则认为投票结束。根据投票结果修改自己的状态。以上任何一条不满足,则继续循环。

2)OBSERVING状态:

不做任何事。

3)FOLLOWING或LEADING状态:

a.如果选举周期相同(选票是同一轮选举产生),将该数据保存到投票箱,根据当前投票箱的投票判断对方推荐的leader是否得到多数人的同意,如果是则设置状态退出选举过程,否则到b。

b.这是一条与当前逻辑时钟不符合的消息,或者对方推荐的leader没有得到多数人的同意(有可能是收集到的投票数不够),那么说明可能在另一个选举过程中已经有了选举结果,于是将该选举结果加入到outofelection集合中,再根据outofelection来判断是否可以结束选举,如果可以也是保存逻辑时钟,设置状态,退出选举过程。否则继续循环。outofelection用于保存那些状态为FOLLOWING或者LEADING的ZooKeeper节点发送的选票,由于对方的状态为FOLLOWING或者LEADING,所以它们当前不参与选举过程(可能人家已经选完了),因此称为“out of election”。

参考资料

分布式设计与开发(三)——高一致性服务ZooKeeper
Zookeeper全解析——Paxos作为灵魂
一个不错的讲解zookeeper选举算法

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 202,802评论 5 476
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,109评论 2 379
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 149,683评论 0 335
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,458评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,452评论 5 364
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,505评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,901评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,550评论 0 256
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,763评论 1 296
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,556评论 2 319
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,629评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,330评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,898评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,897评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,140评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,807评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,339评论 2 342

推荐阅读更多精彩内容