Spark1.3.1源码分析 Spark-Master、Worker启动流程

Master 和 Worker关系图

image.png

总结

  • master:通过读取配置,创建actorSystem,反射调用master,master启动后,执行生命周期方法,preStartreceiveWithLogging,定时val WORKER_TIMEOUT = conf.getLong("spark.worker.timeout", 60) * 1000清理失去心跳的Worker
  • worker:通过读取配置,加载worker所在服务器的cpu cores,memory大小等信息,创建actorSystem,反射调用worker,worker启动后执行生命周期方法preStartreceiveWithLogging,向master注册信息,最重要的信息worker的cpu cores和memory资源大小,定时向master报心跳val HEARTBEAT_MILLIS = conf.getLong("spark.worker.timeout", 60) * 1000 / 4,防止被master清理
  • 所以master会保存worker各个节点的资源信息,与保持心跳,作为后续执行job资源分配,调度的基础
image.png

Spark中start-all.sh脚本

image.png

image.png

Master

1.查看master启动脚本start-master.sh

start-master.sh脚本中可以看到master启动的时候,启动的是org.apache.spark.deploy.master.Master类,所以要看源码,从这个类查看,在从Master伴生对象main方法入手

image.png

2. 源码分析

main方法主要做了以下三件事

  • 读取配置
  • 创建ActorSystem
  • 通过ActorSystem启动Master服务
    image.png

    流程1.加载配置文件 2.启动master
    val args = new MasterArguments(argStrings, conf)这句代码的功能就是加载配置文件,但是里面有可以借鉴Utils工具类的代码
    image.png

    image.png

    关键点在val (actorSystem, _, _, _) = startSystemAndActor(args.host, args.port, args.webUiPort, conf),主要作用,调用创建了ActorSystem
    image.png

    startService函数作为Utils.startServiceOnPort(port, startService, conf, name)的参数,
    image.png

    Utils.startServiceOnPort(port, startService, conf, name)中只是计算出master启动的端口
    image.png

    所以关键还是要看startService方法,该方法又调用doCreateActorSystem
    image.png

    所以第一个红框的作用就是读取配置,包括端口信息,创建ActorSystem,第二个红框,通过反射启动Master
    image.png

    启动Master,Master会走Actor的生命周期方法preStart启动,receiveWithLogging,接收信息
    preStart方法中,启动webUi等操作,最重要的是这句代码,代码,启动一个定时器,定时发送给自己一个case objec CheckForWorkerTimeOut,间隔是val WORKER_TIMEOUT = conf.getLong("spark.worker.timeout", 60) * 1000
    image.png

    Master中最最重要的方法,receiveWithLogging,master启动后,通过该方法接收message做相应的处理,首先查看preStart中,查看定时发CheckForWorkerTimeOut给自己的receive调用的方法,查看源码,
    总结:Master启动后,定时发送CheckForWorkerTimeOut,给自己,在receiveWithLogging,调用timeOutDeadWorkers,定时清理超过心跳时间的Worker,从val workers = new HashSet[WorkerInfo]移除
    image.png

    image.png

Worker

1.查看worker启动脚本start-slave.sh

start-slaves.sh启动start-slave.sh,启动org.apache.spark.deploy.worker.Worker

image.png

image.png

2.源码分析

Worker启动跟Master启动几乎一模一样,

  • 读取配置,获取cpu cores和`memeory
  • 创建ActorSystem
  • 反射创建Worker,Worker启动,调用生命周期方法
    image.png

    image.png
image.png

所以直接看Worker的preStartreceiveWithLogging
preStart方法中,会创建工作目录WorkDir,启动WorkWebUi,最最重要的是,向master注册,registerWithMaster查看方法,调用tryRegisterAllMasters,获取master uri 比如master:7070,获取master的actor,然后向master发送异步无返回值message,将自己的信息封装到case class RegisterWorker,包括自己的id,ip,port, cpu cores,内存大小信息等,所以此时需要到master的receiveWithLogging查看接收到的RegisterWorker做出什么样的操作

image.png

image.png

image.png

master接收到worker的信息后,将RegisterWorker 的信息封装成一个WorkerInfo(拥有worker的信息,id,ip,port, cpu cores,内存大小信息等),再将workerinfo的信息添加到persistenceEngine持久化起来,然后向worker发送RegisteredWorker,告诉worker注册成功,接着调用调度方法schedule(),这个方法大概是这样的,master可能拥有许多client提交的任务,当资源不足的时候,任务会排队,所以当有新的资源,就是worker加入的时候,如果此时有任务排队,又有资源加入master会调度任务分配资源,就是这个schedule()方法。woker收到注册成功的信息RegisteredWorker,所以此时需要去worker的receiveWithLogging中查看

image.png

worker接收到master的信息后,启动定时器,定时val HEARTBEAT_MILLIS = conf.getLong("spark.worker.timeout", 60) * 1000 / 4向自己发送心跳SendHeartbeat,此时需要在worker的receiveWithLogging方法中查看SendHeartbeat,查看代码,又发送heartBeat给master
image.png

image.png

master收到心跳后,判断是否存在workerId,如果存在则更新workerInfo的心跳时间,如果不存在,发送信息ReconnectWorker,让worker重新向注册。
image.png

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 194,088评论 5 459
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 81,715评论 2 371
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 141,361评论 0 319
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,099评论 1 263
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 60,987评论 4 355
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,063评论 1 272
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,486评论 3 381
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,175评论 0 253
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,440评论 1 290
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,518评论 2 309
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,305评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,190评论 3 312
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,550评论 3 298
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 28,880评论 0 17
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,152评论 1 250
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,451评论 2 341
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,637评论 2 335

推荐阅读更多精彩内容