240 发简信
IP属地:北京
  • Spark Sort Based Shuffle内存分析

    分布式系统里的Shuffle 阶段往往是非常复杂的,而且分支条件也多,我只能按着我关注的线去描述。肯定会有不少谬误之处,我会根据自己理解的深入,不断更新这篇文章。 前言 借用...

  • 技术合伙人之殇

    最近几年,有两件事情让做技术的人价值呈现几何倍的增长: 移动互联网时代崛起。那个时候人人似乎都想做APP开发,因为来钱快,也迎来了个人开发者的一个黄金期。 大数据的崛起。如果...

  • 120
    Spark On Yarn 如何提高CPU利用率

    问题描述: Spark on Yarn是利用yarn进行资源调度,这两天我写的一个程序处理大概100W行文本,文本格式是txt,数据大小为50M左右。我将Scala写的...