240 投稿
收录了5篇文章 · 30人关注
  • Resize,w 360,h 240
    Spark Standalone如何通过start-all.sh启动集群

    1.start-all.sh脚本分析 我们可以从start-all.sh脚本源文件中看到它其实是start-master.sh和start-sl...

  • Resize,w 360,h 240
    Spark累加器(Accumulator)陷阱及解决办法

    程序中可能会使用到spark提供的累加器功能,可是如果你不了解它的运行机制,有时候会带来一些负面作用(错误的累加结果)。 下文会介绍产生错误结果...

  • Resize,w 360,h 240
    Spark map-side-join 关联优化

    将多份数据进行关联是数据处理过程中非常普遍的用法,不过在分布式计算系统中,这个问题往往会变的非常麻烦,因为框架提供的 join 操作一般会将所有...

  • Resize,w 360,h 240
    spark broadcast join优化

    在大量数据中对一些字段进行关联。 举例 ipTable:需要进行关联的几千条ip数据(70k)hist:历史数据(百亿级别) 直接join将会对...

  • Map

    Job类初始化JobClient实例,JobClient中生成JobTracker的RPC实例,这样可以保持与JobTracker的通讯,Job...

专题公告

Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用并行框架,Spark,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。