spark - 专题

投稿

spark

收录了5篇文章 · 30人关注

Spark Standalone如何通过start-all.sh启动集群
1.start-all.sh脚本分析我们可以从start-all.sh脚本源文件中看到它其实是start-master.sh和start-sl...

lehi 3 3
Spark累加器(Accumulator)陷阱及解决办法
程序中可能会使用到spark提供的累加器功能，可是如果你不了解它的运行机制，有时候会带来一些负面作用（错误的累加结果）。下文会介绍产生错误结果...

0.3 breeze_lsw 1 8

Spark map-side-join 关联优化
将多份数据进行关联是数据处理过程中非常普遍的用法，不过在分布式计算系统中，这个问题往往会变的非常麻烦，因为框架提供的 join 操作一般会将所有...

0.3 breeze_lsw 0 10
spark broadcast join优化
在大量数据中对一些字段进行关联。举例 ipTable：需要进行关联的几千条ip数据(70k)hist：历史数据（百亿级别）直接join将会对...

0.1 breeze_lsw 0 8
Map
Job类初始化JobClient实例，JobClient中生成JobTracker的RPC实例，这样可以保持与JobTracker的通讯，Job...

yodatech2016 0 0