参考项目: https://github.com/LiShuMing/spark-demos 疑惑一、Spark提交任务依赖包问题? 使用Spa...
参考项目: https://github.com/LiShuMing/spark-demos 疑惑一、Spark提交任务依赖包问题? 使用Spa...
一、准备环境: 创建Kafka Topic和HBase表 1. 在kerberos环境下创建Kafka Topic 1.1 因为kafka默认使...
本文基于spark源码2.11 1. 概要 spark中网络通信无处不在,例如 driver和master的通信,比如driver会想maste...
事由 上周工作中遇到一个bug,现象是一个spark streaming的job会不定期地hang住,不退出也不继续运行。这个job经是用pys...
SparkStreaming适合场景 Storm 流式计算(扶梯)优点: 数据延迟度很低,Storm的事务机制要比SparkStreaming的...
可用性调优 SPARK-13793 之前的PipedRDD实现容错性较差,只要发生fetch错误时,整个job就会失败,该PR改进了PipedR...
准备 Java honest profiler工具: https://github.com/jvm-profiling-tools/honest...
网上有很多文章,发现跟当前的版本有很多冲突,看起来一知半解的;当前讨论的版本为spark2.1.0,之前的版本不再考虑;而其命名方式也很奇怪,可...
编译 carbondata1.2已经支持hive+presto,carbon生态圈基本健全。 基于git checkout到branch-1.2...
Spark Streaming容错机制保障 参考https://databricks.com/blog/2015/01/15/improved-...
专题公告
Spark学习、项目使用相关。