基本介绍Ganglia:是UC Berkeley发起的一个开源集群监视项目,设计用于测量数以千计的节点。Ganglia的核心包含gmond、gm...
(本文基于Spark 2.1.1、Kafka 0.10.2、Scala 2.11.8、Zookeeper 3.4.9、Kafka-manager...
曾经试用过主流大厂提供的大数据平台服务,仅从用户体验角度上来说,各有千秋。 百度天算控制台 功能分类明确,使用简单,组件版本较新,客服响应...
浅显易懂的介绍,很多资料对File Blocks副本Location位置的描述是有误的,正确的理解请参考本漫画,后附Hadoop 2.7.3 B...
本文基于Spark 2.1.0版本、Hadoop 2.7.3版本 如无特殊说明,本文的Spark Web UI,特指: [Driver Web ...
本文基于Spark2.1.0版本套用官文Tuning Spark中的一句话作为文章的标题: *Often, choose a serializa...
本文基于Spark2.1.0、Kafka 0.10.2、Scala 2.11.8版本 背景: Kafka做为一款流行的分布式发布订阅消息系统,以...
本文基于Spark2.1.0版本 虽然很少有生产环境用Kafka传递超过1M消息的场景(因为高吞吐、低延时的要求,Kafka 发布-订阅模型中P...
本文基于Spark2.1.0版本 1,先简单介绍一下通过SparkSQL JDBC连接数据库的好处,不过这不是本文的重点 。 JDBC(Java...