大数据生态圈 - 专题

投稿

大数据生态圈

收录了31篇文章 · 3人关注

kafka系列第5篇：一文读懂消费者背后的那点"猫腻"
前言经过前几篇文章的介绍，大致了解了生产者背后的运行原理。消息有生产就得有人去消费，今天我们就来介绍下消费端消费消息背后发生的那点事儿。文...

z小赵 0 0
Kafka系列第4篇：消息发送背后网络操作的那点事儿
前言上篇文章讲述了消息从生产到写入到 Broker 的 partition 上背后发生的故事，并提出了消息发送的网络模型的问题。本篇文章我们...

z小赵 0 0

spark-1.3.0的编译及三种运行模式的配置
最近安装spark1.3.0并与Hadoop2.5.0集成，在Spark的历史资源管理中心没有找到对应的版本，而且在网上也没有找到对应版本的编译...

z小赵 0 0
Spark性能调优篇二之重构RDD架构及RDD持久化
上一篇介绍了一些关于提交Spark任务参数的调优，本片文章来聊聊一个Spark作业中RDD的重构，以及一些复用的RDD持久化的常用策略。首先给...

z小赵 0 2
Spark性能调优篇四之使用Kryo进行序列化操作
接着上一篇文章，今天介绍一下通过使用Kryo这个东东来进一步降低网络IO的传输量和内存的占用率。在介绍Kryo之前，接下来我们先来对比一下默认的...

z小赵 0 1
Spark性能调优篇五之使用fastUtil工具包
今天再来介绍一个小的优化点，是一个通过使用fastutil工具包对数据格式进行优化。首先来明确一个东西，什么是fastutil？ fastuti...

0.3 z小赵 1 5
Spark内核分析之SparkContext初始化源码分析
上一篇介绍了spark作业提交的三种方式，从本篇开始逐一介绍Spark作业运行流程中各个组件的内部工作原理。如标题所说，我们先来看看SparkC...

z小赵 0 1

Spark内核分析之spark作业的三种提交方式
最近在研究Spark源码，顺便记录一下，供大家学习参考，如有错误，请批评指正。好，废话不多说，这一篇先来讲讲Spark作业提交流程的整体架构。 ...

0.1 z小赵 0 6
Spark内核分析之Scheduler资源调度机制
上一篇我们阐述了Driver，Application，Worker的注册实现原理，本篇我们来接着聊聊Driver，Application在注册之...

z小赵 0 1
Spark内核分析之DAGScheduler划分算法实现原理讲解（重要）
接着上一篇，我们接着来分析下一个非常重要的组建DAGScheduler的运行原理是怎么实现的；通过之前对Spark的分析讲解，我们的Spark作...

z小赵 0 1