Spark慢慢来 - 专题

投稿

Spark慢慢来

收录了23篇文章 · 20人关注

Spark on Yarn集群搭建详细过程
由于最近学习大数据开发，spark作为分布式内存计算框架，当前十分火热，因此作为首选学习技术之一。Spark官方提供了三种集群部署方案： Sta...

0.2 Fang2016 3 7
Spark源码分析：DAGScheduler
Spark源码分析：DAGScheduler 概述在RDD一文中提到：定义RDD之后，程序员就可以在动作（注：即action操作）中使用RD...

raincoffee 0 0 1

Spark排错与优化
一. 运维 1. Master挂掉,standby重启也失效 Master默认使用512M内存，当集群中运行的任务特别多时，就会挂掉，原因是ma...

0.6 breeze_lsw 2 32
HDFS机架感知功能原理（rack awareness）
HDFS NameNode对文件块复制相关所有事物负责，它周期性接受来自于DataNode的HeartBeat和BlockReport信息，HD...

0.6 GodHehe 2 11
深入理解groupByKey、reduceByKey
测试源码下面来看看groupByKey和reduceByKey的区别：虽然两个函数都能得出正确的结果，但reduceByKey函数更适合使...

0.6 jacksu在简书 1 23
Spark Streaming使用Kafka保证数据零丢失
源文件放在github，随着理解的深入，不断更新，如有谬误之处，欢迎指正。原文链接https://github.com/jacksu/utils...

jacksu在简书 7 21
Spark 2.0 Structured Streaming 分析
前言 Spark 2.0 将流式计算也统一到DataFrame里去了，提出了Structured Streaming的概念，将数据源映射为一张无...

0.9 祝威廉 13 26 1

Spark新愿景：让深度学习变得更加易于使用
前言 Spark成功的实现了当年的承诺，让数据处理变得更容易，现在，雄心勃勃的Databricks公司展开了一个新的愿景：让深度学习变得更容易。...

祝威廉 1 9
Spark 内存管理的前世今生（下）
欢迎关注我的微信公众号：FunnyBigData 在《Spark 内存管理的前世今生（上）》中，我们介绍了 UnifiedMemoryManag...

0.4 牛肉圆粉不加葱 6 10
Spark SQL，DataFrame以及 Datasets 编程指南 - For 2.0
撰写本文时 Spark 的最新版本为 2.0.0 概述 Spark SQL 是 Spark 用来处理结构化数据的一个模块。与基础的 Spark ...

0.4 牛肉圆粉不加葱 0 32 1