spark - 文集

spark

12篇文章 · 8675字 · 6人关注

Spark从关系数据库加载数据
整体思路是通过partition并行链接关系数据库。实现： 1. 加载驱动程序正确配置：如果需要在NoteBook中执行任务，需要在启动前...

4879 0 2
Spark统一内存管理
spark从1.6.0开始内存管理发生了变化，原来的内存管理由StaticMemoryManager实现，现在被称为Legacy,在1.5.x和...

7836 1 8

RDD、DataFrame和DataSet的区别
spark 2.X开始，三者的关系发生了变化，可以参考《且谈Apache Spark的API三剑客：RDD、DataFrame和Dataset》...

2.2 64548 15 65
大数据学习资源整理
github地址后面继续更新在github utils4sscala语法学习common库BigData库SparkSpark coreSpa...

0.1 8028 3 44
深入理解groupByKey、reduceByKey
测试源码下面来看看groupByKey和reduceByKey的区别：虽然两个函数都能得出正确的结果，但reduceByKey函数更适合使...

0.6 37662 1 23
DataFrame和Parquet
Apache Parquet作为文件格式最近获得了显著关注，假设你有一个100列的表，大部分时间你只需要访问3-10列，行存储，不管你需要不需要...

10059 0 1
Spark Streaming使用Kafka保证数据零丢失
源文件放在github，随着理解的深入，不断更新，如有谬误之处，欢迎指正。原文链接https://github.com/jacksu/utils...

11103 7 21

Spark Shuffle之Tungsten Sort Shuffle
源文件放在github，随着理解的深入，不断更新，如有谬误之处，欢迎指正。原文链接https://github.com/jacksu/utils...

5408 1 1
Spark Shuffle之Sort Shuffle
源文件放在github，随着理解的深入，不断更新，如有谬误之处，欢迎指正。原文链接https://github.com/jacksu/utils...

7040 2 4