Avatar notebook default
12篇文章 · 8675字 · 6人关注
  • Spark从关系数据库加载数据

    整体思路是通过partition并行链接关系数据库。 实现: 1. 加载驱动程序 正确配置: 如果需要在NoteBook中执行任务,需要在启动前...

  • Spark统一内存管理

    spark从1.6.0开始内存管理发生了变化,原来的内存管理由StaticMemoryManager实现,现在被称为Legacy,在1.5.x和...

  • RDD、DataFrame和DataSet的区别

    spark 2.X开始,三者的关系发生了变化,可以参考《且谈Apache Spark的API三剑客:RDD、DataFrame和Dataset》...

  • 大数据学习资源整理

    github地址 后面继续更新在github utils4sscala语法学习common库BigData库SparkSpark coreSpa...

    0.1 2955 3 45
  • 深入理解groupByKey、reduceByKey

    测试源码 下面来看看groupByKey和reduceByKey的区别: 虽然两个函数都能得出正确的结果, 但reduceByKey函数更适合使...

  • DataFrame和Parquet

    Apache Parquet作为文件格式最近获得了显著关注,假设你有一个100列的表,大部分时间你只需要访问3-10列,行存储,不管你需要不需要...

  • Spark Streaming使用Kafka保证数据零丢失

    源文件放在github,随着理解的深入,不断更新,如有谬误之处,欢迎指正。原文链接https://github.com/jacksu/utils...

  • Spark Shuffle之Tungsten Sort Shuffle

    源文件放在github,随着理解的深入,不断更新,如有谬误之处,欢迎指正。原文链接https://github.com/jacksu/utils...

  • Spark Shuffle之Sort Shuffle

    源文件放在github,随着理解的深入,不断更新,如有谬误之处,欢迎指正。原文链接https://github.com/jacksu/utils...

文集作者