RDD知识点总结 五大特性,宽窄依赖等详见连接:https://www.jianshu.com/p/592b985c443c Spark--...
概念简述 group by:主要用来对查询的结果进行分组,相同组合的分组条件在结果集中只显示一行记录。可以添加聚合函数。 grouping se...
宽窄依赖概念 窄依赖是指父RDD的每个分区只被子RDD的一个分区所使用,子RDD分区通常对应常数个父RDD分区(O(1),与数据规模无关) 宽依...
整理于【Spark面试2000题】Spark core面试篇03 ,梅峰谷大数据 1.Spark使用parquet文件存储格式能带来哪些好处? ...
Spark Shuffle Read阶段是如何读取数据的 Reduce去拉取Map的输出数据,Spark提供了两套不同的拉取数据框架:通过soc...
会导致执行该job时候集群资源不足,导致执行job结束也没有分配足够的资源,分配了部分Executor,该job就开始执行task,应该是tas...
Spark 运行模式分类 本地模式; standalone模式; spark on yarn 模式,又分未yarn-client和yarn-cl...
参考博客连接 https://juejin.im/post/5b1e343f518825137c1c6a27 应用背景 欢迎各位访问链接中原...
数据倾斜产生背景 数据倾斜表现形势和网上流传不大一样,欢迎批评指正--李小李 在开发DMP平台过程中,有一个标签体系时地理位置标签,需要根据IP...
文集作者