圈半球 - 简书

发简信

圈半球

31
关注
1
粉丝
12
文章
3897

字数
4

收获喜欢
0

总资产

IP属地：安徽

李小李的路

Spark--SparkCore面试知识点总结
整理于【Spark面试2000题】Spark core面试篇03 ，梅峰谷大数据 1.Spark使用parquet文件存储格式能带来哪些好处？如果说HDFS 是大数据时代分...

1655 0 14
李小李的路

数仓--Hive-面试之Hive支持的文件格式和压缩格式及各自特点
Hive中的文件格式 1-TEXTFILE 文本格式，Hive的默认格式，数据不压缩，磁盘开销大、数据解析开销大。对应的hive API为：org.apache.hadoo...

4554 1 6
一叶云秋

50道SQL练习题及答案
网上流传这这样的50道练习题，以下是我的解法，仅供各位联系和参考数据表介绍 --1.学生表Student(SId,Sname,Sage,Ssex)--SId 学生编号,Sn...

3303 2 31
SunnyMore

Scala操作HDFS
通过Scala对HDFS的一些操作，包括创建目录，删除目录，上传文件，文件读取，删除文件，Append文件等等；测试代码如下：

6346 0 3
SunnyMore

Spark宽依赖和窄依赖深度剖析
RDD依赖关系与stage划分 Spark中RDD的高效与DAG图有着莫大的关系，在DAG调度中需要对计算过程划分stage，而划分依据就是RDD之间的依赖关系。 1. 窄...

17866 0 13
井地儿

Spark2.4.0 DAG（DAGScheduler）源码分析
Spark的DAG(Directed Acyclic Graph)的生成实际上是Stage的划分，而Stage的划分依据是RDD的依赖关系。在程序提交后，Spark先将所有的...

949 0 5
李小李的路

Spark--数据倾斜解决方案
数据倾斜分为两大类：聚合倾斜和join倾斜，针对不同的倾斜类型采用不同解决方案数据倾斜解决方案上分为：缓解数据倾斜和彻底解决数据倾斜 1.数据倾斜表现形势导致数据倾斜的算...

1532 0 20